Тревоги

Управление тревогами

Тревоги уведомляют операторов системы о возникновении важного события или превышении каким-либо параметром порогового значения, в какой бы части распределённой IoT-инсталляции это не случилось. Без тревог оператор был бы вынужден постоянно открывать и просматривать устройства, чтобы убедиться в отсутствии проблем. Тревоги заставляют пользователя обратить внимание на те или иные аспекты работы системы.

Настройки тревоги включают в себя:

Триггеры тревог Правила эскалации
Правила уведомления Корректирующие действия

Триггеры тревог

Тревоги могут иметь один или более триггеров – условий срабатывания тревоги. Они подразделяются на триггеры событий и триггеры состояний.

Каждый триггер может проверять одно или более устройство или ресурс, например, все устройства в группе. Вместе с возможностью устанавливать неограниченное количество триггеров на событие, это обеспечивает очень гибкую настройку механизма оповещений.

Триггеры событий

Триггер события активируется, когда событие определенного типа соответствует условию триггера. Условие задается выражением и позволяет выполнять сложные проверки. Например, система мониторинга транспорта может активировать тревогу, если от контроллера транспортного средства пришло событие «Удар», означающее что сила удара превысила заданный порог.

Триггеры событий поддерживают корреляцию событий, то есть тревога может быть активирована событием одного типа и деактивирована событием другого типа (коррелирующим событием).

Любой триггер события можно настроить для активации только в случае, если активируется больше N соответствующих событий в определенный промежуток времени.

Триггеры состояний

Триггер состояния может активироваться в ответ на конкретное состояние или на любое изменение состояния одного из объектов мониторинга. Триггер состояния периодически проверяет значение переменной, на которую ссылается выражение, указанное в настройках триггера.

Триггеры состояния имеют настраиваемое время гистерезиса (зону нечувствительности). Это позволяет активировать тревогу, только если условие срабатывания выполнялось в течение заданного промежутка времени. Например, триггер состояния может поднять тревогу, если значение температуры превышало отметку 120 градусов на протяжении 3 минут. Аналогичным образом тревога может быть деактивирована.

Триггеры состояний могут быть проверены на основе динамически корректируемых исходных состояний, таких как среднемесячное значение или максимальное значение за выходные. Также триггеры состояний поддерживают распознавание «мерцания» (частых изменений) значений, что вызывает тревогу специального типа.

Триггеры тревог

Правила оповещения

Оповещения информируют пользователя о параметрах тревоги. Оповещения могут быть следующих видов:

  • Всплывающее окно (может требовать подтверждающих действий оператора)
  • Звуковой сигнал
  • E-mail. Поддерживает отправку нескольким адресатам, для подтверждения можно использовать ответы на сообщения
  • SMS
  • Любые другие способы доставки оповещений, такие как отправка сообщения через внешнее приложение, например, Skype или Telegram

Кроме того, для реализации других схем оповещения можно использовать корректирующие действия.

Активные тревоги

После активации тревога может оставаться активной до тех пор, пока выполняется вызвавшее ее условие триггера, или пока не получено событие, коррелирующее с событием активации. Сервер хранит список глобальных активных тревог и отслеживает активные экземпляры, ассоциируемые с каждым ресурсом и устройством. Активные тревоги высокого приоритета обычно визуализируются на инструментальных панелях обзора системы.

Подтверждение и эскалация тревог

Некоторые тревоги могут требовать подтверждения. Неподтвержденные тревоги называются активными и подсвечиваются оранжевым цветом для привлечения внимания оператора.

Эскалация тревоги обычно означает повышение уровня критичности ситуации, спровоцировавшей срабатывание тревоги. Эскалированные тревоги подсвечиваются красным. Существует два метода их эскалации:

  • Количественная эскалация ‐ когда число активных (неподтвержденных) тревог превышает заданный порог
  • Хронологическая эскалация ‐ когда тревога находится в активном состоянии больше заданного промежутка времени

Для одной тревоги можно использовать оба типа эскалации.

Корректирующие действия

Часто при возникновении ошибки требуется выполнить конкретное действие по её устранению. Например, если на устройстве заканчивается память, то, как правило, необходимо либо выгрузить из него данные, либо очистить его внутреннее хранилище.

Тревога

Операции такого рода могут быть автоматизированы. Любое системное действие может быть запущено в ответ на тревогу.

Если в системе нет активных операторов, или она работает в автономном режиме, то корректирующие действия запускаются в неинтерактивном режиме, который также называется автоматическим. Помимо этого существуют интерактивные действия, требующие от оператора ввода данных в реальном времени.

Примеры некоторых интерактивных корректирующих действий:

  • Запуск оператором рабочего процесса разрешения инцидента
  • Запрос к оператору при очистке базы данных - «Вы уверены?»
  • Перезагрузка устройства только после подтверждения от оператора

Примеры автоматических корректирующих действий:

  • Подготовка отчёта о произошедшей тревоге и оправка его по e-mail
  • Запуск внешнего приложения, исправляющего проблему
  • Создание новой заявки в Service Desk