Тревоги

Тревога  - это ответ системы на событие или условие, заданное пользователем. AggreGate поддерживает широкую систему тревожных оповещений - один из важнейших инструментов в современных системах монторинга. Тревоги оповещают системных операторов, когда что-то идет не так в любой части распределенной системы. Если бы не было тревог, оператору приходилось бы постоянно проходиться по всей системе и нажимать на устройства, чтобы просто убедиться, что все в порядке. Тревоги сообщают операторам, на что они должны обратить внимание.

У каждого пользователя свой набор тревог, но можно также пользоваться тревогами совместно. Тревога включает:

  • Триггеры
  • Правила уведомлений
  • Правила эскалации
  • Корректирующие действия
  • Триггеры тревоги

Тревоги запускаются триггерами (условиями поднятия тревог). Триггером может быть событие, состояние или изменение состояния компонента/аппаратного устройства системы. Более подробно см. в разделе триггеры.

Когда поднимается тревога, система отвечает следующими способами:

  • Уведомление о тревоге может быть немедленно отправлено владельцу тревоги. Его также могут попросить подтвердить тревогу.
  • Могут быть разосланы E-mail сообщения и другие уведомления владельцу тревоги, пользователю(ям) системы или заданным получателям.
  • Тревога может храниться в истории событий как обычное событие.
  • Могут быть выполнены некоторые корректирующие действия в интерактивном и неинтерактивном режимах.
  • Тревога может изменить свое состояние.

Каждый пользователь имеет свой набор тревог.

Администрирование тревог

Для администрирования тревог используются два контекста: общий контекст Тревоги, который выступает в роли контейнера, и контекст Тревога, который содержит в себе информацию об одной тревоге.

Триггеры

Тревоги запускаются триггерами. Каждая тревога может иметь несколько связанных с ней триггеров. Каждый триггер определяет условие, при котором должна быть активирована тревога. Каждая тревога может проверять одно или более устройств или ресурсов, например, все устройства в группе. Вместе с возможностью задать несколько триггеров для одной тревоги, это делает настройку очень гибкой. Существует два типа триггеров:

Триггер: действие, которое запускает ход некоторых событий.

Каждая тревога может не определять ни одного или же определять несколько триггеров каждого тип. Если триггеры не определены, активация тревоги никогда не происходит. Если же определено несколько триггеров, они действуют отдельно - каждый триггер активирует тревогу (нет необходимости сразу во всех - одного триггера достаточно, чтобы активировать тревогу).

Триггеры событий

Триггер события срабатывает, когда происходит событие определенного типа, определенного условиями триггера. Это условие гибко настраивается выражением, что делает возможной комплексную проверку. Например, система мониторинга транспортного средства может создавать тревогу, если событие об ударе, полученное от контроллера на транспортном средстве, показывает превышение порогового значения силы удара.

Триггеры событий поддерживают корреляцию событий, что позволяет активировать тревогу событием одного типа, а деактивировать событием другого типа (коррелирующим событием).

Любой триггер события можно настроить так, чтобы он активировался только при возникновении более N соответсвующих событий за определенный период времени.

Триггеры состояния

Триггер состояния может сработать либо в ответ на определенное состояние, либо на любое изменение состояния объекта мониторинга. Триггер состояния периодически проверяет значение определенной переменной (также указанное пользовательским выражением).

Время гистерезиса (застоя) триггера состояния можно настроить, чтобы активировать тревогу, только если условие длится дольше определенного времени. Например, триггер состояния может поднять тревогу, если подъем температуры выше 120 градусов сохраняется больше 3 минут. Отдельно можно задать гистерезис возврата к исходному состоянию.

Кроме того, триггеры состояния поддерживают обнаружение биения значения (частой смены), о чем сообщается с помощью тревоги особого вида.

Уведомления о тревогах

Когда тревога активирована одним из ее триггеров, AggreGate Server начинает отправку уведомлений и выполнение корректирующих действий.

Уведомления о тревогах сообщают операторам об условиях, вызвавших тревогу, и дают другую релевантную информацию. Типы уведомлений включают:

  • Всплывающие сообщения оператору (могут также включать просьбу подтверждения)
  • Настраиваемые звуки
  • E-mail уведомления. Тревоги можно подтверждать отправкой ответа на e-mail сообщение
  • SMS уведомления
  • Любые другие способы доставки уведомлений, такие как отправка сообщений в Skype через внешнее приложение

Кроме того, корректирующие действия тревог могут реализовывать любые другие способы уведомления.

Состояния тревоги

Состояние тревоги указывает серьезность текущей тревоги. Оно включает в себя несколько факторов, таких как доступность событий тревоги, ожидающих обработки, активность триггера и правила эскалации.

См. Состояния тревоги для более подробной информации.

Активные тревоги

Тревога может оставаться активной после возникновения, пока вызвавшее ее условие остается в силе, либо пока продолжается получение события, коррелирующего с активирующим событием. Сервер хранит список глобальный активных тревог и отслеживает активные экземпляры, связанные с каждым ресурсом и устройством. Активные тревоги с высоким приоритетом обычно визуализируются на инструментальных панелях с обзором системы.

Встроенные тревоги

Тревога устройство выключено

Тревога "Устройство выключено" встроена в базовый пакет дистрибутива AggreGate Server. Она активируется, когда происходит разрыв соединения любого терминала данных с сервером на более, чем на 10 минут.

Согласно триггерам переменной, данная тревога активируется только для тех Devices, у которых активна настройка Включить тревогу при отсутствии соединения.

Тревога "Устройство выключено" контролируется администратором по умолчанию.

Восстановление после отказа

Тревога восстановления после отказа активируется при сбое главного узла отказоустойчивого кластера AggreGate Server, и когда контроль осуществляется главным узлом сети. Е-mail сообщение отправляется администратору по умолчанию при возникновении такой тревоги.

Примеры

Некоторые примеры конфигураций реальных тревог описаны в разделе Примеры тревог.