Alertas
ServicePilot puede alertar a los usuarios tan pronto como se produce un evento importante. También puede generar proactivamente alertas si es probable que una tendencia supere un umbral en el futuro. También se pueden retener las alertas si se espera que un evento se disipe sin ninguna acción.
Por defecto, ServicePilot presentará todos los datos a través de su interfaz web, pero no se generarán alertas. Para añadir alertas, se deben configurar nuevas Policies de Alerta. Tenga en cuenta que las Policies de Alerta son todas independientes entre sí. Hay que tener cuidado al crear nuevas alertas para evitar generar alertas superpuestas que puedan alertar a los usuarios del mismo problema repetidamente.
Para agregar Policies de Alerta, ver la documentación Policies.
Cada alerta tiene tres componentes :
- Una Condición define lo que activará la alerta
- Un Retraso indica si la alerta debe retrasarse durante un cierto tiempo o una serie de eventos similares
- Se toma una Acción cuando se cumplen las condiciones de alerta y el límite de tiempo ha expirado
Condición de alerta
Para que se active una alerta, deben cumplirse ciertas condiciones. Estas condiciones están asociadas a los eventos que ServicePilot detecta.
Tipo de condición | Evento |
---|---|
Recursos | Cambiar el estado de un recurso dentro de un período de tiempo definido. |
Objetos | Cambiar el estado de un objeto dentro de un período definido. Los objetos que desencadenan la alerta pueden filtrarse por nombre, clase, vista y estado de reconocimiento. |
Anomalías del servicio | El algorithmo determinará si un objecto está normalmente en estado crítico o no disponible, según los datos solicitados en los últimos 30 días. La anomalía del servicio indica que el estado del objecto es anormal. |
Vistas | Cambiar el estado de una vista durante un período de tiempo definido. Las vistas que desencadenan la alerta pueden filtrarse por nombre, clase y estado de reconocimiento. |
Indicadores | Cambiar el estado de un indicador individual dentro de un período definido. Los indicadores que activan la alerta pueden filtrarse por nombre, nombre del objeto, clase de objeto, vista y estado de reconocimiento. |
SNMP Trap | Recepción por ServicePilot de una trap o notificación SNMP durante un período de tiempo definido. Las trampas pueden ser categorizadas usando las reglas de categorización de SNMP Trap antes de ser filtradas por nombre de la regla, categoría de la regla, mensaje de la regla, severidad de la regla, OID corporativo, tipos genéricos y específicos, direcciones IP del remitente y del agente. Nota que si un Trap es descartado y por lo tanto no se almacena en la base de datos de ServicePilot, la Policy de Alerta no se aplicará. |
Syslog | Recibiendo un mensaje del syslog en un período de tiempo definido. Los Syslogs pueden filtrarse por dirección IP de origen, gravedad, instalación, host, descripción, etiqueta, PID, ID de Msg y datos. |
Nota: los operadores pueden marcar los estados de alerta de los recursos, vistas y objetos como reconocidos. Los elementos reconocidos pueden entonces incluirse o excluirse de las condiciones de alerta y de la sección de "estado" de la supervisión.
Condición Ack
Cuando se crean Policies de Alerta con condiciones de Objetos, Vistas o Indicadores, el campo Ack puede ser configurado para incluir o excluir eventos adquiridos. Hay tres opciones para el campo Ack:
Ack | Utilización |
---|---|
Ignore | Ignora el estado Ack del artículo |
Ack | Incluya sólo aquellos elementos que tengan problemas de rendimiento o disponibilidad que ya hayan sido reconocidos |
Not Ack | Incluya sólo los elementos que aún no han sido reconocidos |
Retraso de la alerta
Aunque todas las condiciones de una alerta pueden ser satisfechas, la acción de alerta no se ejecutará hasta que el retraso haya expirado:
Tipo de retraso | Utilice |
---|---|
Sin demora | Se tomarán medidas tan pronto como se cumplan las condiciones. |
Acción e ignorar condición para x Minutos | Se tomarán medidas tan pronto como se cumplan las condiciones. Sin embargo, la acción ya no se llevará a cabo durante la duración especificada, incluso si las condiciones se cumplen de nuevo. Esta opción es útil cuando es probable que las condiciones se produzcan repetidamente y sólo se quiera ser alertado una vez. |
Acción después de x minutos si la condición sigue siendo verdadera | La acción se retrasará por la duración especificada. Sólo si las condiciones siguen siendo verdaderas después de este retraso, la acción tendrá lugar. Esta opción es útil cuando pueden darse condiciones y luego recuperarse por sí mismas. Si el problema persiste, se desencadenará la acción. |
Acción después de x casos de la Condición durante y minutos | La acción sólo se desencadenará si se produce un número de veces durante la duración especificada. Esta opción es útil para eventos como los intentos fallidos de ingreso, recibidos por el syslog, que indicarían un intento de violación de la seguridad. |
Acción de alerta
Una vez que se han cumplido las condiciones, y que ha expirado cualquier límite de tiempo, se pueden tomar varias medidas.
Tipo de condición | Evento |
---|---|
Enviar un correo electrónico | |
Webhook | Enviar una solicitud web GET o POST |
UDP | Enviar un package UDP. Si el package UDP está correctamente formateado y enviado al puerto correcto, esto puede ser definido como un mensaje syslog |
Trap | Enviar un Trap SNMP |
Variables de alerta
Cuando se dispara una alerta, cierta información se almacena en variables y puede utilizarse en la acción de alerta. Por ejemplo, en el asunto de un correo electrónico puede figurar el nombre del asunto que ha disparado la alerta, o un mensaje del syslog UDP puede indicar la hora en que se produjo el evento.
Algunas variables son comunes a todas las condiciones de alerta, mientras que otras variables difieren según las condiciones utilizadas. Por ejemplo, si se necesita el valor del indicador que ha superado su umbral, sólo estará disponible para las alertas con una condición del tipo Indicadores.
Se recoge información común para todas las alertas.
Variable | Contenido |
---|---|
{DATE} |
La fecha de alerta se basa en la hora local en el servidor de ServicePilot |
{TIME} |
La hora de alerta se basa en la hora local del servidor de ServicePilot |
{DATEUTC} |
Fecha de alerta en UTC |
{TIMEUTC} |
Hora de alerta en UTC |
{BASEURL} |
URL base del servidor ServicePilot |
{LOCALIP} |
Dirección IP del servidor ServicePilot |
{LOCALWEBPORT} |
Puerto web del servidor ServicePilot |
Estas variables sólo están disponibles dependiendo de la condición de la política de alerta.
Condición | Variable | Contenido |
---|---|---|
Recursos, Vistas, Objetos, Indicadores | {RESOURCE} |
El nombre del recurso |
{PACKAGE} |
El tipo de package del recurso | |
{STATUS} |
El estado actual del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +) | |
{STRSTATUS} |
El estado actual del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK) | |
{OLDSTATUS} |
El estado previo del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +) | |
{STROLDSTATUS} |
El estado previo del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK) | |
Vistas, Objetos, Indicadores | {CLASS} |
El tipo de vista u objeto |
{VIEW} |
El nombre de la vista | |
{PARENTVIEW} |
La vista relativa de la que disparó la alerta | |
{PROBLEMNOTE} |
Una nota relacionada con el problema, introducida por un operador | |
{OBJECT_1} ... {OBJECT_5} |
Ver las constantes de contenido u objeto 1 a 5 | |
{VIEW_0} ... {VIEW_9} |
El nombre de las vistas de nivel 0 a 9 en las que se encuentra esta vista, 0 corresponde a la vista MAIN | |
{DURATION} |
El tiempo que la vista o el objeto ha estado en el estado actual. | |
Vistas, Objetos | {TEXT} |
Un texto que explica el último cambio de estado de una vista o un objeto |
Objetos, Indicadores | {OBJ} |
El nombre del objeto |
{IP} |
La dirección IP del objeto | |
{HOST} |
El FQDN o la dirección IP del objeto, dependiendo de los métodos de resolución de nombres disponibles | |
Indicadores | {INDICATORSTATUS} |
La situación actual del indicador como un solo carácter (?, -, 1, 2, 3, +) |
{INDICATOROLDSTATUS} |
La situación anterior del indicador como un solo carácter (?,-,1,2,3,+) | |
{INDICATORNAME} |
El nombre del indicador | |
{INDICATORVALUE} |
El valor actual del indicador | |
SNMP Trap | {TRAPNAME} |
El nombre de la regla de la trap |
{TRAPCATEGORY} |
La categoría asociada a la regla de la trap | |
{TRAPSEVERITY} |
La gravedad asociada con la regla de la trap | |
{TRAPMESSAGE} |
El mensaje asociado a la regla de la trap | |
{TRAPIPSENDER} |
La dirección IP del remitente de la trap | |
{TRAPIPAGENT} |
La dirección IP del agente SNMP que envió la trap | |
{TRAPALLOIDVALUES} |
El conjunto de valores OID de la trap recibida | |
{TRAPOID1} ... {TRAPOID20} |
El nombre de la variable OID de la trap de 1 a 20 | |
{TRAPVALUE1} ... {TRAPVALUE20} |
El valor de la trap OID variable de 1 a 20 | |
Syslog | {TIMESTAMP} |
La marca de tiempo que se encuentra en el syslog |
{HOST} |
El huésped encontrado en el syslog | |
{IP} |
La dirección IP desde la que se recibió el syslog | |
{PID} |
La PID que se encuentra en el syslog | |
{TAG} |
La Tag que se encuentra en el syslog | |
{TEXT} |
El texto del syslog | |
{DESCRIPTION} |
El texto del syslog después de que todos los elementos nombrados hayan sido analizados | |
{FACILITY} |
Syslog Facility | |
{SEVERITY} |
Gravedad del syslog | |
{MSGID} |
El ID del mensaje encontrado en el syslog | |
{DATA} |
Los datos estructurados que se encuentran en el syslog | |
Retardo no "No retraso" | {CORRID} |
El ID de correlación único para el contexto de la alerta que se utilizó para comprobar las condiciones después del tiempo especificado |
{WINDOW} |
La ventana de tiempo durante cual se verificaron las condiciones de la alerta, lo que desencadenó la alerta | |
{NBEVENTS} |
El número de eventos que coinciden con las condiciones de la alerta que la activan |
Reconocer los cambios de estado
Cuando los elementos en el ServicePilot cambian de estado a no disponible o tienen un problema de rendimiento, los objetos, vistas y recursos reflejarán este problema. Es posible conocer el problema para que pueda ser ignorado en las vistas de Estado y las condiciones de alerta. Reconocer un problema no cambiará su estado ni ocultará el problema, pero una nota será visible junto al elemento reconocido.
Si el problema se resuelve y los elementos se vuelven disponibles y nominales, el reconocimiento desaparecerá. Esto puede ser un problema para los elementos que cambian continuamente entre el estado nominal y el estado malo, ya que no se mantendrá un reconocimiento. En este caso, se puede añadir una Nota en su lugar, ya que no se eliminará automáticamente.
Accediendo al objeto "Ack/Note" desde el mapa
1. Como usuario con al menos privilegios de operador, navega en la jerarquía de la Vista hasta el objeto que desees reconocer/apuntar y haz clic en él. |
2. Haga clic en el botón Ack o Note |
Accede a la vista "Ack/Note" del mapa
1. Como usuario con al menos privilegios de operador, navegue en la jerarquía de la Vista a la vista que desee reconocer/anotar |
2. Haga clic en el icono Ver información |
3. Haga clic en el botón Ack o Note |
Acceder a "Ack/Note" desde las listas de estado
1. Como un usuario con privilegios de operador, navega a Estado |
2. Seleccione Recurso, Objeto o Ver en el sub-menú Estado dependiendo del componente que desee reconocer/anotar. |
3. Seleccione uno o más elementos para salir o notar y haga clic en el botón ack verde o en el botón note azul. |
Filtrar listas de estado
En las listas de estado, puede encontrar elementos según una serie de criterios de filtrado. La lista de filtros disponibles depende de la lista de estados (Recurso, Objeto, Vista) seleccionada:
Filtro | Definición |
---|---|
Managed | Mostrar los elementos que no están marcados como no gestionados. Los operadores pueden marcar manualmente los elementos como no gestionados para dejar de informar sobre su estado o también dejar de recopilar datos. |
Unmanaged | Ver los elementos que actualmente están marcados como no gestionados. Los operadores pueden marcar manualmente los elementos como no gestionados para dejar de informar sobre su estado o también dejar de recopilar datos. |
Acknowledged | Muestra los elementos que tienen problemas de rendimiento o disponibilidad y que han sido marcados con un Ack. |
Not Acknowledged | Mostrar los elementos que no han sido marcados con un Ack. |
Not Operational | Mostrar elementos parpadeantes, indicando que un agente de ServicePilot no está reportando ciertos datos para el recurso. |
Monitored | Muestra los elementos que se están supervisando actualmente. |
Not Monitored | Muestra los elementos que no están recogiendo datos actualmente debido a la aplicación de una política de seguimiento y fuera del periodo de seguimiento de dicha Policy. |
No Response | Mostrar los elementos que no responden actualmente. |
Ejemplos de alerta
Para recibir un e-mail cuando un ping ya no responde, se requiere una Policy de tipo Alerta:
1. Añade una nueva Policy de tipo Alerta | |
2. Definir un nombre de la Policy de alerta correspondiente. Por ejemplo: alert_ping_no_response_email |
|
3. Marque la casilla Aplicar esta Policy a toda la configuración para que la Policy se aplique a todos los objetos Ping de la configuración |
|
4. En la pestaña de Condición, establezca la clase de condición en Objetos | |
5. Poner De status en todos los colores excepto en el rojo | |
6. Ponga el A status sólo en rojo | |
7. Poner Clases filtradas a Ping |
|
8. En la pestaña Acción, establezca el tipo de acción en email | |
9. Definir las direcciones del remitente y del destinatario (separadas por un punto y coma) | |
10. Define el Tema. Por ejemplo: (ServicePilot) El ping de {OBJ} ya no responde |
|
11. Ponga el Mensaje. Por ejemplo: El Ping de {OBJ} no responde a {DATE} {TIME} |
|
12. Guarda la nueva Policy | |
Esta alerta puede ser enviada sólo para una parte de la configuración. Puede aplicar esta "Política" a una vista o a varios recursos individualmente.
Para obtener notificaciones cuando el volumen de un disco duro excede el umbral de uso de espacio mayor o crítico, se debe agregar una nueva Policy del tipo Alerta:
1. Añade una nueva Policy de tipo Alerta | |
2. Definir un nombre de la Policy de alerta correspondiente. Por ejemplo: alert_disk_space_usage_high |
|
3. Marque la casilla Aplicar esta Policy a toda la configuración para que la Policy se aplique a todos los objetos Server Disk de la configuración |
|
4. En la pestaña de Condición, establezca la clase de condición en Indicadores | |
5. Poner De status a gris, verde y azul | |
6. Ponga el A status en amarillo y púrpura | |
7. Ponga las Clases filtradas en Server Disk |
|
8. Ponga los Indicadore filtrado en Space Usage |
|
9. Guarda la nueva Policy | |
Cuando la condición se establece en el tipo Indicadores, el nombre del indicador y los valores actuales pueden ser utilizados en la acción. Por ejemplo: Alerta {STRSTATUS} en el disco: El uso de {OBJ} está en {INDICATORVALUE}
Para obtener una alerta de fuera de horario, empieza por crear un período que defina los intervalos de tiempo fuera de horario. Entonces incluye este período en el nueva Policy de tipo Alerta:
1. Añade un nuevo Período de tiempo con un nombre como Después de la hora 1 |
|
2. Definir los Intervalos para 00:00 - 09:00 y 18:00 - 23:59 de Lunes y Viernes |
|
3. Guarda el nuevo Período | |
4. Añade un segundo Período de tiempo con un nombre como Después de la hora 2 |
|
5. Definir los Intervalos para 00:00 - 23:59 para Sábado et Domingo |
|
6. Guarda el nuevo Período | |
7. Añade una nueva Policy de tipo Alerta | |
8. Definir un nombre de la Policy de alerta. Por ejemplo: alerte_ooh_site_ressource_non_disponible |
|
9. En la pestaña Condición, establezca la clase de condición en Recursos | |
10. Ponga el Período de Alerta en Después de la hora 1|Después de la hora 2 |
|
11. Poner De status en todos los colores excepto en el rojo | |
12. Ponga el A status sólo en rojo | |
13. Definir la acción | |
14. Guarda la nueva Policy | |
15. Aplicar la nueva Policy en la vista Sites para asignar todos los recursos contenidos en esa vista y sus sub-vistas |
|