Alertas
ServicePilot puede alertar a los usuarios tan pronto como se produce un evento importante. También puede generar proactivamente alertas si es probable que una tendencia supere un umbral en el futuro. También se pueden retener las alertas si se espera que un evento se disipe sin ninguna acción.
Por defecto, ServicePilot presentará todos los datos a través de su interfaz web, pero no se generarán alertas. Para añadir alertas, se deben configurar nuevas "Policies" de alerta. Tenga en cuenta que las "policies" de alerta son todas independientes entre sí. Hay que tener cuidado al crear nuevas alertas para evitar generar alertas superpuestas que puedan alertar a los usuarios del mismo problema repetidamente.
Para agregar "policies" de alerta, ver la documentación Policies.
Cada alerta tiene tres componentes :
- Una Condición define lo que activará la alerta.
- Un Retraso indica si la alerta debe retrasarse durante un cierto tiempo o una serie de eventos similares.
- Se toma una Acción cuando se cumplen las condiciones de alerta y el límite de tiempo ha expirado.
Condición de alerta
Para que se active una alerta, deben cumplirse ciertas condiciones. Estas condiciones están asociadas a los eventos que ServicePilot detecta.
Tipo de condición | Evento |
---|---|
Recursos | Cambiar el estado de un recurso dentro de un período de tiempo definido. |
Objetos | Cambiar el estado de un objeto dentro de un período definido. Los objetos que desencadenan la alerta pueden filtrarse por nombre, clase, vista y estado de reconocimiento. |
Vistas | Cambiar el estado de una vista durante un período de tiempo definido. Las vistas que desencadenan la alerta pueden filtrarse por nombre, clase y estado de reconocimiento. |
Indicadores | Cambiar el estado de un indicador individual dentro de un período definido. Los indicadores que activan la alerta pueden filtrarse por nombre, nombre del objeto, clase de objeto, vista y estado de reconocimiento. |
SNMP Trap | Recepción de una trap (notificación) SNMP durante un período de tiempo definido. Las trampas pueden ser categorizadas usando las reglas de categorización de SNMP Trap antes de ser filtradas por nombre de la regla, categoría de la regla, mensaje de la regla, severidad de la regla, OID corporativo, tipos genéricos y específicos, direcciones IP del remitente y del agente. |
Syslog | Recibiendo un mensaje del syslog en un período de tiempo definido. Los Syslogs pueden filtrarse por dirección IP de origen, gravedad, instalación, host, descripción, etiqueta, PID, ID de Msg y datos. |
Nota: Los operadores pueden marcar los estados de alerta de los recursos, vistas y objetos como reconocidos. Los elementos reconocidos pueden entonces incluirse o excluirse de las condiciones de alerta y de la sección de "estado" de la supervisión.
Retraso de la alerta
Aunque todas las condiciones de una alerta pueden ser satisfechas, la acción de alerta no se ejecutará hasta que el retraso haya expirado.
Tipo de retraso | Utilice |
---|---|
Sin demora | Se tomarán medidas tan pronto como se cumplan las condiciones. |
Acción e ignorar condición para x Minutos | Se tomarán medidas tan pronto como se cumplan las condiciones. Sin embargo, la acción ya no se llevará a cabo durante la duración especificada, incluso si las condiciones se cumplen de nuevo. Esta opción es útil cuando es probable que las condiciones se produzcan repetidamente y sólo se quiera ser alertado una vez. |
Acción después de x minutos si la condición sigue siendo verdadera | La acción se retrasará por la duración especificada. Sólo si las condiciones siguen siendo verdaderas después de este retraso, la acción tendrá lugar. Esta opción es útil cuando pueden darse condiciones y luego recuperarse por sí mismas. Si el problema persiste, se desencadenará la acción. |
Acción después de x casos de la Condición durante y minutos | La acción sólo se desencadenará si se produce un número de veces durante la duración especificada. Esta opción es útil para eventos como los intentos fallidos de ingreso, recibidos por el syslog, que indicarían un intento de violación de la seguridad. |
Acción de alerta
Una vez que se han cumplido las condiciones, y que ha expirado cualquier límite de tiempo, se pueden tomar varias medidas.
Tipo de condición | Evento |
---|---|
Enviar un correo electrónico. | |
Webhook | Enviar una solicitud web GET o POST. |
UDP | Enviar un package UDP. Si el package UDP está correctamente formateado y enviado al puerto correcto, esto puede ser definido como un mensaje syslog. |
Trap | Enviar un Trap SNMP. |
Variables de alerta
Cuando se dispara una alerta, cierta información se almacena en variables y puede utilizarse en la acción de alerta. Por ejemplo, en el asunto de un correo electrónico puede figurar el nombre del asunto que ha disparado la alerta, o un mensaje del syslog UDP puede indicar la hora en que se produjo el evento.
Algunas variables son comunes a todas las condiciones de alerta, mientras que otras variables difieren según las condiciones utilizadas. Por ejemplo, si se necesita el valor del indicador que ha superado su umbral, sólo estará disponible para las alertas con una condición del tipo Indicadores.
Variables comunes
Se recoge información común para todas las alertas.
Variable | Contenido |
---|---|
{DATE} |
La fecha de alerta se basa en la hora local en el servidor de ServicePilot |
{TIME} |
La hora de alerta se basa en la hora local del servidor de ServicePilot |
{DATEUTC} |
Fecha de alerta en UTC |
{TIMEUTC} |
Hora de alerta en UTC |
{BASEURL} |
URL base del servidor ServicePilot |
{LOCALIP} |
Dirección IP del servidor ServicePilot |
{LOCALWEBPORT} |
Puerto web del servidor ServicePilot |
Las variables basadas en la condicións
Estas variables sólo están disponibles dependiendo de la condición de la política de alerta.
Condición | Variable | Contenido |
---|---|---|
Recursos, Vistas, Objetos, Indicadores | {RESOURCE} |
El nombre del recurso |
{PACKAGE} |
El tipo de package del recurso | |
{STATUS} |
El estado actual del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +) | |
{STRSTATUS} |
El estado actual del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK) | |
{OLDSTATUS} |
El estado previo del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +) | |
{STROLDSTATUS} |
El estado previo del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK) | |
Vistas, Objetos, Indicadores | {CLASS} |
El tipo de vista u objeto |
{VIEW} |
El nombre de la vista | |
{PARENTVIEW} |
La vista relativa de la que disparó la alerta | |
{PROBLEMNOTE} |
Una nota relacionada con el problema, introducida por un operador | |
{OBJECT_1} ... {OBJECT_5} |
Ver las constantes de contenido u objeto 1 a 5 | |
{VIEW_0} ... {VIEW_9} |
El nombre de las vistas de nivel 0 a 9 en las que se encuentra esta vista, 0 corresponde a la vista MAIN | |
{DURATION} |
El tiempo que la vista o el objeto ha estado en el estado actual. | |
Vistas, Objetos | {TEXT} |
Un texto que explica el último cambio de estado de una vista o un objeto |
Objetos, Indicadores | {OBJ} |
El nombre del objeto |
{IP} |
La dirección IP del objeto | |
{HOST} |
El FQDN o la dirección IP del objeto, dependiendo de los métodos de resolución de nombres disponibles | |
Indicadores | {INDICATORSTATUS} |
La situación actual del indicador como un solo carácter (?, -, 1, 2, 3, +) |
{INDICATOROLDSTATUS} |
La situación anterior del indicador como un solo carácter (?,-,1,2,3,+) | |
{INDICATORNAME} |
El nombre del indicador | |
{INDICATORVALUE} |
El valor actual del indicador | |
SNMP Trap | {TRAPNAME} |
El nombre de la regla de la trap |
{TRAPCATEGORY} |
La categoría asociada a la regla de la trap | |
{TRAPSEVERITY} |
La gravedad asociada con la regla de la trap | |
{TRAPMESSAGE} |
El mensaje asociado a la regla de la trap | |
{TRAPIPSENDER} |
La dirección IP del remitente de la trap | |
{TRAPIPAGENT} |
La dirección IP del agente SNMP que envió la trap | |
{TRAPALLOIDVALUES} |
El conjunto de valores OID de la trap recibida | |
{TRAPOID1} ... {TRAPOID20} |
El nombre de la variable OID de la trap de 1 a 20 | |
{TRAPVALUE1} ... {TRAPVALUE20} |
El valor de la trap OID variable de 1 a 20 | |
Syslog | {TIMESTAMP} |
La marca de tiempo que se encuentra en el syslog |
{HOST} |
El huésped encontrado en el syslog | |
{IP} |
La dirección IP desde la que se recibió el syslog | |
{PID} |
La PID que se encuentra en el syslog | |
{TAG} |
La Tag que se encuentra en el syslog | |
{TEXT} |
El texto del syslog | |
{DESCRIPTION} |
El texto del syslog después de que todos los elementos nombrados hayan sido analizados | |
{FACILITY} |
Syslog Facility | |
{SEVERITY} |
Gravedad del syslog | |
{MSGID} |
El ID del mensaje encontrado en el syslog | |
{DATA} |
Los datos estructurados que se encuentran en el syslog |
Reconocer los cambios de estado
Cuando los elementos en el ServicePilot cambian de estado a no disponible o tienen un problema de rendimiento, los objetos, vistas y recursos reflejarán este problema. Es posible conocer el problema para que pueda ser ignorado en las vistas de Estado y las condiciones de alerta. Reconocer un problema no cambiará su estado ni ocultará el problema, pero una nota será visible junto al elemento reconocido.
Si el problema se resuelve y los elementos se vuelven disponibles y nominales, el reconocimiento desaparecerá. Esto puede ser un problema para los elementos que cambian continuamente entre el estado nominal y el estado malo, ya que no se mantendrá un reconocimiento. En este caso, se puede añadir una Nota en su lugar, ya que no se eliminará automáticamente.
Accediendo al objeto "Ack/Note" desde el mapa
- Como usuario con al menos privilegios de operador, navega en el Mapa hasta el objeto que desees reconocer/apuntar y haz clic en él.
- Haga clic en el botón Ack o Note.
Accede a la vista "Ack/Note" del mapa
- Como usuario con al menos privilegios de operador, navegue en el Mapa a la vista que desee reconocer/anotar
- Haga clic en el icono Ver información
- Haga clic en el botón Ack o Note
Acceder a "Ack/Note" desde las listas de estado
- Como un usuario con privilegios de operador, navega a Estado
- Seleccione Recurso, Objeto o Ver en el sub-menú Estado dependiendo del componente que desee reconocer/anotar.
- Seleccione uno o más elementos para salir o notar y haga clic en el botón ack verde o en el botón note azul.
Filtrar los elementos reconocidos
Una vez que se añade la nota ack, puedes usar los filtros Exclude ManualAck y Only ManualAck en las vistas Estado.
Cuando se crean "policies" de alerta con condiciones de Objeto o Ver, el campo Ack puede ser configurado para incluir o excluir los artículos reconocidos.
Ejemplos de alerta
Recibir un e-mail cuando un Ping no responde
Para recibir un e-mail cuando un ping ya no responde, se requiere una "Policy" de tipo Alerta.
- Añade una nueva "policy" de tipo Alerta.
- Definir un nombre de la "policy" de alerta correspondiente. Por ejemplo:
alert_ping_no_response_email
- Marque la casilla Aplicar esta "Policy" a toda la configuración para que la Policy se aplique a todos los objetos
Ping
de la configuración - En la pestaña de Condición, establezca la clase de condición en Objetos.
- Poner De status en todos los colores excepto en el rojo
- Ponga el A status sólo en rojo
- Poner Clases filtradas a
Ping
- En la pestaña Acción, establezca el tipo de acción en email
- Definir las direcciones del remitente y del destinatario (separadas por un punto y coma)
- Define el Tema. Por ejemplo:
(ServicePilot) El ping de {OBJ} ya no responde
- Ponga el Mensaje. Por ejemplo:
El Ping de {OBJ} no responde a {DATE} {TIME}
- Guarda la nueva "Policy"
Esta alerta puede ser enviada sólo para una parte de la configuración. Puede aplicar esta "Política" a una vista o a varios recursos individualmente.
Alerta cuando una unidad de disco duro supera un umbral de uso
Para obtener notificaciones cuando el volumen de un disco duro excede el umbral de uso de espacio mayor o crítico, se debe agregar una nueva "Policy" del tipo Alerta.
- Añade una nueva "policy" de tipo Alerta.
- Definir un nombre de la "policy" de alerta correspondiente. Por ejemplo:
alert_disk_space_usage_high
- Marque la casilla Aplicar esta "Policy" a toda la configuración para que la Policy se aplique a todos los objetos
Server Disk
de la configuración - En la pestaña de Condición, establezca la clase de condición en Indicadores
- Poner De status a gris, verde y azul
- Ponga el A status en amarillo y púrpura
- Ponga las Clases filtradas en
Server Disk
- Ponga los Indicadore filtrado en
Space Usage
- Guarda la nueva "Policy"
Cuando la condición se establece en el tipo Indicadores, el nombre del indicador y los valores actuales pueden ser utilizados en la acción. Por ejemplo: Alerta {STRSTATUS} en el disco: El uso de {OBJ} está en {INDICATORVALUE}
Alerta en caso de indisponibilidad de los recursos de un sitio fuera de las horas de oficina
Para obtener una alerta de fuera de horario, empieza por crear un período que defina los intervalos de tiempo fuera de horario. Entonces incluye este período en el nueva "policy" de tipo Alerta.
- Añade un nuevo Período de tiempo con un nombre como
Después de la hora 1
- Definir los Intervalos para
00:00 - 09:00
y18:00 - 23:59
deLunes
yViernes
- Guarda el nuevo Período
- Añade un segundo Período de tiempo con un nombre como
Después de la hora 2
- Definir los Intervalos para
00:00 - 23:59
paraSábado
etDomingo
- Guarda el nuevo Período
- Añade una nueva "policy" de tipo Alerta
- Definir un nombre de la "policy" de alerta. Por ejemplo:
alerte_ooh_site_ressource_non_disponible
- En la pestaña Condición, establezca la clase de condición en Recursos
- Ponga el Período de Alerta en
Después de la hora 1|Después de la hora 2
- Poner De status en todos los colores excepto en el rojo
- Ponga el A status sólo en rojo
- Definir la acción
- Guarda la nueva "Policy"
- Aplicar la nueva "Policy" en la vista
Sites
para asignar todos los recursos contenidos en esa vista y sus sub-vistas.
Empiece Ahora