Documentation

Descubre el modo de configuración cero

Alertas

ServicePilot puede alertar a los usuarios tan pronto como se produce un evento importante. También puede generar proactivamente alertas si es probable que una tendencia supere un umbral en el futuro. También se pueden retener las alertas si se espera que un evento se disipe sin ninguna acción.

Por defecto, ServicePilot presentará todos los datos a través de su interfaz web, pero no se generarán alertas. Para añadir alertas, se deben configurar nuevas Policies de Alerta. Tenga en cuenta que las Policies de Alerta son todas independientes entre sí. Hay que tener cuidado al crear nuevas alertas para evitar generar alertas superpuestas que puedan alertar a los usuarios del mismo problema repetidamente.

Para agregar Policies de Alerta, ver la documentación Policies.

Cada alerta tiene tres componentes :

Una Condición define lo que activará la alerta
Un Retraso indica si la alerta debe retrasarse durante un cierto tiempo o una serie de eventos similares
Se toma una Acción cuando se cumplen las condiciones de alerta y el límite de tiempo ha expirado

Condición de alerta

Para que se active una alerta, deben cumplirse ciertas condiciones. Estas condiciones están asociadas a los eventos que ServicePilot detecta.

Tipo de condición	Evento
Recursos	Cambiar el estado de un recurso dentro de un período de tiempo definido.
Objetos	Cambiar el estado de un objeto dentro de un período definido. Los objetos que desencadenan la alerta pueden filtrarse por nombre, clase, vista y estado de reconocimiento.
Query	Una consulta a la base de datos Lucene y un umbral se ejecutan cada minuto.
Vistas	Cambiar el estado de una vista durante un período de tiempo definido. Las vistas que desencadenan la alerta pueden filtrarse por nombre, clase y estado de reconocimiento.
Indicadores	Cambiar el estado de un indicador individual dentro de un período definido. Los indicadores que activan la alerta pueden filtrarse por nombre, nombre del objeto, clase de objeto, vista y estado de reconocimiento.
NDR	Se ha detectado un evento de Detección y Respuesta de Red (NDR).
SNMP Trap	Recepción por ServicePilot de una trap o notificación SNMP durante un período de tiempo definido. Las trampas pueden ser categorizadas usando las reglas de categorización de SNMP Trap antes de ser filtradas por nombre de la regla, categoría de la regla, mensaje de la regla, severidad de la regla, OID corporativo, tipos genéricos y específicos, direcciones IP del remitente y del agente. Nota que si un Trap es descartado y por lo tanto no se almacena en la base de datos de ServicePilot, la Policy de Alerta no se aplicará.
Syslog	Recibiendo un mensaje del syslog en un período de tiempo definido. Los Syslogs pueden filtrarse por dirección IP de origen, gravedad, instalación, host, descripción, etiqueta, PID, ID de Msg y datos.

Nota: los operadores pueden marcar los estados de alerta de los recursos, vistas y objetos como reconocidos. Los elementos reconocidos pueden entonces incluirse o excluirse de las condiciones de alerta y de la sección de "estado" de la supervisión.

Nota: Anomalías en los recursos - Los objetos cambian de estado en función de los umbrales y la disponibilidad. Es posible ignorar alertas de objeto basadas en datos históricos que determinan si el estado del recurso del objeto se considera una anomalía.

Condición Ack

Cuando se crean Policies de Alerta con condiciones de Objetos, Vistas o Indicadores, el campo Ack puede ser configurado para incluir o excluir eventos adquiridos. Hay tres opciones para el campo Ack:

Ack	Utilización
Ignore	Ignora el estado Ack del artículo
Ack	Incluya sólo aquellos elementos que tengan problemas de rendimiento o disponibilidad que ya hayan sido reconocidos
Not Ack	Incluya sólo los elementos que aún no han sido reconocidos

Retraso de la alerta

Aunque todas las condiciones de una alerta pueden ser satisfechas, la acción de alerta no se ejecutará hasta que el retraso haya expirado:

Tipo de retraso	Utilice
Sin demora	Se tomarán medidas tan pronto como se cumplan las condiciones.
Acción e ignorar condición para x Minutos	Se tomarán medidas tan pronto como se cumplan las condiciones. Sin embargo, la acción ya no se llevará a cabo durante la duración especificada, incluso si las condiciones se cumplen de nuevo. Esta opción es útil cuando es probable que las condiciones se produzcan repetidamente y sólo se quiera ser alertado una vez.
Acción después de x minutos si la condición sigue siendo verdadera	La acción se retrasará por la duración especificada. Sólo si las condiciones siguen siendo verdaderas después de este retraso, la acción tendrá lugar. Esta opción es útil cuando pueden darse condiciones y luego recuperarse por sí mismas. Si el problema persiste, se desencadenará la acción.
Acción después de x casos de la Condición durante y minutos	La acción sólo se desencadenará si se produce un número de veces durante la duración especificada. Esta opción es útil para eventos como los intentos fallidos de ingreso, recibidos por el syslog, que indicarían un intento de violación de la seguridad.

Acción de alerta

Una vez que se han cumplido las condiciones, y que ha expirado cualquier límite de tiempo, se pueden tomar varias medidas.

Tipo de condición	Evento
Email	Enviar un correo electrónico
Webhook	Enviar una solicitud web GET o POST. Esto permite la integración con sistemas de tickets o plataformas de mensajería como Microsoft Teams. Consulte los ejemplos para obtener más información.
UDP	Enviar un package UDP. Si el package UDP está correctamente formateado y enviado al puerto correcto, esto puede ser definido como un mensaje syslog
Trap	Enviar un Trap SNMP

Note: Las acciones Email agrupan todas las alertas del mismo tipo cada minuto y envían un email de resumen con todos los cambios. Para enviar correos electrónicos individuales por alerta, seleccione la opción No agrupado y especifique el asunto del correo electrónico y el texto del cuerpo que desea utilizar.

Variables de alerta

Cuando se dispara una alerta, cierta información se almacena en variables y puede utilizarse en la acción de alerta. Por ejemplo, en el asunto de un correo electrónico puede figurar el nombre del asunto que ha disparado la alerta, o un mensaje del syslog UDP puede indicar la hora en que se produjo el evento.

Algunas variables son comunes a todas las condiciones de alerta, mientras que otras variables difieren según las condiciones utilizadas. Por ejemplo, si se necesita el valor del indicador que ha superado su umbral, sólo estará disponible para las alertas con una condición del tipo Indicadores.

Variables comunes

Se recoge información común para todas las alertas.

Variable	Contenido
`{DATE}`	La fecha de alerta se basa en la hora local en el servidor de ServicePilot
`{TIME}`	La hora de alerta se basa en la hora local del servidor de ServicePilot
`{DATEUTC}`	Fecha de alerta en UTC
`{TIMEUTC}`	Hora de alerta en UTC
`{BASEURL}`	URL base del servidor ServicePilot
`{LOCALIP}`	Dirección IP del servidor ServicePilot
`{LOCALWEBPORT}`	Puerto web del servidor ServicePilot

Las variables basadas en la condicións

Estas variables sólo están disponibles dependiendo de la condición de la política de alerta.

Condición	Variable	Contenido
Recursos, Vistas, Objetos, Indicadores	`{RESOURCE}`	El nombre del recurso
	`{PACKAGE}`	El tipo de package del recurso
	`{TECHNOLOGY}`	Tipo de package o primera parte del nombre del package
	`{TAGS}`	Todos los valores de tags asociados al recurso
	`{TAG_1} ... {TAG_5}`	Del primero al quinto valor de tag asociado al recurso
	`{STATUS}`	El estado actual del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +)
	`{STATUSBADGE}`	El estado actual del recurso, vista u objeto como texto con formato HTML (?,-,1,2,3,+)
	`{STRSTATUS}`	El estado actual del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
	`{OLDSTATUS}`	El estado previo del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +)
	`{OLDSTATUSBADGE}`	El estado anterior del recurso, vista u objeto como texto con formato HTML (?,-,1,2,3,+)
	`{STROLDSTATUS}`	El estado previo del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
	`{DURATION}`	El tiempo que la vista o el objeto ha estado en el estado actual.
	`{PROBLEMNOTE}`	Una nota relacionada con el problema, introducida por un operador
	`{TEXT}`	Un texto que explica el último cambio de estado de una vista o un objeto
	`{DESCRIPTION}`	Contenido del campo de descripción del recurso
	`{NOTE}`	El contenido del campo Nota
Vistas, Objetos, Indicadores	`{CLASS}`	El tipo de vista u objeto
	`{VIEW}`	El nombre de la vista
	`{PARENTVIEW}`	La vista relativa de la que disparó la alerta
	`{OBJECT_1} ... {OBJECT_5}`	Ver las constantes de contenido u objeto 1 a 5
	`{VIEW_0} ... {VIEW_9}`	El nombre de las vistas de nivel 0 a 9 en las que se encuentra esta vista, 0 corresponde a la vista MAIN
Recursos, Objetos, Indicadores	`{ANOMALY}`	Si esta alerta se basa en una anomalía detectada, entonces se devuelve ! en este campo. Si `HTML` está activado, este campo incluirá formato HTML.
Objetos, Indicadores	`{OBJ}`	El nombre del objeto
	`{IP}`	La dirección IP del objeto
	`{HOST}`	El FQDN o la dirección IP del objeto, dependiendo de los métodos de resolución de nombres disponibles
	`{AGENTNAME}`	Nombre del Agente ServicePilot que proporciona datos al objeto
Indicadores	`{INDICATORSTATUS}`	La situación actual del indicador como un solo carácter (?, -, 1, 2, 3, +)
	`{INDICATOROLDSTATUS}`	La situación anterior del indicador como un solo carácter (?,-,1,2,3,+)
	`{INDICATORNAME}`	El nombre del indicador
	`{INDICATORVALUE}`	El valor actual del indicador
Syslog	`{TIMESTAMP}`	La marca de tiempo que se encuentra en el syslog
	`{IP}`	La dirección IP desde la que se recibió el syslog
	`{HOST}`	El huésped encontrado en el syslog
	`{PID}`	La PID que se encuentra en el syslog
	`{TAG}`	La Tag que se encuentra en el syslog
	`{TEXT}`	El texto del syslog
	`{DESCRIPTION}`	El texto del syslog después de que todos los elementos nombrados hayan sido analizados
	`{FACILITY}`	Syslog Facility
	`{SEVERITY}`	Gravedad del syslog
	`{MSGID}`	El ID del mensaje encontrado en el syslog
	`{DATA}`	Los datos estructurados que se encuentran en el syslog
SNMP Trap	`{TRAPNAME}`	El nombre de la regla de la trap
	`{TRAPCATEGORY}`	La categoría asociada a la regla de la trap
	`{TRAPSEVERITY}`	La gravedad asociada con la regla de la trap
	`{TRAPMESSAGE}`	El mensaje asociado a la regla de la trap
	`{TRAPIPSENDER}`	La dirección IP del remitente de la trap
	`{TRAPIPAGENT}`	La dirección IP del agente SNMP que envió la trap
	`{TRAPALLOIDVALUES}`	El conjunto de valores OID de la trap recibida
	`{TRAPOID1} ... {TRAPOID20}`	El nombre de la variable OID de la trap de 1 a 20
	`{TRAPVALUE1} ... {TRAPVALUE20}`	El valor de la trap OID variable de 1 a 20
NDR	`{TIMESTAMP}`	Hora a la que se detectó el evento NDR
	`{PROTO}`	El protocolo (TCP, UDP, ICMP) del evento NDR
	`{SRCAGENT}`	El Agente ServicePilot que detecta el origen del tráfico de eventos NDR
	`{SRCIP}`	Dirección IP de origen del tráfico de eventos NDR
	`{SRCHOST}`	El nombre del host de origen del tráfico de eventos NDR
	`{SRCCOUNTRY}`	País de origen del tráfico de eventos NDR
	`{SRCPROCESS}`	ID del proceso de origen del tráfico de eventos NDR
	`{DSTAGENT}`	El Agente ServicePilot detecta el destino del tráfico de eventos NDR
	`{DSTIP}`	Dirección IP de destino del tráfico de eventos NDR
	`{DSTPORT}`	Puerto de destino del tráfico de eventos NDR
	`{DSTHOST}`	Nombre del host de destino del tráfico de eventos NDR
	`{DSTCOUNTRY}`	País de destino del tráfico de eventos NDR
	`{DSTPROCESS}`	ID del proceso de destino del tráfico de eventos NDR
	`{MODEL}`	El modelo que desencadena el evento NDR
	`{ATTACK}`	El tipo de ataque detectado por el modelo
	`{SCORE}`	La puntuación de certidumbre del acontecimiento NDR
Query	`{COLLECTION}`	La recopilación de datos de ServicePilot consultó
	`{QUERY}`	La consulta Lucene realizada
	`{OPERATOR}`	El operador de umbral utilizado para comparar la consulta con el umbral
	`{THRESHOLD}`	El valor umbral utilizado para comprobar la consulta
	`{VALUE}`	El valor devuelto por la consulta
Retardo no "No retraso"	`{CORRID}`	El ID de correlación único para el contexto de la alerta que se utilizó para comprobar las condiciones después del tiempo especificado
	`{WINDOW}`	La ventana de tiempo durante cual se verificaron las condiciones de la alerta, lo que desencadenó la alerta
	`{NBEVENTS}`	El número de eventos que coinciden con las condiciones de la alerta que la activan

Reconocer los cambios de estado

Cuando los elementos en el ServicePilot cambian de estado a no disponible o tienen un problema de rendimiento, los objetos, vistas y recursos reflejarán este problema. Es posible conocer el problema para que pueda ser ignorado en las vistas de Estado y las condiciones de alerta. Reconocer un problema no cambiará su estado ni ocultará el problema, pero una nota será visible junto al elemento reconocido.

Si el problema se resuelve y los elementos se vuelven disponibles y nominales, el reconocimiento desaparecerá. Esto puede ser un problema para los elementos que cambian continuamente entre el estado nominal y el estado malo, ya que no se mantendrá un reconocimiento. En este caso, se puede añadir una Nota en su lugar, ya que no se eliminará automáticamente.

Accediendo al objeto "Ack/Note" desde el mapa


1. Como usuario con al menos privilegios de operador, navega en la jerarquía de la Vista hasta el objeto que desees reconocer/apuntar y haz clic en él.
2. Haga clic en el botón Ack o Note

Accede a la vista "Ack/Note" del mapa


1. Como usuario con al menos privilegios de operador, navegue en la jerarquía de la Vista a la vista que desee reconocer/anotar
2. Haga clic en el icono Ver información
3. Haga clic en el botón Ack o Note

Acceder a "Ack/Note" desde las listas de estado


1. Como un usuario con privilegios de operador, navega a Estado
2. Seleccione Recurso, Objeto o Ver en el sub-menú Estado dependiendo del componente que desee reconocer/anotar.
3. Seleccione uno o más elementos para salir o notar y haga clic en el botón ack verde o en el botón note azul.

Filtrar listas de estado

Status filters

En las listas de estado, puede encontrar elementos según una serie de criterios de filtrado. La lista de filtros disponibles depende de la lista de estados (Recurso, Objeto, Vista) seleccionada:

Filtro	Definición
Managed	Mostrar los elementos que no están marcados como no gestionados. Los operadores pueden marcar manualmente los elementos como no gestionados para dejar de informar sobre su estado o también dejar de recopilar datos.
Unmanaged	Ver los elementos que actualmente están marcados como no gestionados. Los operadores pueden marcar manualmente los elementos como no gestionados para dejar de informar sobre su estado o también dejar de recopilar datos.
Acknowledged	Muestra los elementos que tienen problemas de rendimiento o disponibilidad y que han sido marcados con un Ack.
Not Acknowledged	Mostrar los elementos que no han sido marcados con un Ack.
Not Operational	Mostrar elementos parpadeantes, indicando que un Agente ServicePilot no está reportando ciertos datos para el recurso.
Monitored	Muestra los elementos que se están supervisando actualmente.
Not Monitored	Muestra los elementos que no están recogiendo datos actualmente debido a la aplicación de una política de seguimiento y fuera del periodo de seguimiento de dicha Policy.
No Response	Mostrar los elementos que no responden actualmente.

Ejemplos de alerta

Recibir un e-mail cuando un Ping no responde

Para recibir un e-mail cuando un ping ya no responde, se requiere una Policy de tipo Alerta:


1. Añade una nueva Policy de tipo Alerta
2. Definir un nombre de la Policy de alerta correspondiente. Por ejemplo: `alert_ping_no_response_email`
3. Marque la casilla Aplicar esta Policy a toda la configuración para que la Policy se aplique a todos los objetos `Ping` de la configuración
4. En la pestaña de Condición, establezca la clase de condición en Objetos
5. Poner De status en todos los colores excepto en el rojo
6. Ponga el A status sólo en rojo
7. Poner Clases filtradas a `Ping`
8. En la pestaña Acción, establezca el tipo de acción en email
9. Definir las direcciones del remitente y del destinatario (separadas por un punto y coma)
10. Define el Tema. Por ejemplo: `(ServicePilot) El ping de {OBJ} ya no responde`
11. Ponga el Mensaje. Por ejemplo: `El Ping de {OBJ} no responde a {DATE} {TIME}`
12. Guarda la nueva Policy

Esta alerta puede ser enviada sólo para una parte de la configuración. Puede aplicar esta "Política" a una vista o a varios recursos individualmente.

Enviar una alerta como mensaje de canal de Microsoft Teams

Teams puede recibir y enviar mensajes a un canal utilizando una URL creada para enviar webhooks. Empiece por crear la URL en Microsoft Teams y, a continuación, configure la URL y el cuerpo POST correctamente en una alerta de ServicePilot.


1. Añade una nueva Policy de tipo Alerta
2. Definir un nombre de la Policy de alerta correspondiente. Por ejemplo: `alert_teams_channel`
3. Establezca la Condición requerida
4. En la pestaña Action, establecer el tipo de acción a Webhook
5. Establezca el Método como Post
6. Establece los datos del Webhook usando una definición JSON de AdaptiveCard
7. Probar el nuevo Webhook
8. Guardar la nueva Policy de Alerta

Example Microsoft Teams webhook body:

{
  "type": "message",
  "attachments": [{
      "contentType": "application/vnd.microsoft.card.adaptive",
      "contentUrl": null,
      "content": {
        "$schema": "http://adaptivecards.io/schemas/adaptive-card.json",
        "type": "AdaptiveCard",
        "version": "1.2",
        "body": [{
            "type": "TextBlock",
            "text": "ServicePilot object unavailable: {OBJ}"
          }
        ]
      }
    }
  ]
}

Alerta cuando una unidad de disco duro supera un umbral de uso

Para obtener notificaciones cuando el volumen de un disco duro excede el umbral de uso de espacio mayor o crítico, se debe agregar una nueva Policy del tipo Alerta:


1. Añade una nueva Policy de tipo Alerta
2. Definir un nombre de la Policy de alerta correspondiente. Por ejemplo: `alert_disk_space_usage_high`
3. Marque la casilla Aplicar esta Policy a toda la configuración para que la Policy se aplique a todos los objetos `Server Disk` de la configuración
4. En la pestaña de Condición, establezca la clase de condición en Indicadores
5. Poner De status a gris, verde y azul
6. Ponga el A status en amarillo y púrpura
7. Ponga las Clases filtradas en `Server Disk`
8. Ponga los Indicadore filtrado en `Space Usage`
9. Guardar la nueva Policy de Alerta

Cuando la condición se establece en el tipo Indicadores, el nombre del indicador y los valores actuales pueden ser utilizados en la acción. Por ejemplo: Alerta {STRSTATUS} en el disco: El uso de {OBJ} está en {INDICATORVALUE}

Enviar Syslog cuando un objeto se convierte en crítico

Envía un mensaje syslog con formato RFC5424 cuando un objeto se vuelve crítico.


1. Añade una nueva Policy de tipo Alerta
2. Establezca el nombre de la política de alerta de forma adecuada. Por ejemplo: `alert_object_critical`
3. En la pestaña de Condición, establezca De status en todos los marcados excepto críticos y A status en todos los no marcados excepto críticos
4. En la pestaña Acción, establezca el Tipo de acción en UDP
5. Establezca El puerto UDP en `514`
6. Establezca el Mensaje UDP como `<10>1 {DATEUTC}T{TIMEUTC}Z servicepilot.company.com servicepilot - - [criticalObjAlert@23098 object="{OBJ}" class="{CLASS}" problem="{PROBLEMNOTE}"] Critical Object Alert for {OBJ}, Problem: {PROBLEMNOTE}`
7. Guardar la nueva Policy de Alerta

Alerta en caso de indisponibilidad de los recursos de un sitio fuera de las horas de oficina

Para obtener una alerta de fuera de horario, empieza por crear un período que defina los intervalos de tiempo fuera de horario. Entonces incluye este período en el nueva Policy de tipo Alerta:


1. Añade un nuevo Período de tiempo con un nombre como `Después de la hora 1`
2. Definir los Intervalos para `00:00 - 09:00` y `18:00 - 23:59` de `Lunes` y `Viernes`
3. Guarda el nuevo Período
4. Añade un segundo Período de tiempo con un nombre como `Después de la hora 2`
5. Definir los Intervalos para `00:00 - 23:59` para `Sábado` et `Domingo`
6. Guarda el nuevo Período
7. Añade una nueva Policy de tipo Alerta
8. Definir un nombre de la Policy de alerta. Por ejemplo: `alerte_ooh_site_ressource_non_disponible`
9. En la pestaña Condición, establezca la clase de condición en Recursos
10. Ponga el Período de Alerta en `Después de la hora 1\|Después de la hora 2`
11. Poner De status en todos los colores excepto en el rojo
12. Ponga el A status sólo en rojo
13. Definir la acción
14. Guarda la nueva Policy
15. Aplicar la nueva Policy en la vista `Sites` para asignar todos los recursos contenidos en esa vista y sus sub-vistas