ServicePilot SaaS Documentación

Alertas

ServicePilot puede alertar a los usuarios tan pronto como se produce un evento importante. También puede generar proactivamente alertas si es probable que una tendencia supere un umbral en el futuro. También se pueden retener las alertas si se espera que un evento se disipe sin ninguna acción.

Por defecto, ServicePilot presentará todos los datos a través de su interfaz web, pero no se generarán alertas. Para añadir alertas, se deben configurar nuevas "Policies" de alerta. Tenga en cuenta que las "policies" de alerta son todas independientes entre sí. Hay que tener cuidado al crear nuevas alertas para evitar generar alertas superpuestas que puedan alertar a los usuarios del mismo problema repetidamente.

Para agregar "policies" de alerta, ver la documentación Policies.

Cada alerta tiene tres componentes :

  • Una Condición define lo que activará la alerta.
  • Un Retraso indica si la alerta debe retrasarse durante un cierto tiempo o una serie de eventos similares.
  • Se toma una Acción cuando se cumplen las condiciones de alerta y el límite de tiempo ha expirado.

Condición de alerta

Para que se active una alerta, deben cumplirse ciertas condiciones. Estas condiciones están asociadas a los eventos que ServicePilot detecta.

Tipo de condición Evento
Recursos Cambiar el estado de un recurso dentro de un período de tiempo definido.
Objetos Cambiar el estado de un objeto dentro de un período definido. Los objetos que desencadenan la alerta pueden filtrarse por nombre, clase, vista y estado de reconocimiento.
Vistas Cambiar el estado de una vista durante un período de tiempo definido. Las vistas que desencadenan la alerta pueden filtrarse por nombre, clase y estado de reconocimiento.
Indicadores Cambiar el estado de un indicador individual dentro de un período definido. Los indicadores que activan la alerta pueden filtrarse por nombre, nombre del objeto, clase de objeto, vista y estado de reconocimiento.
SNMP Trap Recepción de una trap (notificación) SNMP durante un período de tiempo definido. Las trampas pueden ser categorizadas usando las reglas de categorización de SNMP Trap antes de ser filtradas por nombre de la regla, categoría de la regla, mensaje de la regla, severidad de la regla, OID corporativo, tipos genéricos y específicos, direcciones IP del remitente y del agente.
Syslog Recibiendo un mensaje del syslog en un período de tiempo definido. Los Syslogs pueden filtrarse por dirección IP de origen, gravedad, instalación, host, descripción, etiqueta, PID, ID de Msg y datos.

Nota: Los operadores pueden marcar los estados de alerta de los recursos, visitas y objetos como reconocidos. Los elementos reconocidos pueden entonces incluirse o excluirse de las condiciones de alerta y de la sección de "estado" de la supervisión.

Retraso de la alerta

Aunque todas las condiciones de una alerta pueden ser satisfechas, la acción de alerta no se ejecutará hasta que el retraso haya expirado.

Tipo de retraso Utilice
Sin demora Se tomarán medidas tan pronto como se cumplan las condiciones.
Acción e ignorar condición para x Minutos Se tomarán medidas tan pronto como se cumplan las condiciones. Sin embargo, la acción ya no se llevará a cabo durante la duración especificada, incluso si las condiciones se cumplen de nuevo. Esta opción es útil cuando es probable que las condiciones se produzcan repetidamente y sólo se quiera ser alertado una vez.
Acción después de x minutos si la condición sigue siendo verdadera La acción se retrasará por la duración especificada. Sólo si las condiciones siguen siendo verdaderas después de este retraso, la acción tendrá lugar. Esta opción es útil cuando pueden darse condiciones y luego recuperarse por sí mismas. Si el problema persiste, se desencadenará la acción.
Acción después de x casos de la Condición durante y minutos La acción sólo se desencadenará si se produce un número de veces durante la duración especificada. Esta opción es útil para eventos como los intentos fallidos de ingreso, recibidos por el syslog, que indicarían un intento de violación de la seguridad.

Acción de alerta

Una vez que se han cumplido las condiciones, y que ha expirado cualquier límite de tiempo, se pueden tomar varias medidas.

Tipo de condición Evento
Email Envía un correo electrónico.
Webhook Envíe una solicitud web GET o POST.
UDP Envía un paquete UDP. Si el paquete UDP está correctamente formateado y enviado al puerto correcto, esto puede ser definido como un mensaje syslog.
Trap Envía un SNMP Trap.

Variables de alerta

Cuando se dispara una alerta, cierta información se almacena en variables y puede utilizarse en la acción de alerta. Por ejemplo, en el asunto de un correo electrónico puede figurar el nombre del asunto que ha disparado la alerta, o un mensaje del syslog UDP puede indicar la hora en que se produjo el evento.

Algunas variables son comunes a todas las condiciones de alerta, mientras que otras variables difieren según las condiciones utilizadas. Por ejemplo, si se necesita el valor del indicador que ha superado su umbral, sólo estará disponible para las alertas con una condición del tipo Indicadores.

Variables comunes

Se recoge información común para todas las alertas.

Variable Contenido
{DATE} La fecha de alerta se basa en la hora local en el servidor de ServicePilot
{TIME} La hora de alerta se basa en la hora local del servidor de ServicePilot
{DATEUTC} Fecha de alerta en UTC
{TIMEUTC} Hora de alerta en UTC
{BASEURL} URL base del servidor ServicePilot
{LOCALIP} Dirección IP del servidor ServicePilot
{LOCALWEBPORT} Puerto web del servidor ServicePilot

Las variables basadas en la condicións

Estas variables sólo están disponibles dependiendo de la condición de la política de alerta.

Condición Variable Contenido
Recursos, Vistas, Objetos, Indicadores {RESOURCE} El nombre del recurso
{PACKAGE} El tipo de paquete del recurso
{STATUS} El estado actual del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +)
{STRSTATUS} El estado actual del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
{OLDSTATUS} El estado previo del recurso, vista u objeto como un personaje único (?, -, 1, 2, 3, +)
{STROLDSTATUS} El estado previo del recurso, vista u objeto como texto (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
Vistas, Objetos, Indicadores {CLASS} El tipo de vista u objeto
{VIEW} El nombre de la vista
{PARENTVIEW} La vista relativa de la que disparó la alerta
{PROBLEMNOTE} Una nota relacionada con el problema, introducida por un operador
{OBJECT_1} ... {OBJECT_5} Ver las constantes de contenido u objeto 1 a 5
{VIEW_0} ... {VIEW_9} El nombre de las vistas de nivel 0 a 9 en las que se encuentra esta vista, 0 corresponde a la vista MAIN
{DURATION} El tiempo que la vista o el objeto ha estado en el estado actual.
Vistas, Objetos {TEXT} Un texto que explica el último cambio de estado de una vista o un objeto
Objetos, Indicadores {OBJ} El nombre del objeto
{IP} La dirección IP del objeto
{HOST} El FQDN o la dirección IP del objeto, dependiendo de los métodos de resolución de nombres disponibles
Indicadores {INDICATORSTATUS} La situación actual del indicador como un solo carácter (?, -, 1, 2, 3, +)
{INDICATOROLDSTATUS} La situación anterior del indicador como un solo carácter (?,-,1,2,3,+)
{INDICATORNAME} El nombre del indicador
{INDICATORVALUE} El valor actual del indicador
SNMP Trap {TRAPNAME} El nombre de la regla de la trap
{TRAPCATEGORY} La categoría asociada a la regla de la trap
{TRAPSEVERITY} La gravedad asociada con la regla de la trap
{TRAPMESSAGE} El mensaje asociado a la regla de la trap
{TRAPIPSENDER} La dirección IP del remitente de la trap
{TRAPIPAGENT} La dirección IP del agente SNMP que envió la trap
{TRAPALLOIDVALUES} El conjunto de valores OID de la trap recibida
{TRAPOID1} ... {TRAPOID20} El nombre de la variable OID de la trap de 1 a 20
{TRAPVALUE1} ... {TRAPVALUE20} El valor de la trap OID variable de 1 a 20
Syslog {TIMESTAMP} La marca de tiempo que se encuentra en el syslog
{HOST} El huésped encontrado en el syslog
{IP} La dirección IP desde la que se recibió el syslog
{PID} La PID que se encuentra en el syslog
{TAG} La Tag que se encuentra en el syslog
{TEXT} El texto del syslog
{DESCRIPTION} El texto del syslog después de que todos los elementos nombrados hayan sido analizados
{FACILITY} Syslog Facility
{SEVERITY} Gravedad del syslog
{MSGID} El ID del mensaje encontrado en el syslog
{DATA} Los datos estructurados que se encuentran en el syslog

Reconocer los cambios de estado

Cuando los elementos en el ServicePilot cambian de estado a no disponible o tienen un problema de rendimiento, los objetos, visitas y recursos reflejarán este problema. Es posible conocer el problema para que pueda ser ignorado en las vistas de Estado y las condiciones de alerta. Reconocer un problema no cambiará su estado ni ocultará el problema, pero una nota será visible junto al elemento reconocido.

Si el problema se resuelve y los elementos se vuelven disponibles y nominales, el reconocimiento desaparecerá. Esto puede ser un problema para los elementos que cambian continuamente entre el estado nominal y el estado malo, ya que no se mantendrá un reconocimiento. En este caso, se puede añadir una Nota en su lugar, ya que no se eliminará automáticamente.

Accediendo al objeto "Ack/Note" desde el mapa

  1. Como usuario con al menos privilegios de operador, navega en el Mapa hasta el objeto que desees reconocer/apuntar y haz clic en él. Map menu item
  2. Haga clic en el botón Ack o Note. Manage button

Accede a la vista "Ack/Note" del mapa

  1. Como usuario con al menos privilegios de operador, navegue en el Mapa a la vista que desee reconocer/anotar Map menu item
  2. Haga clic en el icono Ver información View information icon
  3. Haga clic en el botón Ack o Note Manage button

Acceder a "Ack/Note" desde las listas de estado

  1. Como un usuario con privilegios de operador, navega a Estado Status menu item
  2. Seleccione Recurso, Objeto o Ver en el sub-menú Estado dependiendo del componente que desee reconocer/anotar. Status sub-menu
  3. Seleccione uno o más elementos para salir o notar y haga clic en el botón ack verde o en el botón note azul. Manage button

Filtrar los elementos reconocidos

Una vez que se añade la nota ack, puedes usar los filtros Exclude ManualAck y Only ManualAck en las vistas Estado.

Cuando se crean "policies" de alerta con condiciones de Objeto o Ver, el campo Ack puede ser configurado para incluir o excluir los artículos reconocidos.

Ejemplos de alerta

Recibir un e-mail cuando un Ping no responde

Para recibir un e-mail cuando un ping ya no responde, se requiere una "Policy" de tipo Alerta.

  1. Añade una nueva "policy" de tipo Alerta.
  2. Definir un nombre de la "policy" de alerta correspondiente. Por ejemplo: alert_ping_no_response_email
  3. Marque la casilla Aplicar esta "Policy" a toda la configuración para que la Policy se aplique a todos los objetos Ping de la configuración
  4. En la pestaña de Condición, establezca la clase de condición en Objetos.
  5. Poner De status en todos los colores excepto en el rojo
  6. Ponga el A status sólo en rojo
  7. Poner Clases filtradas a Ping
  8. En la pestaña Acción, establezca el tipo de acción en email
  9. Definir las direcciones del remitente y del destinatario (separadas por un punto y coma)
  10. Define el Tema. Por ejemplo: (ServicePilot) El ping de {OBJ} ya no responde
  11. Ponga el Mensaje. Por ejemplo: El Ping de {OBJ} no responde a {DATE} {TIME}
  12. Guarda la nueva "Policy"

Esta alerta puede ser enviada sólo para una parte de la configuración. Puede aplicar esta "Política" a una vista o a varios recursos individualmente.

Alerta cuando una unidad de disco duro supera un umbral de uso

Para obtener notificaciones cuando el volumen de un disco duro excede el umbral de uso de espacio mayor o crítico, se debe agregar una nueva "Policy" del tipo Alerta.

  1. Añade una nueva "policy" de tipo Alerta.
  2. Definir un nombre de la "policy" de alerta correspondiente. Por ejemplo: alert_disk_space_usage_high
  3. Marque la casilla Aplicar esta "Policy" a toda la configuración para que la Policy se aplique a todos los objetos Server Disk de la configuración
  4. En la pestaña de Condición, establezca la clase de condición en Indicadores
  5. Poner De status a gris, verde y azul
  6. Ponga el A status en amarillo y púrpura
  7. Ponga las Clases filtradas en Server Disk
  8. Ponga los Indicadore filtrado en Space Usage
  9. Guarda la nueva "Policy"

Cuando la condición se establece en el tipo Indicadores, el nombre del indicador y los valores actuales pueden ser utilizados en la acción. Por ejemplo: Alerta {STRSTATUS} en el disco: El uso de {OBJ} está en {INDICATORVALUE}

Alerta en caso de indisponibilidad de los recursos de un sitio fuera de las horas de oficina

Para obtener una alerta de fuera de horario, empieza por crear un período que defina los intervalos de tiempo fuera de horario. Entonces incluye este período en el nueva "policy" de tipo Alerta.

  1. Añade un nuevo Período de tiempo con un nombre como Después de la hora 1
  2. Definir los Intervalos para 00:00 - 09:00 y 18:00 - 23:59 de Lunes y Viernes
  3. Guarda el nuevo Período
  4. Añade un segundo Período de tiempo con un nombre como Después de la hora 2
  5. Definir los Intervalos para 00:00 - 23:59 para Sábado et Domingo
  6. Guarda el nuevo Período
  7. Añade una nueva "policy" de tipo Alerta
  8. Definir un nombre de la "policy" de alerta. Por ejemplo: alerte_ooh_site_ressource_non_disponible
  9. En la pestaña Condición, establezca la clase de condición en Recursos
  10. Ponga el Período de Alerta en Después de la hora 1|Después de la hora 2
  11. Poner De status en todos los colores excepto en el rojo
  12. Ponga el A status sólo en rojo
  13. Definir la acción
  14. Guarda la nueva "Policy"
  15. Aplicar la nueva "Policy" en la vista Sites para asignar todos los recursos contenidos en esa vista y sus sub-vistas.

Empiece Ahora