Documentation
Découvrez le mode zéro configuration

Alertes

ServicePilot peut alerter les utilisateurs dès qu'un événement important se produit. Il peut également générer des alertes de manière proactive si une tendance est susceptible de dépasser un seuil dans le futur. Les alertes peuvent également être retenues si l'on prévoit qu'un événement se dissipera sans aucune intervention.

Par défaut, ServicePilot présentera toutes les données via son interface web mais aucune alerte ne sera générée. Pour ajouter des alertes, de nouvelles Policies d'Alerte doivent être configurées. Notez que les Policies d'Alerte sont toutes indépendantes les unes des autres. Il faut faire attention lors de la création de nouvelles alertes afin d'éviter de générer des alertes chevauchantes qui pourraient alerter les utilisateurs du même problème à plusieurs reprises.

Pour ajouter des Policies d'Alerte, consultez la documentation Policies .

Chaque alerte a trois composantes :

  • Une Condition définie ce qui déclenchera l'alerte
  • Un Délai indique si l'alerte doit être retardée pendant un certain temps ou un certain nombre d'événements similaires
  • Une Action est prise lorsque les conditions d'alerte sont respectées et que le délai est expir

Condition d'alerte

Pour qu'une alerte se déclenche, certaines conditions doivent être satisfaites. Ces conditions sont associées aux événements que ServicePilot détecte.

Type de Condition Événement
Ressources Changement de statut d'une ressource au cours d'une période définie.
Objets Changement de statut d'un objet au cours d'une période définie. Les objets déclenchant l'alerte peuvent être filtrés par nom, classe, vue et statut d'acquittement.
Anomalies de service L'algorithme détermine si un objet est normalement dans un état critique ou indisponible, d'après des données requêtées sur les 30 derniers jours. L'anomalie de service indique que l'état de l'objet est anormal.
Vues Changement de statut d'une vue pendant une période définie. Les vues déclenchant l'alerte peuvent être filtrées par nom, classe et statut d'acquittement.
Indicateurs Changement de statut d'un indicateur individuel au cours d'une période définie. Les indicateurs déclenchant l'alerte peuvent être filtrés par nom, nom d'objet, classe d'objet, vue et statut d'acquittement.
SNMP Trap Réception par ServicePilot d'un trap ou notification SNMP pendant une période définie. Les traps peuvent être catégorisés à l'aide des règles de catégorisation SNMP Trap avant d'être filtrés par nom de règle, catégorie de règle, message de règle, sévérité de règle, OID d'entreprise, types générique et spécifique, adresses IP de l'expéditeur et de l'agent. Notez que si un trap est rejeté et n'est donc pas stocké dans la base de données ServicePilot, la Policy d'Alerte ne sera pas appliquée.
Syslog Réception d'un message syslog pendant une période définie. Les syslogs peuvent être filtrés par adresse IP source, gravité, facility, host, description, tag, PID, Msg ID et data.

Note : les opérateurs peuvent marquer les statuts d'alerte des ressources, vues et objets comme étant acquittés. Les éléments acquittés peuvent alors être inclus ou exclus des conditions d'alerte et de la section "statut" de la supervision.

Condition Ack

Lors de la création de Policies d'Alerte avec des conditions Objets, Vues ou Indicateurs, le champ Ack peut être défini pour inclure ou exclure les événements acquittés. Il existe trois options pour le champ Ack :

Ack Utilisation
Ignore Ignorer le statut Ack de l'élément
Ack Inclure seulement les éléments qui ont des problèmes de performance ou de disponibilité qui ont déjà été acquittés
Not Ack Inclure seulement les éléments qui n'ont pas été acquittés

Délai d'alerte

Bien que toutes les conditions d'une alerte puissent être satisfaites, l'action d'alerte ne sera pas exécutée tant que le délai n'aura pas expiré.

Type de délai Utilisation
Sans délai L'action sera prise dès que les conditions seront satisfaites.
Action et ignore Condition pendant x Minutes L'action sera prise dès que les conditions seront satisfaites. Toutefois, l'action ne sera plus réalisée pendant la durée spécifiée, même si les conditions sont de nouveau satisfaites. Cette option est utile lorsque les conditions sont succeptibles de se produire de façon répétée et que vous souhaitez n'être alerté qu'une seule fois.
Action après x Minutes si Condition toujours vraie L'action sera retardée de la durée spécifiée. Ce n'est que si les conditions sont toujours vraies après ce délai que l'action aura lieu. Cette option est utile lorsque les conditions peuvent se produire puis se rétablir d'elles-mêmes. Si le problème persiste, l'action sera déclenchée.
Action après x occurrences de la Condition pendant y Minutes L'action ne sera déclenchée que si elle se produit un nombre de fois pendant la durée spécifiée. Cette option est utile pour des évènements tels que des tentatives de connexion échouées, reçus par syslog, qui indiqueraient une tentative de violation de la sécurité.

Action d'alerte

Une fois les conditions satisfaites, et un éventuel délai expiré, différentes actions peuvent être prises.

Type de Condition Événement
Email Envoyer un email
Webhook Envoyer une requête web GET ou POST
UDP Envoyer un paquet UDP. Si le paquet UDP est correctement formaté et envoyé au port correct, cela peut être défini comme un message syslog
Trap Envoyer un Trap SNMP

Variables d'alerte

Lorsqu'une alerte est déclenchée, certaines informations sont stockées dans des variables et peuvent ensuite être utilisées dans l'action d'alerte. Un sujet d'email peut par exemple contenir le nom de l'objet qui a déclenché l'alerte ou un message UDP syslog peut indiquer l'heure à laquelle l'événement s'est produit.

Certaines variables sont communes à toutes les conditions d'alerte tandis que d'autres variables diffèrent selon les conditions utilisées. Si par exemple vous avez besoin de la valeur de l'indicateur qui a dépassé son seuil, celle-ci ne sera disponible que pour les alertes ayant une condition de type Indicateurs.

Des informations communes sont collectées pour toutes les alertes.

Variable Contenu
{DATE} Date d'alerte basée sur l'heure locale du serveur ServicePilot
{TIME} Heure d'alerte basée sur l'heure locale du serveur ServicePilot
{DATEUTC} Date d'alerte en UTC
{TIMEUTC} Heure d'alerte en UTC
{BASEURL} URL de base du serveur ServicePilot
{LOCALIP} Adresse IP du serveur ServicePilot
{LOCALWEBPORT} Port Web du serveur ServicePilot

Ces variables ne sont disponibles qu'en fonction de la condition de la Policy d'Alerte.

Condition Variable Contenu
Ressources, Vues, Objets, Indicateurs {RESOURCE} Le nom de la ressource
{PACKAGE} Le type de package de la ressource
{STATUS} Le statut actuel de la ressource, de la vue ou de l'objet en tant que caractère unique (?, -, 1, 2, 3, +)
{STRSTATUS} Le statut actuel de la ressource, de la vue ou de l'objet en tant que texte (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
{OLDSTATUS} Le statut précédent de la ressource, de la vue ou de l'objet en tant que caractère unique (?, -, 1, 2, 3, +)
{STROLDSTATUS} Le statut précédent de la ressource, de la vue ou de l'objet en tant que texte (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
Vues, Objets, Indicateurs {CLASS} Le type de vue ou d'objet
{VIEW} Le nom de la vue
{PARENTVIEW} La vue parente de celle qui a déclenché l'alerte
{PROBLEMNOTE} Une note relative au problème, saisie par un opérateur
{OBJECT_1} ... {OBJECT_5} Le contenu de la vue ou les constantes d'objet 1 à 5
{VIEW_0} ... {VIEW_9} Le nom des vues de niveau 0 à 9 dans lesquelles se trouve cette vue, 0 correspondant à la vue MAIN.
{DURATION} La durée depuis laquelle la vue ou l'objet est dans l'état actuel.
Vues, Objets {TEXT} un texte expliquant le dernier changement d'état d'une vue ou d'un objet
Objets, Indicateurs {OBJ} Le nom de l'objet
{IP} L'adresse IP de l'objet
{HOST} Le FQDN ou l'adresse IP de l'objet, selon les méthodes de résolution de noms disponibles
Indicateurs {INDICATORSTATUS} Le statut actuel de l'indicateur en tant que caractère unique (?, -, 1, 2, 3, +)
{INDICATOROLDSTATUS} Le statut précédent de l'indicateur en tant que caractère unique (?,-,1,2,3,+)
{INDICATORNAME} Le nom de l'indicateur
{INDICATORVALUE} La valeur actuelle de l'indicateur
SNMP Trap {TRAPNAME} Le nom de la règle de trap
{TRAPCATEGORY} La catégorie associée à la règle de trap
{TRAPSEVERITY} La gravité associée à la règle de trap
{TRAPMESSAGE} Le message associé à la règle de trap
{TRAPIPSENDER} L'adresse IP de l'expéditeur du trap
{TRAPIPAGENT} L'adresse IP de l'agent SNMP qui a envoyé le trap
{TRAPALLOIDVALUES} L'ensemble des valeurs OID du trap reçu
{TRAPOID1} ... {TRAPOID20} Le nom de la variable OID du trap de 1 à 20
{TRAPVALUE1} ... {TRAPVALUE20} La valeur de la variable OID du trap de 1 à 20
Syslog {TIMESTAMP} Le timestamp trouvé dans le syslog
{HOST} Le host trouvé dans le syslog
{IP} L'adresse IP depuis laquelle le syslog a été reçu
{PID} Le PID trouvé dans le syslog
{TAG} Le Tag trouvé dans le syslog
{TEXT} Le texte du syslog
{DESCRIPTION} Le texte du syslog après que tous les éléments nommés aient été analysés
{FACILITY} Facility syslog
{SEVERITY} Gravité syslog
{MSGID} L'ID du message trouvé dans le syslog
{DATA} Les données structurées trouvées dans le syslog
Délai pas "Sans délai" {CORRID} L'ID de corrélation unique au contexte de l'alerte qui a été utilisé pour vérifier les conditions après le délai spécifié
{WINDOW} La fenêtre de temps pendant laquelle les conditions d'alerte se sont vérifiées avant de déclencher l'alerte
{NBEVENTS} Le nombre d'évènements correspondant aux conditions d'alerte qui déclenchent l'alerte

Acquitter les changements de statut

Lorsque des éléments dans ServicePilot changent de statut et deviennent non disponibles ou ont un problème de performance, les objets, vues et ressources refléteront ce problème. Il est possible d'acquitter le problème afin qu'il puisse être ignoré dans les vues Status et dans les conditions d'alerte. Le fait d'acquitter un problème ne modifiera pas son statut ou ne masquera pas le problème, mais une note sera visible en regard de l'élément acquitté.

Si le problème est résolu et que les éléments deviennent disponibles et nominaux, l'acquittement disparaîtra. Cela peut être un problème pour les éléments qui changent continuellement entre le statut nominal et un mauvais statut, car un acquittement ne sera pas maintenu. Dans ce cas, une Note peut être ajoutée à la place car elle ne sera pas supprimée automatiquement.

Accéder à l'objet "Ack/Note" à partir de la carte

1. En tant qu'utilisateur avec au moins les privilèges opérateur, naviguez dans la hiérarchie de Vue jusqu'à l'objet que vous souhaitez acquitter/noter puis cliquez dessus
2. Cliquez sur le bouton Ack ou Note

Accéder à la vue "Ack/Note" à partir de la carte

1. En tant qu'utilisateur avec au moins les privilèges opérateur, naviguez dans la hiérarchie de Vue jusqu'à l'intérieur de la vue que vous souhaitez acquitter/noter
2. Cliquez sur l'icône Voir les informations View information icon
3. Cliquez sur le bouton Ack ou Note

Accéder à "Ack/Note" à partir des listes de statut

1. En tant qu'utilisateur avec les privilèges opérateur, naviguez jusqu'à Statut
2. Sélectionnez Ressource, Objet ou Vue dans le sous-menu Statut en fonction du composant que vous souhaitez acquitter/noter
3. Sélectionnez un ou plusieurs éléments à acquitter ou noter et cliquez sur le bouton ack vert ou le bouton note bleu

Filtrer des listes de statut

Status filters

Dans les listes de Statut, vous pouvez trouver des éléments en fonction d'un certain nombre de critères de filtrage. La liste des filtres disponibles dépend de la liste de statuts (Ressource, Objet, Vue) sélectionnée :

Filtre Définition
Managed Afficher les éléments qui ne sont pas marqués comme non gérés. Les opérateurs peuvent marquer manuellement les éléments comme non gérés pour arrêter de rapporter le statut ou aussi arrêter de collecter des données.
Unmanaged Afficher les éléments qui sont actuellement marqués comme non gérés. Les opérateurs peuvent marquer manuellement les éléments comme non gérés pour arrêter de rapporter le statut ou également arrêter de collecter des données.
Acknowledged Afficher les éléments qui ont des problèmes de performance ou de disponibilité et qui ont été marqués d'un Ack.
Not Acknowledged Afficher les éléments qui n'ont pas été marqués d'un Ack.
Not Operational Afficher les éléments qui clignotent, indiquant qu'un agent ServicePilot ne rapporte pas certaines données pour la ressource.
Monitored Afficher les éléments qui sont actuellement supervisés.
Not Monitored Afficher les éléments qui ne collectent pas actuellement de données en raison de l'application d'une Policy de monitoring et en dehors de la période de monitoring de cette Policy.
No Response Afficher les éléments qui ne répondent pas actuellement.

Exemples d'Alerting

Pour recevoir des emails lorsqu'un ping ne répond plus, une Policy de type Alerte est nécessaire :

1. Ajouter une nouvelle Policy de type Alerte
2. Définir un nom de Policy d'alerte correspondant. Par exemple : alert_ping_no_response_email
3. Cocher la case Appliquer cette Policy à l'ensemble de la configuration pour que la Policy s'applique sur tous les objets Ping de la configuration
4. Dans l'onglet Condition, définir le type de condition sur Objets
5. Définir le From status sur toutes les couleurs sauf le rouge
6. Définir le To status seulement sur le rouge
7. Définir les Classes filtrées sur Ping
8. Dans l'onglet Action, définir le type d'Action sur email
9. Définir les adresses de l'expéditeur et du/des destinataires (séparés par un point-virgule)
10. Définir le Subjet. Par exemple : (ServicePilot) Le Ping de {OBJ} ne répond plus
11. Définir le Message. Par exemple : Le Ping de {OBJ} ne répond pas à {DATE} {TIME}
12. Sauvegarder la nouvelle Policy

Cette alerte peut être envoyée pour une partie seulement de la configuration. Vous pouvez appliquer cette Policy à une vue ou à un certain nombre de ressources individuellement.

Pour obtenir des notifications lorsqu'un volume de disque dur dépasse le seuil majeur ou critique d'utilisation de l'espace, il faut ajouter une nouvelle Policy de type Alerte :

1. Ajouter une nouvelle Policy de type Alerte
2. Définir un nom de Policy d'alerte correspondant. Par exemple : alert_disk_space_usage_high
3. Cocher la case Appliquer cette Policy à l'ensemble de la configuration pour que la Policy s'applique sur tous les objets Server Disk de la configuration
4. Dans l'onglet Condition, définir le type de condition sur Indicateurs
5. Définir le From status sur gris, vert et bleu
6. Définir le To status sur jaune et violet
7. Définir le Classes filtrées sur Server Disk
8. Définir le Indicateurs filtrés sur Space Usage
9. Sauvegarder la nouvelle Policy

Lorsque la condition est définie sur le type Indicateurs, le nom de l'indicateur et les valeurs actuelles peuvent être utilisés dans l'action. Par exemple: Alerte {STRSTATUS} sur disque: L'utilisation de {OBJ} est à {INDICATORVALUE}

Pour obtenir une alerte en dehors des heures de bureau, commencez par créer une période définissant les plages horaires en dehors des heures de bureau. Incluez ensuite cette période dans la nouvelle Policy de type alerte.

1. Ajoutez une nouvelle Période de temps avec un nom comme En dehors des horaires 1
2. Définir les Plages à 00:00 - 09:00 et 18:00 - 23:59 de Monday à Friday
3. Sauvegarder la nouvelle Période
4. Ajouter une seconde Période de temps avec un nom comme En dehors des horaires 2
5. Définir les Plages à 00:00 - 23:59 pour Samedi et Dimanche
6. Sauvegarder la nouvelle Période
7. Ajouter une nouvelle Policy de type Alerte
8. Définir le nom de la Policy d'alerte. Par exemple : alerte_ooh_site_ressource_non_disponible
9. Dans l'onglet Condition, définir le type de condition sur Ressources
10. Définir la Période d'alertes sur En dehors des horaires 1|En dehors des horaires 2
11. Définir le From status sur toutes les couleurs sauf le rouge
12. Définir le To status sur le rouge seulement
13. Définir l'action
14. Sauvegarder la nouvelle Policy
15. Appliquer la nouvelle Policy sur la vue Sites pour affecter toutes les ressources contenues dans cette vue et dans ses sous-vues.