Administration
Alerting

Alertes

ServicePilot peut alerter les utilisateurs dès qu’un événement important se produit. Il peut également générer des alertes de manière proactive si une tendance est susceptible de dépasser un seuil dans le futur. Les alertes peuvent également être retenues si l’on prévoit qu’un événement se dissipera sans aucune intervention.

Par défaut, ServicePilot présentera toutes les données via son interface web mais aucune alerte ne sera générée. Pour ajouter des alertes, de nouvelles Policies d’Alerte doivent être configurées. Notez que les Policies d’Alerte sont toutes indépendantes les unes des autres. Il faut faire attention lors de la création de nouvelles alertes afin d’éviter de générer des alertes chevauchantes qui pourraient alerter les utilisateurs du même problème à plusieurs reprises.

Pour ajouter des Policies d’Alerte, consultez la documentation Policies.

Chaque alerte a trois composantes :

Une Condition définie ce qui déclenchera l’alerte
Un Délai indique si l’alerte doit être retardée pendant un certain temps ou un certain nombre d’événements similaires
Une Action est prise lorsque les conditions d’alerte sont respectées et que le délai est expir

Condition d’alerte

Pour qu’une alerte se déclenche, certaines conditions doivent être satisfaites. Ces conditions sont associées aux événements que ServicePilot détecte.

Type de Condition	Événement
Ressources	Changement de statut d’une ressource au cours d’une période définie.
Objets	Changement de statut d’un objet au cours d’une période définie. Les objets déclenchant l’alerte peuvent être filtrés par nom, classe, vue et statut d’acquittement.
Query	Une requête Lucene et un seuil sont exécutés toutes les minutes.
Vues	Changement de statut d’une vue pendant une période définie. Les vues déclenchant l’alerte peuvent être filtrées par nom, classe et statut d’acquittement.
Indicateurs	Changement de statut d’un indicateur individuel au cours d’une période définie. Les indicateurs déclenchant l’alerte peuvent être filtrés par nom, nom d’objet, classe d’objet, vue et statut d’acquittement.
NDR	Un événement de détection et de réponse du réseau (NDR) a été détecté.
SNMP Trap	Réception par ServicePilot d’un trap ou notification SNMP pendant une période définie. Les traps peuvent être catégorisés à l’aide des règles de catégorisation SNMP Trap avant d’être filtrés par nom de règle, catégorie de règle, message de règle, sévérité de règle, OID d’entreprise, types générique et spécifique, adresses IP de l’expéditeur et de l’agent. Notez que si un trap est rejeté et n’est donc pas stocké dans la base de données ServicePilot, la Policy d’Alerte ne sera pas appliquée.
Syslog	Réception d’un message syslog pendant une période définie. Les syslogs peuvent être filtrés par adresse IP source, gravité, facility, host, description, tag, PID, Msg ID et data.

Note : les opérateurs peuvent marquer les statuts d’alerte des ressources, vues et objets comme étant acquittés. Les éléments acquittés peuvent alors être inclus ou exclus des conditions d’alerte et de la section “statut” de la supervision.

Note : la case à cocher “Ressources comportant au moins un objet présentant un état anormal” dans la condition “Objets” vous permet d’appliquer une policy uniquement aux événements liés à des anomalies. Elle filtre les alertes générées par des seuils statiques et ne déclenche des actions que lorsque l’analyse historique détermine que l’état de la ressource de l’objet est anormal.

Condition Ack

Lors de la création de Policies d’Alerte avec des conditions Objets, Vues ou Indicateurs, le champ Ack peut être défini pour inclure ou exclure les événements acquittés. Il existe trois options pour le champ Ack :

Ack	Utilisation
Ignore	Ignorer le statut Ack de l’élément.
Ack	Inclure seulement les éléments qui ont des problèmes de performance ou de disponibilité qui ont déjà été acquittés.
Not Ack	Inclure seulement les éléments qui n’ont pas été acquittés.

Délai d’alerte

Bien que toutes les conditions d’une alerte puissent être satisfaites, l’action d’alerte ne sera pas exécutée tant que le délai n’aura pas expiré.

Type de délai	Utilisation
Sans délai	L’action sera prise dès que les conditions seront satisfaites.
Action et ignore Condition pendant x Minutes	L’action sera prise dès que les conditions seront satisfaites. Toutefois, l’action ne sera plus réalisée pendant la durée spécifiée, même si les conditions sont de nouveau satisfaites. Cette option est utile lorsque les conditions sont succeptibles de se produire de façon répétée et que vous souhaitez n’être alerté qu’une seule fois.
Action après x Minutes si Condition toujours vraie	L’action sera retardée de la durée spécifiée. Ce n’est que si les conditions sont toujours vraies après ce délai que l’action aura lieu. Cette option est utile lorsque les conditions peuvent se produire puis se rétablir d’elles-mêmes. Si le problème persiste, l’action sera déclenchée.
Action après x occurrences de la Condition pendant y Minutes	L’action ne sera déclenchée que si elle se produit un nombre de fois pendant la durée spécifiée. Cette option est utile pour des évènements tels que des tentatives de connexion échouées, reçus par syslog, qui indiqueraient une tentative de violation de la sécurité.

Action d’alerte

Une fois les conditions satisfaites, et un éventuel délai expiré, différentes actions peuvent être prises.

Type de Condition	Événement
Email	Envoyer un email.
Webhook	Envoyer une requête web GET ou POST. Cela permet d’intégrer des systèmes de ticketing ou des plateformes de messagerie comme Microsoft Teams. Voir les exemples pour plus de détails.
UDP	Envoyer un paquet UDP. Si le paquet UDP est correctement formaté et envoyé au port correct, cela peut être défini comme un message Syslog.
Trap	Envoyer un Trap SNMP.

Note : par défaut, les actions Email regroupent toutes les alertes du même type toutes les minutes et envoient un e-mail récapitulatif contenant tous les changements. Pour envoyer des courriels individuels par alerte, choisissez l’option Non groupé et spécifiez l’objet et le corps du texte de l’email à utiliser.

Variables d’alerte

Lorsqu’une alerte est déclenchée, certaines informations sont stockées dans des variables et peuvent ensuite être utilisées dans l’action d’alerte. Un sujet d’email peut par exemple contenir le nom de l’objet qui a déclenché l’alerte ou un message UDP syslog peut indiquer l’heure à laquelle l’événement s’est produit.

Certaines variables sont communes à toutes les conditions d’alerte tandis que d’autres variables diffèrent selon les conditions utilisées. Si par exemple vous avez besoin de la valeur de l’indicateur qui a dépassé son seuil, celle-ci ne sera disponible que pour les alertes ayant une condition de type Indicateurs.

Variables communes

Des informations communes sont collectées pour toutes les alertes.

Variable	Contenu
`{DATE}`	Date d’alerte basée sur l’heure locale du serveur ServicePilot
`{TIME}`	Heure d’alerte basée sur l’heure locale du serveur ServicePilot
`{DATEUTC}`	Date d’alerte en UTC
`{TIMEUTC}`	Heure d’alerte en UTC
`{BASEURL}`	URL de base du serveur ServicePilot
`{LOCALIP}`	Adresse IP du serveur ServicePilot
`{LOCALWEBPORT}`	Port Web du serveur ServicePilot

Variables basées sur les conditions

Ces variables ne sont disponibles qu’en fonction de la condition de la Policy d’Alerte.

Condition	Variable	Contenu
Ressources, Vues, Objets, Indicateurs	`{RESOURCE}`	Le nom de la ressource
	`{PACKAGE}`	Le type de package de la ressource
	`{TECHNOLOGY}`	Le type de package ou la première partie du nom du package
	`{TAGS}`	Toutes les valeurs des tags associés à la ressource
	`{TAG_1} ... {TAG_5}`	La première à la cinquième valeur de la tag associée à la ressource
	`{STATUS}`	Le statut actuel de la ressource, de la vue ou de l’objet en tant que caractère unique (?, -, 1, 2, 3, +)
	`{STATUSBADGE}`	Le statut actuel de la ressource, de la vue ou de l’objet sous forme de texte formaté HTML (?,-,1,2,3,+)
	`{STRSTATUS}`	Le statut actuel de la ressource, de la vue ou de l’objet en tant que texte (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
	`{OLDSTATUS}`	Le statut précédent de la ressource, de la vue ou de l’objet en tant que caractère unique (?, -, 1, 2, 3, +)
	`{OLDSTATUSBADGE}`	Le statut précédent de la ressource, de la vue ou de l’objet sous forme de texte formaté HTML (?,-,1,2,3,+)
	`{STROLDSTATUS}`	Le statut précédent de la ressource, de la vue ou de l’objet en tant que texte (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK)
	`{DURATION}`	La durée depuis laquelle la vue ou l’objet est dans l’état actuel
	`{PROBLEMNOTE}`	Une note relative au problème, saisie par un opérateur
	`{TEXT}`	un texte expliquant le dernier changement d’état d’une vue ou d’un objet
	`{DESCRIPTION}`	Le contenu du champ de description de la ressource
	`{NOTE}`	Le contenu du champ Note
Vues, Objets, Indicateurs	`{CLASS}`	Le type de vue ou d’objet
	`{VIEW}`	Le nom de la vue
	`{PARENTVIEW}`	La vue parente de celle qui a déclenché l’alerte
	`{OBJECT_1} ... {OBJECT_5}`	Le contenu de la vue ou les constantes d’objet 1 à 5
	`{VIEW_0} ... {VIEW_9}`	Le nom des vues de niveau 0 à 9 dans lesquelles se trouve cette vue, 0 correspondant à la vue MAIN
Ressources, Objets, Indicateurs	`{ANOMALY}`	Si cette alerte est basée sur une anomalie détectée, ! est renvoyé dans ce champ. Lorsque l’option `HTML` est activée, ce champ inclura le formatage HTML
Objets, Indicateurs	`{OBJ}`	Le nom de l’objet
	`{IP}`	L’adresse IP de l’objet
	`{HOST}`	Le FQDN ou l’adresse IP de l’objet, selon les méthodes de résolution de noms disponibles
	`{AGENTNAME}`	Nom de l’Agent ServicePilot fournissant des données à l’objet
Indicateurs	`{INDICATORSTATUS}`	Le statut actuel de l’indicateur en tant que caractère unique (?, -, 1, 2, 3, +)
	`{INDICATOROLDSTATUS}`	Le statut précédent de l’indicateur en tant que caractère unique (?,-,1,2,3,+)
	`{INDICATORNAME}`	Le nom de l’indicateur
	`{INDICATORVALUE}`	La valeur actuelle de l’indicateur
Syslog	`{TIMESTAMP}`	Le timestamp trouvé dans le syslog
	`{IP}`	L’adresse IP depuis laquelle le syslog a été reçu
	`{HOST}`	Le host trouvé dans le syslog
	`{PID}`	Le PID trouvé dans le syslog
	`{TAG}`	Le Tag trouvé dans le syslog
	`{TEXT}`	Le texte du syslog
	`{DESCRIPTION}`	Le texte du syslog après que tous les éléments nommés aient été analysés
	`{FACILITY}`	Facility syslog
	`{SEVERITY}`	Gravité syslog
	`{MSGID}`	L’ID du message trouvé dans le syslog
	`{DATA}`	Les données structurées trouvées dans le syslog
SNMP Trap	`{TRAPNAME}`	Le nom de la règle de trap
	`{TRAPCATEGORY}`	La catégorie associée à la règle de trap
	`{TRAPSEVERITY}`	La gravité associée à la règle de trap
	`{TRAPMESSAGE}`	Le message associé à la règle de trap
	`{TRAPIPSENDER}`	L’adresse IP de l’expéditeur du trap
	`{TRAPIPAGENT}`	L’adresse IP de l’agent SNMP qui a envoyé le trap
	`{TRAPALLOIDVALUES}`	L’ensemble des valeurs OID du trap reçu
	`{TRAPOID1} ... {TRAPOID20}`	Le nom de la variable OID du trap de 1 à 20
	`{TRAPVALUE1} ... {TRAPVALUE20}`	La valeur de la variable OID du trap de 1 à 20
NDR	`{TIMESTAMP}`	Heure à laquelle l’événement NDR a été détecté
	`{PROTO}`	Le protocole (TCP, UDP, ICMP) de l’événement NDR
	`{SRCAGENT}`	L’Agent ServicePilot qui détecte la source du trafic de l’événement NDR
	`{SRCIP}`	L’adresse IP source du trafic de l’événement NDR
	`{SRCHOST}`	Nom de l’hôte source du trafic d’événements NDR
	`{SRCCOUNTRY}`	Pays d’origine du trafic de l’événement NDR
	`{SRCPROCESS}`	L’ID du process source du trafic de l’événement NDR
	`{DSTAGENT}`	L’Agent ServicePilot détectant la destination du trafic de l’événement NDR
	`{DSTIP}`	L’adresse IP de destination du trafic de l’événement NDR
	`{DSTPORT}`	Le port de destination du trafic de l’événement NDR
	`{DSTHOST}`	Nom de l’hôte de destination du trafic d’événements NDR
	`{DSTCOUNTRY}`	Pays de destination du trafic de l’événement NDR
	`{DSTPROCESS}`	L’ID du process de destination du trafic de l’événement NDR
	`{MODEL}`	Le modèle qui déclenche l’événement NDR
	`{ATTACK}`	Le type d’attaque détecté par le modèle
	`{SCORE}`	Le score de certitude de l’événement NDR
Query	`{COLLECTION}`	La collection de données ServicePilot à interroger
	`{QUERY}`	La requête Lucene effectuée
	`{OPERATOR}`	L’opérateur de seuil utilisé pour comparer la requête avec le seuil
	`{THRESHOLD}`	Valeur seuil utilisée pour tester la requête
	`{VALUE}`	La valeur retournée par la requête
Délai pas “Sans délai”	`{CORRID}`	L’ID de corrélation unique au contexte de l’alerte qui a été utilisé pour vérifier les conditions après le délai spécifié
	`{WINDOW}`	La fenêtre de temps pendant laquelle les conditions d’alerte se sont vérifiées avant de déclencher l’alerte
	`{NBEVENTS}`	Le nombre d’évènements correspondant aux conditions d’alerte qui déclenchent l’alerte

Acquitter les changements de statut

Lorsque des éléments dans ServicePilot changent de statut et deviennent non disponibles ou ont un problème de performance, les objets, vues et ressources refléteront ce problème. Il est possible d’acquitter le problème afin qu’il puisse être ignoré dans les vues Statut et dans les conditions d’alerte. Le fait d’acquitter un problème ne modifiera pas son statut ou ne masquera pas le problème, mais une note sera visible en regard de l’élément acquitté.

Si le problème est résolu et que les éléments deviennent disponibles et nominaux, l’acquittement disparaîtra. Cela peut être un problème pour les éléments qui changent continuellement entre le statut nominal et un mauvais statut, car un acquittement ne sera pas maintenu. Dans ce cas, une Note peut être ajoutée à la place car elle ne sera pas supprimée automatiquement.

Accéder à “Ack/Note” d’un objet à partir de la cartographie

En tant qu’utilisateur avec au moins les privilèges opérateur, naviguez dans la hiérarchie de Vue jusqu’à l’objet que vous souhaitez acquitter/noter puis cliquez dessus.
Cliquez sur le bouton Ack ou Note.

Accéder à “Ack/Note” d’une vue à partir de la cartographie

En tant qu’utilisateur avec au moins les privilèges opérateur, naviguez dans la hiérarchie de Vue jusqu’à l’intérieur de la vue que vous souhaitez acquitter/noter.
Cliquez sur l’icône Loupe.
Cliquez sur le bouton Ack ou Note.

Accéder à “Ack/Note” à partir des listes de statut

En tant qu’utilisateur avec les privilèges opérateur, naviguez jusqu’à Statut.
Sélectionnez Ressource, Objet ou Vue dans le sous-menu Statut en fonction du composant que vous souhaitez acquitter/noter.
Sélectionnez un ou plusieurs éléments à acquitter ou noter et cliquez sur le bouton ack vert ou le bouton note bleu.

Filtrer des listes de statut

Status filters

Dans les listes de Statut, vous pouvez trouver des éléments en fonction d’un certain nombre de critères de filtrage. La liste des filtres disponibles dépend de la liste de statuts (Ressource, Objet, Vue) sélectionnée :

Filtre	Définition
Managed	Afficher les éléments qui ne sont pas marqués comme non gérés. Les opérateurs peuvent marquer manuellement les éléments comme non gérés pour arrêter de rapporter le statut ou aussi arrêter de collecter des données.
Unmanaged	Afficher les éléments qui sont actuellement marqués comme non gérés. Les opérateurs peuvent marquer manuellement les éléments comme non gérés pour arrêter de rapporter le statut ou également arrêter de collecter des données.
Acknowledged	Afficher les éléments qui ont des problèmes de performance ou de disponibilité et qui ont été marqués d’un Ack.
Not Acknowledged	Afficher les éléments qui n’ont pas été marqués d’un Ack.
Not Operational	Afficher les éléments qui clignotent, indiquant qu’un Agent ServicePilot ne rapporte pas certaines données pour la ressource.

Exemples d’Alerting

Recevoir un e-mail lorsqu’un Ping ne répond pas

Pour recevoir des emails lorsqu’un ping ne répond plus, une Policy de type Alerte est nécessaire :

Ajouter une nouvelle Policy de type Alerte.
Définir un nom de Policy d’alerte correspondant. Par exemple : alert_ping_no_response_email.
Cocher la case Appliquer cette Policy à l’ensemble de la configuration pour que la Policy s’applique sur tous les objets Ping de la configuration.
Dans l’onglet Condition, définir le type de condition sur Objets.
Définir le From status sur toutes les couleurs sauf le rouge.
Définir le To status seulement sur le rouge.
Définir les Classes filtrées sur Ping.
Dans l’onglet Action, définir le type d’Action sur email.
Définir les adresses de l’expéditeur et du/des destinataires (séparés par un point-virgule).
Si choix d’envoi d’emails non groupés, cocher la case Non groupé.
Si choix d’envoi d’emails non groupés, définir le Sujet. Par exemple : (ServicePilot) Le Ping de {OBJ} ne répond plus.
Si choix d’envoi d’emails non groupés, définir le Message. Par exemple : Le Ping de {OBJ} ne répond pas à {DATE} {TIME}.
Sauvegarder la nouvelle Policy.

Cette alerte peut être envoyée pour une partie seulement de la configuration. Vous pouvez appliquer cette Policy à une vue ou à un certain nombre de ressources individuellement.

Envoyer une alerte en tant que message de canal Microsoft Teams

Teams peut recevoir et poster des messages sur un canal à l’aide d’une URL créée pour envoyer des webhooks. Commencez par créer l’URL dans Microsoft Teams, puis définissez correctement l’URL et le corps POST dans une alerte ServicePilot.

Ajouter une nouvelle Policy de type Alerte.
Définir un nom de Policy d’alerte correspondant. Par exemple : alert_teams_channel.
Définissez la Condition requise.
Dans l’onglet Action, réglez le type d’action sur Webhook.
Définissez la Méthode sur Post.
Définissez les données Webhook à l’aide d’une définition JSON AdaptiveCard.
Testez le nouveau Webhook.
Sauvegarder la nouvelle policy d’alerte.

Example Microsoft Teams webhook body:

{
  "type": "message",
  "attachments": [{
      "contentType": "application/vnd.microsoft.card.adaptive",
      "contentUrl": null,
      "content": {
        "$schema": "http://adaptivecards.io/schemas/adaptive-card.json",
        "type": "AdaptiveCard",
        "version": "1.2",
        "body": [{
            "type": "TextBlock",
            "text": "ServicePilot object unavailable: {OBJ}"
          }
        ]
      }
    }
  ]
}

Alerte lorsqu’un disque dur dépasse un seuil d’utilisation

Pour obtenir des notifications lorsqu’un volume de disque dur dépasse le seuil majeur ou critique d’utilisation de l’espace, il faut ajouter une nouvelle Policy de type Alerte :

Ajouter une nouvelle Policy de type Alerte.
Définir un nom de Policy d’alerte correspondant. Par exemple : alert_disk_space_usage_high.
Cocher la case Appliquer cette Policy à l’ensemble de la configuration pour que la Policy s’applique sur tous les objets Server Disk de la configuration.
Dans l’onglet Condition, définir le type de condition sur Indicateurs.
Définir le From status sur gris, vert et bleu.
Définir le To status sur jaune et orange.
Définir le Classes filtrées sur Server Disk.
Définir le Indicateurs filtrés sur Space Usage.
Sauvegarder la nouvelle policy d’alerte.
Lorsque la condition est définie sur le type Indicateurs, le nom de l’indicateur et les valeurs actuelles peuvent être utilisés dans l’action. Par exemple: Alerte {STRSTATUS} sur disque: L'utilisation de {OBJ} est à {INDICATORVALUE}.

Envoi d’un message Syslog lorsque qu’un objet devient critique

Envoyer un message syslog au format RFC5424 lorsqu’un objet devient critique.

Ajouter une nouvelle Policy de type Alerte.
Définir un nom de Policy d’alerte correspondant. Par exemple : alert_object_critical.
Dans l’onglet Condition, définir le Du statut sur tous les objets cochés sauf critiques et le Au statut sur tous les objets non cochés sauf critiques.
Dans l’onglet Action, définir le type d’action sur UDP.
Définir le Port UDP sur 514.
Définir le Message UDP sur <10>1 {DATEUTC}T{TIMEUTC}Z servicepilot.company.com servicepilot - - [criticalObjAlert@23098 object="{OBJ}" class="{CLASS}" problem="{PROBLEMNOTE}"] Critical Object Alert for {OBJ}, Problem: {PROBLEMNOTE}.
Sauvegarder la nouvelle Policy d’alerte.

Alerte en cas d’indisponibilité des ressources d’un site en dehors des heures de bureau

Pour obtenir une alerte en dehors des heures de bureau, commencez par créer une période définissant les plages horaires en dehors des heures de bureau. Incluez ensuite cette période dans la nouvelle Policy de type alerte.

Ajoutez une nouvelle Période de temps avec un nom comme En dehors des horaires 1.
Définir les Plages à 00:00 - 09:00 et 18:00 - 23:59 de Monday à Friday.
Sauvegarder la nouvelle Période.
Ajouter une seconde Période de temps avec un nom comme En dehors des horaires 2.
Définir les Plages à 00:00 - 23:59 pour Samedi et Dimanche.
Sauvegarder la nouvelle Période.
Ajouter une nouvelle Policy de type Alerte.
Définir le nom de la Policy d’alerte. Par exemple : alerte_ooh_site_ressource_non_disponible.
Dans l’onglet Condition, définir le type de condition sur Ressources.
Définir la Période d’alertes sur En dehors des horaires 1|En dehors des horaires 2.
Définir le From status sur toutes les couleurs sauf le rouge.
Définir le To status sur le rouge seulement.
Définir l’action.
Sauvegarder la nouvelle Policy.
Appliquer la nouvelle Policy sur la vue Sites pour affecter toutes les ressources contenues dans cette vue et dans ses sous-vues.

Alertes

Condition d’alerte

Condition Ack

Délai d’alerte

Action d’alerte

Variables d’alerte

Acquitter les changements de statut

Accéder à “Ack/Note” d’un objet à partir de la cartographie

Accéder à “Ack/Note” d’une vue à partir de la cartographie

Accéder à “Ack/Note” à partir des listes de statut

Filtrer des listes de statut

Exemples d’Alerting

onThisPage