Alertes
ServicePilot peut alerter les utilisateurs dès qu'un événement important se produit. Il peut également générer des alertes de manière proactive si une tendance est susceptible de dépasser un seuil dans le futur. Les alertes peuvent également être retenues si l'on prévoit qu'un événement se dissipera sans aucune intervention.
Par défaut, ServicePilot présentera toutes les données via son interface web mais aucune alerte ne sera générée. Pour ajouter des alertes, de nouvelles "Policies" d'alertes doivent être configurées. Notez que les "policies" d'alerte sont toutes indépendantes les unes des autres. Il faut faire attention lors de la création de nouvelles alertes afin d'éviter de générer des alertes chevauchantes qui pourraient alerter les utilisateurs du même problème à plusieurs reprises.
Pour ajouter des "policies" d'alerte, consultez la documentation Policies .
Chaque alerte a trois composantes :
- Une Condition définit ce qui déclenchera l'alerte.
- Un Délai indique si l'alerte doit être retardée pendant un certain temps ou un certain nombre d'événements similaires.
- Une Action est prise lorsque les conditions d'alerte sont respectées et que le délai est expiré.
Condition d'alerte
Pour qu'une alerte se déclenche, certaines conditions doivent être satisfaites. Ces conditions sont associées aux événements que ServicePilot détecte.
Type de Condition | Événement |
---|---|
Ressources | Changement de statut d'une ressource au cours d'une période définie. |
Objets | Changement de statut d'un objet au cours d'une période définie. Les objets déclenchant l'alerte peuvent être filtrés par nom, classe, vue et statut d'acquittement. |
Vues | Changement de statut d'une vue pendant une période définie. Les vues déclenchant l'alerte peuvent être filtrées par nom, classe et statut d'acquittement. |
Indicateurs | Changement de statut d'un indicateur individuel au cours d'une période définie. Les indicateurs déclenchant l'alerte peuvent être filtrés par nom, nom d'objet, classe d'objet, vue et statut d'acquittement. |
SNMP Trap | Réception d'un trap (notification) SNMP pendant une période définie. Les traps peuvent être catégorisés à l'aide des règles de catégorisation SNMP Trap avant d'être filtrés par nom de règle, catégorie de règle, message de règle, sévérité de règle, OID d'entreprise, types générique et spécifique, adresses IP de l'expéditeur et de l'agent. |
Syslog | Réception d'un message syslog pendant une période définie. Les syslogs peuvent être filtrés par adresse IP source, gravité, facility, host, description, tag, PID, Msg ID et data. |
Note: Les opérateurs peuvent marquer les statuts d'alerte des ressources, vues et objets comme étant acquittés. Les éléments acquittés peuvent alors être inclus ou exclus des conditions d'alerte et de la section "statut" de la supervision.
Délai d'alerte
Bien que toutes les conditions d'une alerte puissent être satisfaites, l'action d'alerte ne sera pas exécutée tant que le délai n'aura pas expiré.
Type de délai | Utilisation |
---|---|
Sans délai | L'action sera prise dès que les conditions seront satisfaites. |
Action et ignore Condition pendant x Minutes | L'action sera prise dès que les conditions seront satisfaites. Toutefois, l'action ne sera plus réalisée pendant la durée spécifiée, même si les conditions sont de nouveau satisfaites. Cette option est utile lorsque les conditions sont succeptibles de se produire de façon répétée et que vous souhaitez n'être alerté qu'une seule fois. |
Action après x Minutes si Condition toujours vraie | L'action sera retardée de la durée spécifiée. Ce n'est que si les conditions sont toujours vraies après ce délai que l'action aura lieu. Cette option est utile lorsque les conditions peuvent se produire puis se rétablir d'elles-mêmes. Si le problème persiste, l'action sera déclenchée. |
Action après x occurrences de la Condition pendant y Minutes | L'action ne sera déclenchée que si elle se produit un nombre de fois pendant la durée spécifiée. Cette option est utile pour des évènements tels que des tentatives de connexion échouées, reçus par syslog, qui indiqueraient une tentative de violation de la sécurité. |
Action d'alerte
Une fois les conditions satisfaites, et un éventuel délai expiré, différentes actions peuvent être prises.
Type de Condition | Événement |
---|---|
Envoyer un email. | |
Webhook | Envoyer une requête web GET ou POST. |
UDP | Envoyer un paquet UDP. Si le paquet UDP est correctement formaté et envoyé au port correct, cela peut être défini comme un message syslog. |
Trap | Envoyer un Trap SNMP. |
Variables d'alerte
Lorsqu'une alerte est déclenchée, certaines informations sont stockées dans des variables et peuvent ensuite être utilisées dans l'action d'alerte. Un sujet d'e-mail peut par exemple contenir le nom de l'objet qui a déclenché l'alerte ou un message UDP syslog peut indiquer l'heure à laquelle l'événement s'est produit.
Certaines variables sont communes à toutes les conditions d'alerte tandis que d'autres variables diffèrent selon les conditions utilisées. Si par exemple vous avez besoin de la valeur de l'indicateur qui a dépassé son seuil, celle-ci ne sera disponible que pour les alertes ayant une condition de type Indicateurs.
Variables communes
Des informations communes sont collectées pour toutes les alertes.
Variable | Contenu |
---|---|
{DATE} |
Date d'alerte basée sur l'heure locale du serveur ServicePilot |
{TIME} |
Heure d'alerte basée sur l'heure locale du serveur ServicePilot |
{DATEUTC} |
Date d'alerte en UTC |
{TIMEUTC} |
Heure d'alerte en UTC |
{BASEURL} |
URL de base du serveur ServicePilot |
{LOCALIP} |
Adresse IP du serveur ServicePilot |
{LOCALWEBPORT} |
Port Web du serveur ServicePilot |
Variables basées sur les conditions
Ces variables ne sont disponibles qu'en fonction de la condition de la policy d'alerte.
Condition | Variable | Contenu |
---|---|---|
Ressources, Vues, Objets, Indicateurs | {RESOURCE} |
Le nom de la ressource |
{PACKAGE} |
Le type de package de la ressource | |
{STATUS} |
Le statut actuel de la ressource, de la vue ou de l'objet en tant que caractère unique (?, -, 1, 2, 3, +) | |
{STRSTATUS} |
Le statut actuel de la ressource, de la vue ou de l'objet en tant que texte (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK) | |
{OLDSTATUS} |
Le statut précédent de la ressource, de la vue ou de l'objet en tant que caractère unique (?, -, 1, 2, 3, +) | |
{STROLDSTATUS} |
Le statut précédent de la ressource, de la vue ou de l'objet en tant que texte (UNKNOWN, UNAVAILABLE, MINOR, MAJOR, CRITICAL, OK) | |
Vues, Objets, Indicateurs | {CLASS} |
Le type de vue ou d'objet |
{VIEW} |
Le nom de la vue | |
{PARENTVIEW} |
La vue parente de celle qui a déclenché l'alerte | |
{PROBLEMNOTE} |
Une note relative au problème, saisie par un opérateur | |
{OBJECT_1} ... {OBJECT_5} |
Le contenu de la vue ou les constantes d'objet 1 à 5 | |
{VIEW_0} ... {VIEW_9} |
Le nom des vues de niveau 0 à 9 dans lesquelles se trouve cette vue, 0 correspondant à la vue MAIN. | |
{DURATION} |
La durée depuis laquelle la vue ou l'objet est dans l'état actuel. | |
Vues, Objets | {TEXT} |
un texte expliquant le dernier changement d'état d'une vue ou d'un objet |
Objets, Indicateurs | {OBJ} |
Le nom de l'objet |
{IP} |
L'adresse IP de l'objet | |
{HOST} |
Le FQDN ou l'adresse IP de l'objet, selon les méthodes de résolution de noms disponibles | |
Indicateurs | {INDICATORSTATUS} |
Le statut actuel de l'indicateur en tant que caractère unique (?, -, 1, 2, 3, +) |
{INDICATOROLDSTATUS} |
Le statut précédent de l'indicateur en tant que caractère unique (?,-,1,2,3,+) | |
{INDICATORNAME} |
Le nom de l'indicateur | |
{INDICATORVALUE} |
La valeur actuelle de l'indicateur | |
SNMP Trap | {TRAPNAME} |
Le nom de la règle de trap |
{TRAPCATEGORY} |
La catégorie associée à la règle de trap | |
{TRAPSEVERITY} |
La gravité associée à la règle de trap | |
{TRAPMESSAGE} |
Le message associé à la règle de trap | |
{TRAPIPSENDER} |
L'adresse IP de l'expéditeur du trap | |
{TRAPIPAGENT} |
L'adresse IP de l'agent SNMP qui a envoyé le trap | |
{TRAPALLOIDVALUES} |
L'ensemble des valeurs OID du trap reçu | |
{TRAPOID1} ... {TRAPOID20} |
Le nom de la variable OID du trap de 1 à 20 | |
{TRAPVALUE1} ... {TRAPVALUE20} |
La valeur de la variable OID du trap de 1 à 20 | |
Syslog | {TIMESTAMP} |
Le timestamp trouvé dans le syslog |
{HOST} |
Le host trouvé dans le syslog | |
{IP} |
L'adresse IP depuis laquelle le syslog a été reçu | |
{PID} |
Le PID trouvé dans le syslog | |
{TAG} |
Le Tag trouvé dans le syslog | |
{TEXT} |
Le texte du syslog | |
{DESCRIPTION} |
Le texte du syslog après que tous les éléments nommés aient été analysés | |
{FACILITY} |
Facility syslog | |
{SEVERITY} |
Gravité syslog | |
{MSGID} |
L'ID du message trouvé dans le syslog | |
{DATA} |
Les données structurées trouvées dans le syslog |
Acquitter les changements de statut
Lorsque des éléments dans ServicePilot changent de statut et deviennent non disponibles ou ont un problème de performance, les objets, vues et ressources refléteront ce problème. Il est possible d'acquitter le problème afin qu'il puisse être ignoré dans les vues Status et dans les conditions d'alerte. Le fait d'acquitter un problème ne modifiera pas son statut ou ne masquera pas le problème, mais une note sera visible en regard de l'élément acquitté.
Si le problème est résolu et que les éléments deviennent disponibles et nominaux, l'acquittement disparaîtra. Cela peut être un problème pour les éléments qui changent continuellement entre le statut nominal et un mauvais statut, car un acquittement ne sera pas maintenu. Dans ce cas, une Note peut être ajoutée à la place car elle ne sera pas supprimée automatiquement.
Accéder à l'objet "Ack/Note" à partir de la carte
- En tant qu'utilisateur avec au moins les privilèges opérateur, naviguez dans la Carte jusqu'à l'objet que vous souhaitez acquitter/noter puis cliquez dessus
- Cliquez sur le bouton Ack ou Note
Accéder à la vue "Ack/Note" à partir de la carte
- En tant qu'utilisateur avec au moins les privilèges opérateur, naviguez dans la Carte jusqu'à l'intérieur de la vue que vous souhaitez acquitter/noter
- Cliquez sur l'icône Voir les informations
- Cliquez sur le bouton Ack ou Note
Accéder à "Ack/Note" à partir des listes de statut
- En tant qu'utilisateur avec les privilèges opérateur, naviguez jusqu'à Statut
- Sélectionnez Ressource, Objet ou Vue dans le sous-menu Statut en fonction du composant que vous souhaitez acquitter/noter
- Sélectionnez un ou plusieurs éléments à acquitter ou noter et cliquez sur le bouton ack vert ou le bouton note bleu
Filtrer des éléments acquittés
Une fois la note ack ajoutée, vous pouvez utiliser les filtres Exclude ManualAck et Only ManualAck dans les vues Statut
Lors de la création de "policies" d'alerte avec des conditions Objet ou Vue, le champ Ack peut être défini pour inclure ou exclure des éléments acquittés.
Exemples d'Alerting
Recevoir un e-mail lorsqu'un Ping ne répond pas
Pour recevoir des e-mails lorsqu'un ping ne répond plus, une "Policy" de type Alerte est nécessaire.
- Ajouter une nouvelle "policy" de type Alerte
- Définir un nom de "policy" d'alerte correspondant. Par exemple:
alert_ping_no_response_email
- Cocher la case Appliquer cette "Policy" à l'ensemble de la configuration pour que la Policy s'applique sur tous les objets
Ping
de la configuration - Dans l'onglet Condition, définir le type de condition sur Objets
- Définir le From status sur toutes les couleurs sauf le rouge
- Définir le To status seulement sur le rouge
- Définir les Classes filtrées sur
Ping
- Dans l'onglet Action, définir le type d'Action sur email
- Définir les addresses de l'expéditeur et du/des destinataires (séparés par un point-virgule)
- Définir le Subjet. Par exemple:
(ServicePilot) Le Ping de {OBJ} ne répond plus
- Définir le Message. Par exemple:
Le Ping de {OBJ} ne répond pas à {DATE} {TIME}
- Sauvegarder la nouvelle "Policy"
Cette alerte peut être envoyée pour une partie seulement de la configuration. Vous pouvez appliquer cette "Policy" à une vue ou à un certain nombre de ressources individuellement.
Alerte lorsqu'un disque dur dépasse un seuil d'utilisation
Pour obtenir des notifications lorsqu'un volume de disque dur dépasse le seuil majeur ou critique d'utilisation de l'espace, il faut ajouter une nouvelle "Policy" de type Alerte.
- Ajouter une nouvelle "policy" de type Alerte
- Définir un nom de "policy" d'alerte correspondant. Par exemple:
alert_disk_space_usage_high
- Cocher la case Appliquer cette "Policy" à l'ensemble de la configuration pour que la Policy s'applique sur tous les objets
Server Disk
de la configuration - Dans l'onglet Condition, définir le type de condition sur Indicateurs
- Définir le From status sur gris, vert et bleu
- Définir le To status sur jaune et violet
- Définir le Classes filtrées sur
Server Disk
- Définir le Indicateurs filtrés sur
Space Usage
- Sauvegarder la nouvelle "Policy"
Lorsque la condition est définie sur le type Indicateurs, le nom de l'indicateur et les valeurs actuelles peuvent être utilisés dans l'action. Par exemple: Alerte {STRSTATUS} sur disque: L'utilisation de {OBJ} est à {INDICATORVALUE}
Alerte en cas d'indisponibilité des ressources d'un site en dehors des heures de bureau
Pour obtenir une alerte en dehors des heures de bureau, commencez par créer une période définissant les plages horaires en dehors des heures de bureau. Incluez ensuite cette période dans la nouvelle "Policy" de type alerte.
- Ajoutez une nouvelle Période de temps avec un nom comme
En dehors des horaires 1
- Définir les Plages à
00:00 - 09:00
et18:00 - 23:59
deMonday
àFriday
- Sauvegarder la nouvelle Période
- Ajouter une seconde Période de temps avec un nom comme
En dehors des horaires 2
- Définir les Plages à
00:00 - 23:59
pourSamedi
etDimanche
- Sauvegarder la nouvelle Période
- Ajouter une nouvelle "Policy" de type Alerte
- Définir le nom de la "Policy" d'alerte. Par exemple:
alerte_ooh_site_ressource_non_disponible
- Dans l'onglet Condition, définir le type de condition sur Ressources
- Définir la Période d'alertes sur
En dehors des horaires 1|En dehors des horaires 2
- Définir le From status sur toutes les couleurs sauf le rouge
- Définir le To status sur le rouge seulement
- Définir l'action
- Sauvegarder la nouvelle "Policy"
- Appliquer la nouvelle "Policy" sur la vue
Sites
pour affecter toutes les ressources contenues dans cette vue et dans ses sous-vues.
Commencez Maintenant