IA
Rôle de l’IA dans ServicePilot
L’Intelligence Artificielle joue un rôle central dans ServicePilot pour accélérer le diagnostic, détecter automatiquement les comportements anormaux et aider à la prise de décision. La plateforme combine plusieurs approches complémentaires :
IA interne ServicePilot :
Basée sur des algorithmes et des modèles de Machine Learning intégrés (détection d’anomalies, corrélation d’événements, analyse de tendances, recherche intelligente). Elle fonctionne automatiquement, sans configuration.
IA externe (LLM) :
Possibilité de connecter un modèle de langage externe (OpenAI, Azure OpenAI, etc.) pour bénéficier d’une recherche conversationnelle et d’une interprétation avancée du langage naturel.
Ces différentes IA sont accessibles dans plusieurs sections du produit, chacune répondant à un besoin spécifique.
Anomalies
Les Anomalies dans ServicePilot correspondent à des changements d’état inattendus sur les objets supervisés. Elles sont déclenchées lorsque le statut d’un indicateur change de manière inhabituelle par rapport à son comportement normal.
Un indicateur peut changer de statut lorsqu’il dépasse un seuil (par exemple : OK → Warning → Critical). Ce changement de statut devient une anomalie lorsqu’il présente l’une des caractéristiques suivantes :
- Il ne se produit pas régulièrement (pas cyclique, pas normal pour cet objet).
- Il ne correspond pas à l’état habituel de l’objet.
- Il n’est pas cohérent avec l’historique de l’objet.
- Il n’est pas attendu dans le contexte opérationnel.
L’IA interne analyse donc l’historique des statuts, les événements associés et le comportement normal de l’objet pour déterminer si ce changement est réellement anormal.
Exemple :
Un objet nommé Server - eth0 passe à l’état “Down”. Or cette interface est habituellement “Up” en permanence.
Ce changement de statut est donc considéré comme anomal, car il ne correspond pas à son comportement normal.
Dans ce cas, l’objet est marqué en état d’anomalie, et un événement associé est généré.
Les anomalies apparaissent dans la page dédiée depuis MONITOR > Status > Anomalies.
Un select dans le menu du haut permet d’afficher le nombre d’anomalies de ressources dans les badges.
Problèmes
Les Problèmes dans ServicePilot sont des regroupements intelligents de ressources qui présentent des états anormaux au même moment. Ils permettent de réduire le bruit, de dédupliquer les alertes et d’offrir une vue consolidée des incidents affectant plusieurs objets liés. Contrairement aux Anomalies, qui concernent un changement d’état inattendu sur un objet, les Problèmes regroupent plusieurs anomalies liées entre elles dans le temps et par leur relation technique.
Un Problème est créé lorsqu’une ressource reste dans un état anormal pendant plus de 3 minutes. Ensuite, d’autres ressources peuvent être ajoutées au même problème si :
- Elles deviennent anormales dans un délai de 90 minutes.
- Elles sont liées à la ressource initiale (par IP, hostname, dépendances, etc.).
Cela permet de regrouper automatiquement des incidents qui ont probablement une cause commune. Un problème est fermé automatiquement lorsque aucune ressource du groupe n’est restée anormale pendant plus de 30 minutes.
Les Problèmes permettent de :
- Regrouper plusieurs anomalies liées.
- Eviter la multiplication d’alertes isolées.
- Identifier plus rapidement la cause probable.
- Visualiser l’impact global d’un incident sur plusieurs ressources.
Ils constituent une couche d’IA de corrélation temporelle et relationnelle basée sur la détection d’anomalies.
Exemple :
Une anomalie est générée lorsqu’un Host nommé VMHost1 devient indisponible. Peu après, les machines virtuelles VM1 et VM2 passent également en anomalie. Comme ces ressources sont liées et que les anomalies surviennent dans la même fenêtre temporelle, elles sont regroupées dans un seul problème.
Ce regroupement permet de comprendre rapidement que la cause probable est la perte de l’hôte, et non trois incidents indépendants.
Les anomalies apparaissent dans la page dédiée depuis MONITOR > Status > Problèmes.
Un select dans le menu du haut permet de chosir si les badges affichent par défaut les problèmes.
Pages ML
Les Pages ML présentes dans chaque tableau de bord standard de ServicePilot fournissent une analyse avancée des métriques grâce à des modèles de Machine Learning appliqués aux séries temporelles. Elles se concentrent sur l’évolution des valeurs dans le temps : pics, tendances, prévisions.
Cela permet d’identifier des comportements inhabituels ou émergents sur les indicateurs, d’anticiper des risques et de mieux comprendre la dynamique des ressources supervisées.
Les widgets ML intégrés réalisent plusieurs types d’analyses :
- Détection de pics : Identification automatique des valeurs anormalement élevées ou basses pour un indicateur donné, en fonction de son historique.
- Analyse de tendance : Calcul de tendances sur 24 heures et 30 jours pour visualiser l’évolution d’un indicateur : hausse, baisse, stabilité.
- Prévision de seuil critique : Estimation du nombre de jours restants avant qu’un indicateur atteigne un seuil critique, en se basant sur la tendance observée.
Exemples :
- Un pic CPU isolé peut indiquer une charge ponctuelle, mais une forte tendance à la hausse sur 30 jours peut révéler un risque de saturation.
- Une prévision indiquant qu’un disque atteindra son seuil critique dans 12 jours permet de planifier une extension de capacité ou un nettoyage des données.
- Une tendance à la baisse du trafic applicatif peut signaler un problème d’usage ou de connectivité.
Les Pages ML sont donc un outil d’aide à la décision basé sur l’analyse du comportement des métriques dans le temps.
Les analyses ML sont accessibles dans un onglet des tableaux de bord standards de chaque famille technologique, ceux de chaque package ainsi que ceux de ressources spécifiques.
Recherche IA interne
La recherche IA interne de ServicePilot est un moteur de recherche intelligent conçu pour aider l’utilisateur à retrouver rapidement des informations dans la plateforme.
Il s’appuie sur une IA interne légère, sans LLM, afin d’améliorer la pertinence des résultats tout en garantissant rapidité et cohérence. Contrairement à la recherche LLM externe, cette recherche n’interprète pas le langage naturel de manière conversationnelle. Elle optimise la recherche dans les contenus du produit et de la documentation, pas dans des textes libres.
Le Search IA interne couvre plusieurs zones clés de la plateforme :
- Documentation : pages d’aide, guides, concepts.
- Packages : recherche par nom, technologie, usage.
- Tableaux de bord : dashboards standards, personnalisés, par ressource.
- SQL : requêtes, vues, éléments liés aux données.
- Data : objets, ressources, indicateurs, événements.
Cette recherche centralisée permet de naviguer rapidement dans l’ensemble de l’écosystème ServicePilot.
Le modal de ServicePilotAI est accesssible de l’icône de robot depuis le menu du haut.
Recherche LLM externe
ServicePilot permet de connecter un LLM externe pour bénéficier d’une recherche conversationnelle et d’une compréhension avancée du langage naturel.
En configurant un LLM (à l’aide de l’API OpenAI), l’utilisateur peut :
- Poser des questions en langage naturel.
- Obtenir des réponses contextualisées.
- Demander des explications ou des résumés.
- Générer du texte ou des analyses.
La configuration se fait dans les paramètres de ServicePilot, dans la section dédiée aux intégrations IA externes.
Le modal de ServicePilotAI est accesssible de l’icône de robot depuis le menu du haut.