Rupture de la continuité du réseau

Introduction

Le CGI de rupture a été fait pour aider au diagnostic des ruptures de la continuité du réseau. Pour des réseaux de petite taille, ce CGI peut ne pas être très utile, mais pour les plus grands, il le sera. Le diagnostic des ruptures de la continuité du réseau aidera les administrateurs à trouver et résoudre plus rapidement les problèmes qui causent le plus de dégâts au réseau.

Notez que le CGI de rupture n'essaiera pas de trouver la cause exacte du problème, mais localisera plutôt les hôtes de votre réseau qui semblent causer le plus de problèmes. Creuser plus profondément le problème est laissé aux bons soins de l'utilisateur, car le nombre de causes possibles pour un problème est illimité.

Diagrammes

Les diagrammes ci-dessous montrent comment le CGI de rupture fonctionne pour déterminer leur cause. Vous pouvez cliquer sur une image pour l'obtenir en plus grand format…

Diagramme 1

Ce diagramme sera la base de notre exemple. Tous les hôtes apparaissant en rouge sont soit hors fonction, soit inaccessibles (du point de vue de Nagios®). Tous les autres sont en fonctionnement.
Hosts That Are Down Or Unreachable

Diagramme 2

Ce diagramme met en exergue les causes de rupture du réseau (du point de vue de Nagios®), et montre les divers groupes d'hôtes affectés par le problème.
Hosts That Are Causing Outages

Détermination de la cause d'une rupture du réseau

Maintenant, comment le CGI de rupture détermine-t'il les hôtes à la source du problème ? Les hôtes "à problème" doivent être dans l'état DOWN ou UNREACHABLE et au moins un de leur parents immédiats doit être dans l'état UP. Les hôtes remplissant ce critère sont marqués comme étant une cause potentielle de la rupture.

Pour déterminer si ces hôtes marqués sont la cause de la rupture du réseau, nous devons procéder à d'autres tests…

Si tous les enfants immédiats d'un de ces hôtes marqués sont DOWN ou UNREACHABLE et qu'ils n'ont aucun parent immédiat qui soit UP, l'hôte marqué est la cause de la rupture du réseau. Si ne serait-ce qu'un des enfants immédiats d'un hôte marqué ne remplit pas ces conditions, alors l'hôte marqué n'est pas la cause de la rupture du réseau.

Détermination des effets d'une rupture du réseau

En plus de vous dire quel hôte est à l'origine d'une rupture du réseau, le CGI de rupture vous dira aussi combien d'hôtes et de services sont affectés par un hôte posant problème. Comment cela est-il déterminé ? Regardez le diagramme 2 ci-dessus…

Le diagramme montre clairement que l'hôte 1 bloque 2 enfants (dans le domaine A). L'hôte 2 est seulement responsable de son propre blocage (domaine B) et l'hôte 3 est responsable du blocage de 7 hôtes (domaine C). Les effets de la rupture sur les deux hôtes du domaine D sont "partagés" entre les hôtes 2 et 3, car il n'est pas possible de déterminer la cause réelle de la rupture. Si un des hôtes 2 ou 3 était UP, alors les hôtes du domaine D pourraient ne pas être bloqués.

Le nombre d'hôtes affectés par chaque problème se décompose comme suit (l'hôte causant problème étant inclus dans ces chiffres) :

Classement des problèmes par niveau de gravité

Le CGI de rupture affiche tous les hôtes à problème, qu'ils causent des ruptures du réseau ou non. Quoiqu'il en soit, le CGI vous dira combien parmi les hôtes à problèmes (s'il y en a) causent des ruptures du réseau.

Pour afficher les hôtes à problèmes de manière utile, le tri est effectué selon la gravité de la répercussion de leurs effets sur le réseau. Le niveau de gravité est déterminé par deux éléments : le nombre d'hôtes affectés par le problème et le nombre de services affectés. Les hôtes pèsent plus lourd que les services dans le niveau de gravité. La version actuelle répartit le poids à 4 contre 1 (c.-à-d. que les hôtes sont 4 fois plus importants que les services).

En supposant que tous les hôtes du diagramme 2 ont le même nombre de services associés, l'hôte 3 serait classé comme posant le problème le plus grave, alors que les hôtes 1 et 2 auraient le même niveau de gravité.