Chapitre 34. Détermination de l'état et de l'accessibilité des hôtes du réseau

Introduction

Si vous avez déjà travaillé dans une équipe de support technique, vous avez alors sûrement entendu les utilisateurs vous dire que Internet est coupé. En tant que technicien, vous pouvez être quasiment sûr que ce n'est pas quelqu'un qui a débranché le câble Internet. Il y a certainement quelque chose qui ne fonctionne pas entre le siège de l'utilisateur et l'Internet.

Partant du principe que c'est un problème technique, vous commencez à chercher le problème. C'est peut-être l'ordinateur de l'utilisateur qui est éteint, son câble réseau qui est débranché, ou peut-être que c'est un des routeurs de cœur de réseau de l'entreprise qui vient de tomber. Quelque soit le problème, une chose est sûre, l'Internet n'est pas coupé. Il est devenu injoignable pour cet utilisateur.

Nagios est capable de déterminer si les hôtes que vous supervisez sont en état DOWN ou UNREACHABLE. Ces deux états sont complètement différents (mais en relation) et peuvent vous aider à rapidement trouver la cause profonde de problèmes réseaux. Voici comment fonctionne la logique d'accessibilité des hôtes du réseau pour vous permettre de distinguer ces deux états…

Exemple de réseau

Jetez un œil au diagramme réseau ci-dessous. Pour cet exemple, partons du principe que vous supervisez l'ensemble des hôtes (serveurs, routeurs, switchs, etc.) figurant sur le diagramme. Nagios est installé et fonctionne sur le serveur Nagios.

Reachability 1

Définir des relations parents/enfants

Pour que Nagios puisse faire la distinction entre les états DOWN et UNREACHABLE des hôtes supervisés, vous devez lui préciser la façon dont sont connectés les hôtes les uns aux autres; en vous plaçant du point de vue du démon Nagios. Pour cela, tracer le chemin que devrait prendre un paquet de données pour aller du démon Nagios à chaque hôte supervisé. Chaque switch, routeur, et serveur que le paquet doit traverser est considéré comme une étape et requiert que vous définissiez une relation parent/enfant dans Nagios.

Reachability 2

Maintenant que vous savez ce que représente les relations parent/enfant pour les hôtes supervisés; comment configurer Nagios pour représenter celles-ci? Le paramètre parents de vos définitions d'hôtes vous permet de le faire. Voici un extrait des définitions de l'hôte avec les relations parent/enfant pour cet exemple :

define host {
    host_name       Nagios   ; <-- The local host has no parent - it is the topmost host
}

define host {
    host_name       Switch1
    parents         Nagios
}

define host {
    host_name       Web
    parents         Switch1
}

define host {
    host_name       FTP
    parents         Switch1
}

define host {
    host_name       Router1
    parents         Switch1
}

define host {
    host_name       Switch2
    parents         Router1
}

define host {
    host_name       Wkstn1
    parents         Switch2
}

define host {
    host_name       HPLJ2605
    parents         Switch2
}

define host {
    host_name       Router2
    parents         Router1
}

define host {
    host_name       somewebsite.com
    parents         Router2
}
        

La logique d'accessibilité des hôtes en action

Maintenant que Nagios est configuré avec les relations parent/enfant correctes pour vos hôtes, voyons ce qui se passe quand un problème survient. Partons du principe que deux hôtes - Web et Router1 - sont tombés…

Reachability 3

Quand l'état de l'hôte change (par exemple de UP à DOWN), la logique d'accessibilité des hôtes est mis en action. La logique d'accessibilité des hôtes va initier des contrôles parrallèles pour les parents et l'enfant sur n'importe quels changements d'états. Cela permet à Nagios de rapidement déterminer l'état courant de votre infrastructure réseau dès que quelque chose change.

Reachability 4

Dans cet exemple, Nagios va déterminer que Web et Router1 sont tous les deux en état DOWN parce que le chemin vers ces hôtes n'est pas bloqué.

Nagios va déterminer que les hôtes derrière Router1 sont tous dans un état UNREACHABLE parce que Nagios ne peut les joindre. Router1 est tombé et bloque le chemin vers les autres hôtes. Ces hôtes fonctionnent peut-être, ou pas - Nagios ne le sait pas parce qu'il ne peut pas les joindre. Aussi Nagios les considère comme UNREACHABLE et non DOWN.

Type de notification DOWN opposé à UNREACHABLE

Par défaut, Nagios va notifier les contacts à la fois pour des hôtes en états DOWN et UNREACHABLE. En tant que administrateur/technicien, vous ne souhaiterez peut-être pas recevoir de notifications pour des hôtes UNREACHABLE. Vous connaissez votre topologie réseau, et si Nagios vous notifie qu'un routeur/firewall est tombé, vous savez que tout ce qui trouve derrière est inacessible.

Si vous voulez vous éviter d'être noyé sous un flot de notifications UNREACHABLE pendant des coupures réseaux, vous pouvez exclure l'option unreachable (u) de le paramètre notification_options dans votre fichier de configuration d'hôte et/ou dans le paramètre host_notification_options de votre fichier de définitions des contacts.