Wer jederzeit wissen will, welche seiner Server, Router und Dienste gerade ausgefallen sind, fährt mit Nagios bestens. Das Monitoring-Multitalent überwacht beliebige Komponenten und reagiert auf Unregelmäßigkeiten. Doch um Service Level Agreements haben sich die Entwickler noch nicht gekümmert, Nagios liefert nur die nackten Zahlen, wenn etwas hakt. Selbst die im Business-Reporting-Artikel in diesem Heft vorgestellte Technik stellt nur fest, wann welcher Businessprozess versagt hat. Ob die entdeckten Ausfälle im Rahmen des Erträglichen bleiben, muss der Admin dann selbst herausfinden.
Dieser Rahmen des Erträglichen ist üblicherweise in SLAs spezifiziert. Service Level Agreements sind Vereinbarungen zwischen einem Service Provider und seinen Kunden. Oft ist der Service Provider einfach die firmeneigene IT-Abteilung, besonders interessant sind SLAs aber bei externen Dienstleistern. Die IT Infrastructure Library (ITIL, siehe [1]) kennt diese Form der SLAs unter dem Namen Contracts.
Ausfallzeiten
Ein SLA spezifiziert unter anderem die Soll-Verfügbarkeit eines Dienstes über einen gewissen Zeitraum hinweg. Als Service-Zeiträume sind üblicherweise die Büroarbeitszeiten definiert, etwa Montag bis Freitag von 07:00 bis 17:00 Uhr. Innerhalb dieser Zeiträume darf der Dienst maximal eine vereinbarte Zeitdauer ausfallen.
Meist sind die Ausfallzeiten nicht direkt, sondern indirekt als Verfügbarkeit angegeben, beispielsweise 99,9 Prozent im Monat. Der SLA-Vertrag legt auch fest, unter welchen Bedingungen ein Dienst als nicht mehr erreichbar gilt.
Störungsmelder
Nagios kennt die SLA-Regeln nicht, aber alle Techniken, um Ausfälle zu erkennen. Eine vom Autor dieses Artikels stammende neue Erweiterung [2] nutzt einen Eventhandler, der bei relevanten Diensten jeden Ausfall in einer eigenen Datenbank protokolliert (Abbildung 1). Ein Reporting-Skript verarbeitet und korreliert diese Einträge.
Abbildung 1: Nagios überwacht das Firmennetz und meldet relevante Ausfälle per SLA-Eventhandler. Der protokolliert alles in einer Log-Tabelle. Aus diesen Daten ermittelt das Reporting-Skript den Stand der SLA-Einhaltung. Ein SLA-Check-Plugin übergibt den Status aus der Report-Tabelle an Nagios.
Den aktuellen Stand der SLA-Zeiten ermittelt periodisch ein Nagios-Plugin, sodass die komplette Nagios-Maschinerie darauf reagieren kann. Droht eine SLA-Verletzung, feuert ein eigener Event, der beliebige Alerting-Mechanismen in Gang setzt. So erfährt etwa der IT-Leiter per SMS, dass seine Dienste das SLA des wichtigsten Kunden demnächst überschreiten. Von einzelnen Ausfallmeldungen bleibt er aber verschont.
« Zurück
1
2
3
4
5
Weiter »