Open Source im professionellen Einsatz

Nagios-Erweiterung überwacht SLA-Bedingungen

Immer im Dienst

Service Level Agreements gehören zum lästigen Teil der Admin-Arbeit - wer ihre Einhaltung überprüfen will, muss die Ausfallzeiten von Diensten addieren und je nach Tageszeit bewerten. Eine Nagios-Erweiterung kann das besser und warnt von sich aus, wenn ein Verstoß droht.

Wer jederzeit wissen will, welche seiner Server, Router und Dienste gerade ausgefallen sind, fährt mit Nagios bestens. Das Monitoring-Multitalent überwacht beliebige Komponenten und reagiert auf Unregelmäßigkeiten. Doch um Service Level Agreements haben sich die Entwickler noch nicht gekümmert, Nagios liefert nur die nackten Zahlen, wenn etwas hakt. Selbst die im Business-Reporting-Artikel in diesem Heft vorgestellte Technik stellt nur fest, wann welcher Businessprozess versagt hat. Ob die entdeckten Ausfälle im Rahmen des Erträglichen bleiben, muss der Admin dann selbst herausfinden.

Dieser Rahmen des Erträglichen ist üblicherweise in SLAs spezifiziert. Service Level Agreements sind Vereinbarungen zwischen einem Service Provider und seinen Kunden. Oft ist der Service Provider einfach die firmeneigene IT-Abteilung, besonders interessant sind SLAs aber bei externen Dienstleistern. Die IT Infrastructure Library (ITIL, siehe [1]) kennt diese Form der SLAs unter dem Namen Contracts.

Ausfallzeiten

Ein SLA spezifiziert unter anderem die Soll-Verfügbarkeit eines Dienstes über einen gewissen Zeitraum hinweg. Als Service-Zeiträume sind üblicherweise die Büroarbeitszeiten definiert, etwa Montag bis Freitag von 07:00 bis 17:00 Uhr. Innerhalb dieser Zeiträume darf der Dienst maximal eine vereinbarte Zeitdauer ausfallen.

Meist sind die Ausfallzeiten nicht direkt, sondern indirekt als Verfügbarkeit angegeben, beispielsweise 99,9 Prozent im Monat. Der SLA-Vertrag legt auch fest, unter welchen Bedingungen ein Dienst als nicht mehr erreichbar gilt.

Störungsmelder

Nagios kennt die SLA-Regeln nicht, aber alle Techniken, um Ausfälle zu erkennen. Eine vom Autor dieses Artikels stammende neue Erweiterung [2] nutzt einen Eventhandler, der bei relevanten Diensten jeden Ausfall in einer eigenen Datenbank protokolliert (Abbildung 1). Ein Reporting-Skript verarbeitet und korreliert diese Einträge.

Abbildung 1: Nagios überwacht das Firmennetz und meldet relevante Ausfälle per SLA-Eventhandler. Der protokolliert alles in einer Log-Tabelle. Aus diesen Daten ermittelt das Reporting-Skript den Stand der SLA-Einhaltung. Ein SLA-Check-Plugin übergibt den Status aus der Report-Tabelle an Nagios.

Abbildung 1: Nagios überwacht das Firmennetz und meldet relevante Ausfälle per SLA-Eventhandler. Der protokolliert alles in einer Log-Tabelle. Aus diesen Daten ermittelt das Reporting-Skript den Stand der SLA-Einhaltung. Ein SLA-Check-Plugin übergibt den Status aus der Report-Tabelle an Nagios.

Den aktuellen Stand der SLA-Zeiten ermittelt periodisch ein Nagios-Plugin, sodass die komplette Nagios-Maschinerie darauf reagieren kann. Droht eine SLA-Verletzung, feuert ein eigener Event, der beliebige Alerting-Mechanismen in Gang setzt. So erfährt etwa der IT-Leiter per SMS, dass seine Dienste das SLA des wichtigsten Kunden demnächst überschreiten. Von einzelnen Ausfallmeldungen bleibt er aber verschont.

Diesen Artikel als PDF kaufen

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook