Dank ChatGPT & Co. ist künstliche Intelligenz mittlerweile allgegenwärtig. Geht es nach Gartner, übernimmt sie demnächst die Kontrolle im Rechenzentrum. Ist das realistisch? Müssen Admins sich Sorgen machen, dass Kollege Computer sie ersetzt?
Innovation kommt in der IT bekanntlich in Wellen. Welche Welle zurzeit gerade über die Branche schwappt, das ist seit Monaten relativ klar: künstliche Intelligenz (KI) oder neudeutsch Artificial Intelligence (AI). Längst sind Sprachmodelle wie ChatGPT, die sich anhand vorhandener Texte gezielt trainieren lassen, im Alltag angekommen.
Sprachmodelle sind aber eben auch nur ein kleiner Teil des riesigen Themenkomplexes AI, und nicht gerade die nächstliegenden Kandidaten, wenn es um die Integration von künstlicher Intelligenz in Prozesse des IT-Alltags geht. Stattdessen hat schon vor einer Weile der Branchendienst Gartner passendere Anwendungen aufgelistet und dabei auch gleich den Begriff AIOps geprägt.
Mancher alte Haudegen unter den Administratoren mag da verzweifeln: Nach DevOps, ChatOps und SecOps nun also AIOps – noch mehr Zeug, das vor allem aus den Marketing-Abteilungen der Hersteller kommt und nicht so sehr auf den tatsächlichen Bedarf des Alltags eingeht. Obendrein schwingt bei vielen Menschen im Kontext künstlicher Intelligenz immer die Sorge mit, dem eigenen Arbeitsplatz ginge es womöglich an den Kragen.
Wie real ist diese Gefahr? Übernehmen die Computer bald das Regiment im Rechenzentrum und ersetzen Admins dort vollständig, oder hat Gartner nur mal wieder ein Nischenthema in den Mittelpunkt gerückt, um Aufmerksamkeit zu generieren? Weder noch, lautet unsere Antwort, die wir im Folgenden begründen.
Worum geht es?
Eines ist im Kontext der Diskussionen rund um AIOps ein echtes Problem: die Unschärfe des Begriffs KI. Ähnlich wie die Cloud sind KI und AI längst in der Alltagssprache angekommen. Dort finden sie diffuse Verwendung: Jeder Vorgang, an dem ein Computer beteiligt ist und der nicht auf unmittelbare menschliche Vorgaben zurückgeht, gilt demnach schon als KI. Samsung und Konsorten machen die Sache nicht besser, indem sie zur inflationären Verwendung des Begriffs aktiv beitragen. Mit der Materie vertraute Menschen runzeln da die Stirn, denn so einfach ist es keinesfalls.
Die allermeisten Menschen denken gerade wegen des medialen Dauerfeuers heute beim Begriff KI vor allem an Sprachmodelle wie ChatGPT. Die sind für spektakuläre PR-Effekte durchaus gut, und mancher Schüler oder Student mag dank ChatGPT besser durch seine Studien kommen als ohne KI. Die Schnittmenge des administrativen Alltags in der IT mit Sprachmodellen hält sich in engen Grenzen. Zweifelsohne lässt sich ChatGPT dazu bringen, durch gezieltes Training Technikfragen von Admins richtig zu beantworten. Zum Teil erfolgt das auch schon, etwa wenn ChatGPT zum Einsatz kommt, um selbst Programmcode zu produzieren. Diese Fähigkeiten sind in der Gegenwart bereits Realität.
Mit dem, was Gartner unter AIOps versteht, hat das alles allerdings nicht allzu viel zu tun. Stöbert man in den Texten und Flyern des Branchenanalysten, geht es bei AIOps stattdessen darum, Werkzeuge der künstlichen Intelligenz in den administrativen Alltag zu integrieren, und sogar darum, menschliche Fähigkeiten im operativen Betrieb zum Teil durch KI-gestützte Automatismen zu ersetzen.
Mancher Administrator mag sich wundern: Monitoring-Systeme wie Nagios oder Icinga bieten seit vielen Jahren Optionen, um auf bestimmte Ereignisse mit Automatismen zu reagieren. Diese Automatismen gilt es aber einerseits händisch zu konfigurieren, und andererseits produzieren gerade sie oft viel mehr Chaos, als sie zu verhindern helfen. Entsprechend liegen solche Funktionen in den meisten Umgebungen heute brach, und die verantwortlichen Administratoren legen großen Wert darauf, dass das auch so bleibt.
Sucht man nach einer Stelle, an der Gartners AIOps ansetzen könnte, ist man hier allerdings richtig. Ein genauerer Blick auf die Theorie und ihre Umsetzung in der Praxis lohnt sich durchaus. Völlig zu Recht merkt Gartner dabei an, dass sich die IT in den vergangenen Jahren bereits massiv verändert hat und künstliche Intelligenz früher oder später quasi zur Notwendigkeit wird. Das hat vorrangig mit einem alten Bekannten zu tun: der Cloud.
Massive Setups
Eine Prognose für die IT der Zukunft scheint sicher zu sein: Kleine Anbieter mit Mietflächen in irgendwelchen Rechenzentren wird es immer seltener geben. Stattdessen werden IT-Dienstleister sich entweder auf einzelne Dienstleistungen spezialisieren oder selbst zum Plattformanbieter mutieren. Alles dazwischen fällt weg. Das heißt aber auch, dass immer weniger IT-Firmen einen immer größeren Teil der insgesamt vorhandenen IT-Setups unter ihren Fittichen haben werden.
Weil die Zeichen der Zeit obendrein auf Dichte und Automation stehen, bedeutet das implizit auch, dass immer weniger Leute im Kontrollraum immer mehr einzelne Server verantworten. Das macht deren Arbeit nicht unbedingt leichter, denn je größer ein Setup insgesamt ist, desto mehr Angriffsfläche bietet es für Attacken von außen. Ob sich etwa ein DDoS-Angriff zusammenbraut, merkt der Administrator bei kleinen Setups mit wenig Traffic vielleicht noch, wenn er auf den Monitor mit den RRD-Daten der jeweiligen Installation schaut. Hat er es aber mit Tausenden von Servern und zahllosen Netzwerkgeräten zu tun, klappt das so nicht mehr.
Längst haben die bereits als Plattformanbieter aufgestellten Unternehmen darauf reagiert. Monitoring, Alerting und Trending sind feste Bestandteile großer skalierbarer Plattformen. Prometheus oder Victoria Metrics sammeln und konsolidieren dabei Metrikdaten, Grafana bereitet sie grafisch auf und zeigt sie an. Loki kümmert sich um das zentrale Sammeln von Log-Dateien. Allerdings ist all das auch nur eine Reaktion auf die immer größeren und immer komplexeren Setups, mit denen sich der Administrator eines Plattformanbieters konfrontiert sieht. Hinzu kommt, dass die erwähnten Werkzeuge es dem Admin in der Theorie zwar ermöglichen, Angriffe anhand von Metrikdaten zu erkennen. Praktisch müsste er dafür aber sämtliche Graphen seiner Plattform permanent im Blick haben und selbst kleinste Veränderungen zuverlässig erkennen. Das kann weder das menschliche Auge noch das menschliche Gehirn leisten.
Genau hier setzen die Proponenten von AIOps an. Ihre Logik ist simpel: Woran Auge und Hirn des Menschen scheitern, das lässt sich mit künstlicher Intelligenz gut erreichen. Dabei stehen vorrangig nicht Modelle für maschinell erlernte Sprache im Vordergrund, sondern das Maschinenlernen ganz allgemein. Denn so, wie man einen Algorithmus anhand von Sprachbeispielen auf die korrekte Nutzung der Sprache vorbereiten kann, kann man einen anders angelegten Algorithmus durch Beispiele realer Angriffsszenarien dazu bringen, diese früh zu erkennen – und damit oft noch rechtzeitig für den Admin.
Eine sehr simple Form von maschinellem Lernen nutzt insofern fast jeder Spam-Filter. Die Möglichkeiten künstlicher Intelligenz sind aber viel umfassender und bieten schon heute viel mehr Möglichkeiten. Da verwundert es wenig, dass das Begehrlichkeiten weckt: Zum einen bei den Admins selbst, aber noch mehr bei Anbietern, die Administratoren mit entsprechend konstruierten Produkten gern glücklich machen und die eigene Bilanz merklich aufpolieren wollen.
AIOps soll mithin zwei Dinge ermöglichen: Unternehmen sollen besser auf Angriffe und administrative Herausforderungen des Alltags reagieren können, um brenzlige Situationen im Idealfall gar nicht erst entstehen zu lassen. Und die dazu genutzten Produkte sollen zum Goldesel für Firmen wie IBM, Dynatrace und andere werden.
AIOps ganz konkret
Wie kann das in der Praxis aussehen? Während Gartner den Begriff AIOps arg strapaziert, ohne ihn mit Leben zu füllen, hat man bei Red Hat und mithin bei IBM schon deutlich konkretere Vorstellungen davon, wie der praktische Nutzen von AIOps aussehen kann.
Schon 2019 stellte Red Hat ein Beispiel auf Basis der Zeitreihendatenbank Prometheus vor, das anhand von Anomalien in Traffic-Daten die Wahrscheinlichkeit von DDoS-Angriffen vorhersagen konnte (Abbildung 1). Das Konstrukt war seinerzeit relativ simpel: Als zentrales Element kam Prometheus zum Einsatz, und zwar in seiner geclusterten Form Thanos. Weil Prometheus chronisch schlecht darin ist, Langzeitdaten zu speichern, erweiterte man das Setup um Ceph und lagerte die Langzeitdaten aus Prometheus dorthin aus. Ein Gespann aus Prophet und Fourier analysierte die Langzeitdaten dann und verband sich obendrein wiederum mit Prometheus.

Abbildung 1: Der Einsatz künstlicher Intelligenz im Operations-Umfeld ist keineswegs neu. Red Hat tourt seit 2019 mit einem Beispiel, das Anomalien im Netzwerkverkehr automatisiert erkennt. Quelle: Red Hat
Prophet ist eine von Facebook entwickelte Vorhersageumgebung, Fourier analysiert Frequenzinformationen aus Verkehrsdatenströmen und korreliert sie zu verschiedenen zusätzlichen Umgebungsvariablen. Das Gespann aus Fourier und Prophet hat sich im Rahmen dieses Proof of Concept bewährt: Fütterte man Prophet mit Mustern von Angriffen, die in der Vergangenheit tatsächlich stattgefunden hatten, gewann es stückweise die Fähigkeit, im aktuellen Datenstrom bis hinunter auf die Ebene einzelner Sekunden verdächtige Entwicklungen zu erkennen.
Feldversuche zeigen, dass bereits wenige Sekunden ungewöhnlichen Traffics ausreichen, um mit hoher Zuverlässigkeit einen bevorstehenden Angriff vorherzusagen. Wer nun feststellt, dass dieser sich erst vorhersagen lässt, wenn er praktisch bereits begonnen hat, liegt daneben: Denn Fourier und Prophet erkannten nicht nur die eindeutigen Datenmuster bereits begonnener Angriffe, sondern konnten anhand verschiedener Details einzelner Verbindungen auch Vorarbeiten erkennen, etwa Verbindungen zum Auskundschaften der Umgebung.
Im Gespann mit Prometheus war das extrem praktisch. Schließlich verfügt Prometheus selbst über eine vollständige und gut gewartete Alerting-Engine. Indem das Beispiel-Setup den Administrator also über einen bevorstehenden Angriff informierte, ermöglichte es, diesen durch entsprechende Rekonfiguration von Netzwerk und Firewall von vorneherein zu unterbinden (Abbildung 2).

Abbildung 2: Red Hats Prometheus Anomaly Detector kommt mit einem Modell daher, das auf Grundlage vorhandener Angriffsdaten trainiert werden kann und neue Angriffsformen dann besser erkennt. Quelle: Red Hat
Wenn Unternehmen aktuell von AIOps sprechen, meinen sie fast ausnahmslos ebendiese Form des maschinellen Lernens auf Basis tatsächlicher Verbindungsmetadaten. Oder, wie IBM es für Red Hat Marketing-kompatibel ausdrückt: AIOps ist DevOps mit Big Data.
Fertiges Portfolio
IBM wäre freilich nicht IBM, hätte man für das Thema im Linux-Bereich über Red Hat nicht gleich auch ein umfassendes Portfolio an Lösungen parat. Der entsprechende Flyer für die Produktpalette liest sich ein bisschen wie aus einem Zukunftsroman: AI soll künftig dabei helfen, Angriffe im Keim zu ersticken, Systeme bei Fehlfunktionen automatisiert wiederzubeleben, Skalierbarkeit zu erleichtern und ganz nebenbei noch die Schaffung von Innovation dort zu ermöglichen, wo Personal heute eher an langweiligen Alltagsaufgaben sitzt.
Getreu der eigenen DNA setzt Red Hat dabei zumindest im Augenblick vorrangig auf Open-Source-Komponenten wie Llama 2, ein von der Facebook-Mutter Meta entwickeltes Modell für maschinelles Lernen, für das Prophet in gewisser Weise eine Vorarbeit war. Es stellt gleich eine ganze Toolchain in Sachen KI und Machine Learning bereit, eine offene API für generelle Verfügbarkeit inklusive. Man gehört, so will Facebook es offensichtlich dargestellt wissen, schließlich zu den Guten auf der Welt.
Nur auf ein Pferd will man sein Geld bei Red Hat dann aber wohl doch nicht setzen und stellt alternativ dazu Thoth bereit, flankiert vom Project Wisdom, das sich heute bereits mit der Ansible-Automationsplattform Red Hats verbinden lässt. Dieses Gespann soll als Ansible Lightspeed administrative Aufgaben per KI erledigen. Obendrein ist Red Hat Mitglied der AICoE, eines Branchenkonsortiums, das die Nutzung von AI propagiert und anhand praktischer Proof of Concepts demonstriert. Das erwähnte Beispiel aus Prometheus und Prophet beispielsweise hat Red Hat im Rahmen von AICoE realisiert.
Damit ist klar: Red Hat steckt viel Geld in das Thema, und AIOps ist ein eher langfristig angelegtes Projekt und keine Eintagsfliege. Trotzdem muss Red Hat sich den Vorwurf gefallen lassen, in Sachen AIOps bisher vor allem schöne Folien produziert zu haben. Von wenigen erfolgreichen PoCs abgesehen, lieferten die roten Hüte bisher nicht viel Konkretes.
Coroot mit AI-Analyse
Wie sich künstliche Intelligenz schon heute ganz praktisch einsetzen lässt, demonstriert das Projekt Coroot (Abbildung 3), im Kern eigentlich ein Werkzeug für Observability. Die hat viele Definitionen, doch die meisten Administratoren verstehen unter dem Schlagwort eine Kombination aus Monitoring, Alerting, Trending und Log Aggregation.

Abbildung 3: Coroot fußt auf eBPF und kommt in Container-Umgebungen zum Einsatz, um zu analysierenden Netzwerktraffic direkt auf der Ebene des Linux-Kernels mittels eBPF abzufangen. Quelle: Coroot
Im Gegensatz zu anderen Lösungen setzt Coroot auf das Prinzip Zero Instrumentation. Das bedeutet, dass Administratoren ihre Systeme nicht in irgendeiner Weise besonders vorbereiten oder mit besonderer Software ausstatten müssen, um Coroot zu nutzen. Stattdessen dockt das Werkzeug direkt im Linux-Kernel an, und zwar bei eBPF, einer Umgebung für den Betrieb spezieller virtueller Maschinen innerhalb des Netzwerk-Stacks, die bestimmte Funktionen zur Verfügung stellen. Welche Funktionen das sind, obliegt dabei vorrangig der Fantasie ihrer Autoren.
Coroot nutzt das Prinzip, um Datenströme bereits auf Kernel-Ebene zu analysieren und auszuwerten. Relevante Daten filtert es je nach Vorgabe des Admins heraus und sendet sie an eine zentrale Coroot-Instanz, in der alle Datenströme zusammenlaufen. Besonders praktisch: Coroot kommt ab Werk mit etlichen fertigen VMs für eBPF und deckt dadurch einen riesigen Zoo an Diensten auf Zielsystemen ab.
Hat die zentrale Coroot-Instanz ihre Observability-Daten erst einmal gesammelt, liegen sie aber nicht nur sicher verwahrt irgendwo im lokalen Netz. Stattdessen nutzt Coroot im Anschluss Machine-Learning-Modelle, um Anomalien in den Daten zu erkennen und deren Ursache zu identifizieren. Genau darin besteht, so die Autoren der Software, ein zentraler Aspekt der Coroot-Entwicklung: Das Werkzeug soll es signifikant leichter machen, die Ursachen von Ausfällen herauszufinden. Das umfasst auch Ausfälle, die beispielsweise infolge von DDoS-Attacken aufgetreten sind.
Der Ansatz der Software ist dabei trivial: Als Grundlage dient ein wahlfrei zu definierendes Service Level Objective (SLO). Im Maschinensprech definiert das die validen Parameter. Jede Abweichung davon stellt eine Anomalie dar und mithin ein Ereignis, das einer Benachrichtigung bedarf. Dann füttert Coroot den so definierten ML-Algorithmus kontinuierlich mit Live-Daten (Abbildung 4) aus einem Setup. Mit fortschreitender Trainingsdauer passt es seine Alarmierungen dann immer feiner an die lokalen Gegebenheiten einer Umgebung an.

Abbildung 4: Weil Coroot die gesamte Netzwerktopologie einer Umgebung kennt, kann es diese in wenigen Sekunden vollständig aufzeichnen und daraus eine virtuelle Netzwerkkarte erstellen. Quelle: Coroot
Auch hier wird eine konkrete Stärke von KI-Modellen sichtbar, die sich vor Ort und im spezifischen Kunden-Setup trainieren lassen: Sie können auf lokale Besonderheiten spezifisch reagieren. Es leuchtet ein, dass T-Systems andere Anforderungen bei der Erkennung von Anomalien in seinen Diensten hat als ein mittelständischer IT-Dienstleister aus dem Sauerland. Mit konventionellen Methoden lässt sich das nicht sehr gut abbilden. KI-gestützte Machine-Learning-Modelle passen sich ganz ohne weiteres Zutun des Administrators an solche Feinheiten an (Abbildung 5).

Abbildung 5: Coroot nutzt gesammelte Metrikdaten in AI-Modellen als Grundlage, um künftige Angriffsmuster durch entsprechend trainierte ML-Modelle zu identifizieren. Quelle: Coroot
Der aus heutiger Sicht einzige Wermutstropfen bei Coroot: Das Werkzeug richtet sich im Augenblick nur an hippe Container-Setups auf Basis von Kubernetes. Dafür bringt es alle benötigten Werkzeuge mit und lässt sich hier schnell in Betrieb nehmen. Ärgerlich: Gerade die KI-Funktionen, die viele Unternehmen ganz besonders interessieren dürften, stehen aktuell nur in der gehosteten Variante Coroot Cloud zur Verfügung. Da helfen alle Hinweise des Anbieters nichts, wonach Coroot zu 100 Prozent freie Software sei. Hier handelt es sich um das berüchtigte Open-Core-Prinzip, das die zentrale Engine zwar unter einer freien Lizenz zur Verfügung stellt, die wirklich interessanten Zusatzfunktionen aber proprietär belässt.
Verschlimmbesserung?
Tatsächlich bemerkenswert an AIOps ist neben den beschriebenen Funktionen im Hinblick auf spezifische Setups, dass sich anders als etwa beim Trainieren von Spamfiltern durch die richtige Kombination aus Eingabedaten und Algorithmus tatsächlich neues Wissen generieren lässt.
Die klassischen Spam-Filter werden eine frische Spam-Mail im Normalfall nicht erkennen, wenn sie verschiedene Elemente vorheriger Ansätze geschickt kombiniert und ein neues Ganzes herstellt. Machine Learning ist da deutlich schlauer und kann etwa aus vorhandenen Daten vorheriger Angriffe neue Angriffsmuster erschließen, auf die es dann ohne vorheriges Training anschlägt. Das nimmt auch die Schärfe aus der von vielen Admins reflexartig aufgeworfenen Kritik, AIOps werde sich schon deshalb nicht durchsetzen, weil solche Automatismen in der Vergangenheit regelmäßig mehr Schaden angerichtet als Nutzen gebracht hätten.
Die klassischen Auto-Reaktionen im produktiven Operating stoßen völlig zu Recht auf Häme und Spott. So etwas ist aber gar nicht die Intention hinter AIOps. Korrekt gebaute Machine-Learning-Algorithmen sind der klassischen Heuristik oder gar dem stumpfen Abarbeiten von Befehlen beim Auftreten bestimmter Ereignisse haushoch überlegen. Sie werden sich gerade für die Administratoren stetig wachsender Setups auf lange Sicht als unverzichtbares Alltagswerkzeug einbürgern, um überhaupt die Kontrolle behalten zu können. Und sie werden den Administratoren sukzessive einzelne Aufgaben abnehmen, so wie es die Automation gegenwärtig bereits tut.
Die Zeiten ändern sich
Jegliche Panik hinsichtlich des eigenen Arbeitsplatzes ist trotzdem unangebracht. Noch stecken die meisten Ansätze für AIOps in den Kinderschuhen und sind noch nicht reif für den produktiven Einsatz. Dass sich das von heute auf morgen ändert, erscheint einerseits unwahrscheinlich. Andererseits ist der flächendeckende Einsatz von KI in Unternehmen auch nicht gleichbedeutend mit dem berüchtigten Jobkahlschlag – schon gar nicht in einer Branche, die aktuell eher mit dem genauen Gegenteil zu kämpfen hat, nämlich mit einem massiven Mangel an Fachkräften.
Einfache operative Aufgaben des Alltags werden sich zweifelsohne sukzessive durch gut entwickelte AI-Modelle ersetzen lassen. Das bedeutet aber vielerorts vermutlich nur, dass die Fachabteilungen die bislang mit gängigen Alltagsarbeiten befassten Kräfte dann wieder einsetzen können, um neue Features zu bauen und das Unternehmen innovativ voranzutreiben.
Freilich verlangt das auch seitens des Personals eine gewisse Bereitschaft zur Veränderung. Wie in kaum einer anderen Branche gilt in der IT aber ohnehin seit jeher das Prinzip, dass mit der Zeit gehen muss, wer nicht mit der Zeit gegangen werden will. Problematisch wird AIOps perspektivisch also erst einmal nur für Admins, die ihre grundlegenden Ops-Aufgaben des Alltags nicht abgeben wollen. Alle anderen werden auch auf lange Sicht erbaulichere Tätigkeiten finden, selbst wenn diese “nur” darin bestehen, die für die KI nötige Infrastruktur am Laufen zu halten.
Fazit
Auch wer den aktuellen Hype rund um künstliche Intelligenz zu Recht befremdlich findet, wird sich dem Thema letztlich kaum entziehen können. AIOps mag im Augenblick vorrangig eine fixe Idee in den Marketing-Abteilungen der großen Hersteller sein. Dass Modelle für maschinelles Lernen den operativen Alltag auch und insbesondere von IT-Unternehmen verändern werden, erscheint jedoch unvermeidlich.
Längst existieren fertige Proof-of-Concept-Implementierungen, und Hersteller wie IBM bieten ihr schon heute umfangreiches Sortiment an KI-Werkzeugen offensiv an. Lösungen wie Coroot zeigen ganz praktisch, was mit KI und Big Data im Rechenzentrum der Gegenwart operativ bereits möglich ist. Wer auf das Thema vielleicht nicht unbedingt mit der deutschen Brille und der darin eingebauten “German Angst” schaut, erkennt darin nicht primär eine Gefahr für den eigenen Arbeitsplatz, sondern vielmehr eine Chance für Innovation und coole Technik mit viel Potenzial. (jcb/jlu)
Infos
- Prometheus Anomaly Detector: https://github.com/AICoE/prometheus-anomaly-detector





