Führende Forscher fordern bessere Überwachung der Gedanken einer KI

- 16. Juli 2025

In einer seltenen firmenübergreifenden Veröffentlichung fordern Wissenschaftler von Anthropic, OpenAI, Google DeepMind, Meta und verschiedener Forschungsinstitute eine bessere Überwachbarkeit der Gedankenkette (Chain of Thought, CoT) von schlussfolgernden KI-Modellen. Das Papier wurde zusätzlich von einigen der renommiertesten Forscher auf diesem Gebiet befürwortet, darunter Geoffrey Hinton (Universität Toronto) und Ilya Sutskever (Safe Superintelligence Inc.).

Das Monitoring der Chain of Thought sei eine gute Möglichkeit potenzielle Risiken frühzeitig zu erkennen und schädigendes Verhalten zu unterbinden. Es bedürfe dafür eines CoT-Monitors, eines automatischen Systems, das die CoT eines Argumentationsmodells und andere relevante Informationen liest und verdächtige oder potenziell schädliche Interaktionen kennzeichnet. Diese Reaktionen können dann blockiert, durch sicherere Aktionen ersetzt oder eingehender geprüft werden. Ganz allgemein könne man durch die Untersuchung der CoT einen Einblick in die Denkweise unserer KI-Agenten und ihre Ziele gewinnen.

Das CoT-Monitoring sei dabei allerdings kein Allheilmittel. Es sei möglich, dass in der CoT nur harmlose Gedankenschritte auftauchen, während schädliche verborgen blieben. Auch sei nicht in jedem Fall eine Kette von Schlussfolgerungen Voraussetzung für schädliches Verhalten – wenn auch für die größten Risiken Planung und Schlussfolgern gebraucht würden.

Mithilfe eines ausgefeilten CoT-Monitorings sollte es möglich sein, das Fehlverhalten von Modellen zu erkennen, einen frühzeitigen Einblick in die Ziele und Motivationen von Modellen zu ermöglichen und Fehler im Agentengerüst, in den Werkzeugen und in der Evaluierungsinfrastruktur aufzuspüren. Dabei sei die Überwachbarkeit fragil und könne durch eine Reihe von Faktoren beeinträchtigt werden.

Viele der Risiken, die von hochgradig befähigten KI-Agenten ausgehen, wären viel leichter zu bewältigen, wenn diese Agenten interpretierbar wären. Trotz vielversprechender Fortschritte bei der Anwendung mechanistischer Interpretierbarkeit wird die Umsetzung in zuverlässige, praktische Werkzeuge zur Überwachung von LLM-Agenten weitere Forschungsdurchbrüche erfordern. In Anbetracht der einzigartigen Gelegenheit, die die CoT-Überwachbarkeit bietet, sollten KI-Entwickler wirksame Methoden zur Bewertung der CoT-Überwachbarkeit entwickeln, die Bewertungsergebnisse veröffentlichen und bei Entscheidung über das Training und den Einstz der Modelle berücksichtigen.

Das Papier resümiert: “Alle Überwachungs- und Kontrollmethoden haben ihre Grenzen, sodass manches Fehlverhalten unbemerkt bleibt. Daher müssen Sicherheitsmaßnahmen für zukünftige KI-Agenten wahrscheinlich mehrere Überwachungsebenen verwenden, die hoffentlich unkorrelierte Fehlermodi haben. Das CoT-Monitoring stellt eine wertvolle Ergänzung der Sicherheitsmaßnahmen für Frontier-KI dar, da es einen seltenen Einblick in die Entscheidungsfindung von KI-Agenten bietet. Es gibt jedoch keine Garantie dafür, dass der derzeitige Grad der Sichtbarkeit bestehen bleibt. Wir ermutigen die Forschungsgemeinschaft und die Entwickler von Frontier-KI, die CoT-Überwachbarkeit bestmöglich zu nutzen und zu untersuchen, wie sie erhalten werden kann.”

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

3 Kommentare

Älteste

Neuste Beste Bewertung

Michael Hanitz

11 Monate her

Gibt es hierzu auch einen Quellenverweis/ Link zu dem paper?

Antworten

Michael Hanitz

11 Monate her

Gibt es auch eine Quellenangabe zu der erwähnten Veröffentlichung?

Antworten

Editor

Tim Schürmann

11 Monate her

Reply to Michael Hanitz

Hallo Herr Hanitz,

Sie finden einen Link zum Paper am Anfang des Textes.

Beste Grüße

Tim Schürmann

Antworten

Führende Forscher fordern bessere Überwachung der Gedanken einer KI

Verwandte Artikel

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Red Hat macht Ansible fit für KI-Agenten

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

Cloud Tag: KI als Partner im Gruppenchat

LMP003 Chemnitzer Linux-Tage 2026