Führende Forscher fordern bessere Überwachung der Gedanken einer KI

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

In einer seltenen firmenübergreifenden Veröffentlichung fordern Wissenschaftler von Anthropic, OpenAI, Google DeepMind, Meta und verschiedener Forschungsinstitute eine bessere Überwachbarkeit der Gedankenkette (Chain of Thought, CoT) von schlussfolgernden KI-Modellen. Das Papier wurde zusätzlich von einigen der renommiertesten Forscher auf diesem Gebiet befürwortet, darunter Geoffrey Hinton (Universität Toronto) und Ilya Sutskever (Safe Superintelligence Inc.).

Das Monitoring der Chain of Thought sei eine gute Möglichkeit potenzielle Risiken frühzeitig zu erkennen und schädigendes Verhalten zu unterbinden. Es bedürfe dafür eines CoT-Monitors, eines automatischen Systems, das die CoT eines Argumentationsmodells und andere relevante Informationen liest und verdächtige oder potenziell schädliche Interaktionen kennzeichnet. Diese Reaktionen können dann blockiert, durch sicherere Aktionen ersetzt oder eingehender geprüft werden. Ganz allgemein könne man durch die Untersuchung der CoT einen Einblick in die Denkweise unserer KI-Agenten und ihre Ziele gewinnen.

Das CoT-Monitoring sei dabei allerdings kein Allheilmittel. Es sei möglich, dass in der CoT nur harmlose Gedankenschritte auftauchen, während schädliche verborgen blieben. Auch sei nicht in jedem Fall eine Kette von Schlussfolgerungen Voraussetzung für schädliches Verhalten – wenn auch für die größten Risiken Planung und Schlussfolgern gebraucht würden.

Mithilfe eines ausgefeilten CoT-Monitorings sollte es möglich sein, das Fehlverhalten von Modellen zu erkennen, einen frühzeitigen Einblick in die Ziele und Motivationen von Modellen zu ermöglichen und Fehler im Agentengerüst, in den Werkzeugen und in der Evaluierungsinfrastruktur aufzuspüren. Dabei sei die Überwachbarkeit fragil und könne durch eine Reihe von Faktoren beeinträchtigt werden.

Viele der Risiken, die von hochgradig befähigten KI-Agenten ausgehen, wären viel leichter zu bewältigen, wenn diese Agenten interpretierbar wären. Trotz vielversprechender Fortschritte bei der Anwendung mechanistischer Interpretierbarkeit wird die Umsetzung in zuverlässige, praktische Werkzeuge zur Überwachung von LLM-Agenten weitere Forschungsdurchbrüche erfordern. In Anbetracht der einzigartigen Gelegenheit, die die CoT-Überwachbarkeit bietet, sollten KI-Entwickler wirksame Methoden zur Bewertung der CoT-Überwachbarkeit entwickeln, die Bewertungsergebnisse veröffentlichen und bei Entscheidung über das Training und den Einstz der Modelle berücksichtigen.

Das Papier resümiert: “Alle Überwachungs- und Kontrollmethoden haben ihre Grenzen, sodass manches Fehlverhalten unbemerkt bleibt. Daher müssen Sicherheitsmaßnahmen für zukünftige KI-Agenten wahrscheinlich mehrere Überwachungsebenen verwenden, die hoffentlich unkorrelierte Fehlermodi haben. Das CoT-Monitoring stellt eine wertvolle Ergänzung der Sicherheitsmaßnahmen für Frontier-KI dar, da es einen seltenen Einblick in die Entscheidungsfindung von KI-Agenten bietet. Es gibt jedoch keine Garantie dafür, dass der derzeitige Grad der Sichtbarkeit bestehen bleibt. Wir ermutigen die Forschungsgemeinschaft und die Entwickler von Frontier-KI, die CoT-Überwachbarkeit bestmöglich zu nutzen und zu untersuchen, wie sie erhalten werden kann.”

E-Mail Benachrichtigung
Benachrichtige mich zu:
3 Kommentare
Älteste
Neuste Beste Bewertung
Michael Hanitz
11 Monate her

Gibt es hierzu auch einen Quellenverweis/ Link zu dem paper?

Michael Hanitz
11 Monate her

Gibt es auch eine Quellenangabe zu der erwähnten Veröffentlichung?

Editor
11 Monate her
Reply to  Michael Hanitz

Hallo Herr Hanitz,

Sie finden einen Link zum Paper am Anfang des Textes.

Beste Grüße

Tim Schürmann

Nach oben