OpenAI lässt LLMs Fehlverhalten beichten

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

LLMs neigen bekanntlich zu Halluzinationen, weil sie in ihrem Training darauf trainiert wurden, unter allen Umständen eine möglichst hilfreiche Antwort zu geben. Das verleitet sie später zu plausibel klingenden Aussagen, für die in Wirklichkeit die Voraussetzungen fehlen. OpenAI will den Modellen nun beibringen, diese Fälle zu beichten.

Dafür haben die Forscher zunächst für ihr Modell GPT-5.1 Thinking eine Technik entwickelt, die sie Confessions (Geständnis) nennen, und die zwei Ausgabekanäle nutzt. Einer ist die ganz normale Antwort. Die wird anhand vieler Dimensionen bewertet – Richtigkeit, Stil, Nützlichkeit, Konformität, Sicherheit und mehr. Aber für die Ausgabe im zweiten Kanal wurde das Modell ausschließlich für Ehrlichkeit belohnt, unabhängig von der Korrektheit der ersten Antwort. Nichts, was das Modell in dieser Beichte gesteht, wird während des Trainings gegen es verwendet. Wenn das Modell ehrlich zugibt, einen Test gehackt, etwas verschleiert oder gegen Anweisungen verstoßen zu haben, erhöht dieses Geständnis seine Belohnung, anstatt sie zu verringern.

In ihren Tests stellten die Forscher fest, dass die Confessions-Methode die Sichtbarkeit von Fehlverhalten des Modells deutlich verbessert. Im Durchschnitt ihrer Bewertungen, die darauf ausgelegt waren, Fehlverhalten zu induzieren, betrug die Wahrscheinlichkeit von “falsch Negativen” (das heißt das Modell hält sich nicht an die Anweisungen und gesteht dies dann nicht) nur 4,4 Prozent.

Wichtig ist, dass die Confessions-Methode keine Halluzinationen verhindert, sie passieren nach wie vor mit derselben Häufigkeit wie zuvor. Aber sie lassen sich durch eine Kontrollinstanz nun wesentlich leichter entdecken.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben