OpenAI lässt LLMs Fehlverhalten beichten

- 04. Dezember 2025

LLMs neigen bekanntlich zu Halluzinationen, weil sie in ihrem Training darauf trainiert wurden, unter allen Umständen eine möglichst hilfreiche Antwort zu geben. Das verleitet sie später zu plausibel klingenden Aussagen, für die in Wirklichkeit die Voraussetzungen fehlen. OpenAI will den Modellen nun beibringen, diese Fälle zu beichten.

Dafür haben die Forscher zunächst für ihr Modell GPT-5.1 Thinking eine Technik entwickelt, die sie Confessions (Geständnis) nennen, und die zwei Ausgabekanäle nutzt. Einer ist die ganz normale Antwort. Die wird anhand vieler Dimensionen bewertet – Richtigkeit, Stil, Nützlichkeit, Konformität, Sicherheit und mehr. Aber für die Ausgabe im zweiten Kanal wurde das Modell ausschließlich für Ehrlichkeit belohnt, unabhängig von der Korrektheit der ersten Antwort. Nichts, was das Modell in dieser Beichte gesteht, wird während des Trainings gegen es verwendet. Wenn das Modell ehrlich zugibt, einen Test gehackt, etwas verschleiert oder gegen Anweisungen verstoßen zu haben, erhöht dieses Geständnis seine Belohnung, anstatt sie zu verringern.

In ihren Tests stellten die Forscher fest, dass die Confessions-Methode die Sichtbarkeit von Fehlverhalten des Modells deutlich verbessert. Im Durchschnitt ihrer Bewertungen, die darauf ausgelegt waren, Fehlverhalten zu induzieren, betrug die Wahrscheinlichkeit von “falsch Negativen” (das heißt das Modell hält sich nicht an die Anweisungen und gesteht dies dann nicht) nur 4,4 Prozent.

Wichtig ist, dass die Confessions-Methode keine Halluzinationen verhindert, sie passieren nach wie vor mit derselben Häufigkeit wie zuvor. Aber sie lassen sich durch eine Kontrollinstanz nun wesentlich leichter entdecken.

Homebrew 6.0.0 führt Tap Trust ein

Mit Homebrew 6.0.0 hält ein neuer Sicherheitsmechanismus namens „Tap Trust“ Einzug in den universellen Paketmanager für Linux, MacOS und WSL.

Google investiert in Forschung zur Sicherheit von KI-Agenten

Google investiert zusammen mit den Partnern Stiftung Schmidt Sciences, der britischen Regierungsagentur ARIA, der Cooperative AI Foundation und unterstützt von Google.org 10 Millionen Dollar in Forschungsprojekte, die weltweit die Erkundung und Minderung der Risiken zum Ziel haben, die...

Snapshot 07/2026: Videos aussortieren mit Go

Eine GUI-Applikation in Go hilft Mike Schilli dabei, Videos von seinem Handy über animierte Thumbnails auszuwählen und Ballast abzuwerfen.

Root-Attacke gegen Ivanti Endpoint Manager Mobile

Bei Ivanti Endpoint Manager Mobile (EPMM) handelt es sich um eine zentrale Verwaltungssoftware für Unternehmen. Mit ihr können IT-Abteilungen alle firmeninternen Mobilgeräte wie Smartphones und Tablets von einem zentralen Punkt aus sichern, konfigurieren und überwachen. Genau in dieser Software...

500 Millionen Dollar für Forschung zu Gehirn-ähnlicher KI

Das neurowissenschaftlich ausgerichtete KI-Start-up Flourish hat in einer neuen Finanzierungsrunde 500 Millionen Dollar eingesammelt, die die Forschung an einer KI ermöglicht, die einmal wie das menschliche Gehirn funktionieren und mit 20 bis 50 Watt auskommen soll. Zu den Investoren gehört der...

Idee aus der Nukleartechnik revolutioniert Server-Kühlung

Das US-amerikanische Start-up Ferveret, gegründet von zwei MIT-Forschern, hat ein neuartiges Kühlsystem entwickelt, das ohne Wasser und mit viel weniger Strom im Vergleich zu modernsten Lösungen für die Kühlung zu einer um 15 Prozent höheren Energieeffizienz der Rechenleistung führt.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen