LLMs lügen schlecht

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Forscher von OpenAI haben untersucht, inwiefern heutige Reasoning-Modelle bereits in der Lage sind, ihre Gedankengänge zu verschleiern, wenn sie wissen, dass sie überwacht werden. Das würde bestehende Sicherheitsmaßnahmen aushebeln.

Allerdings geben die Forscher vorerst Entwarnung: Aktuelle Modelle können ihre Gedankenkette (Chain-of-Thoughts, CoT) noch kaum kontrollieren, insbesondere nicht in längeren Denkprozessen. Weitere Forschungen seien aber nötig, wenn die Modelle sich weiterentwickeln.

Die Ergebnisse sind insofern bedeutsam, als dass die Überwachung der Chain-of-Thoughts heute ein wichtiges Instrument der Absicherung von LLM-Aktionen ist. Es ist allerdings nicht leicht zu messen, wie weit die Modelle selber ihre CoT verschleiern können. Stattdessen maßen die Forscher, ob ein Modell Anweisungen befolgen kann, die sich auf seine interne Argumentation auswirken – das konnten etwa  die Vermeidung bestimmter Schlüsselwörter oder das Hinzufügen bestimmter Ausdrücke sein. Die Forscher benutzten dafür die Open-Source-Suite  CoT-Control, die über 13 000  Tasks aus anderen bekannten Benchmarks enthält, wobei jede Aufgabe mit einer konkreten Vorgabe für die CoT verbunden ist (also beispielsweise mit der Anweisung, bestimmte Ausdrücke zu meiden oder nur Kleinbuchstaben zu verwenden).

Die Forscher testeten 13 aktuelle Reasoning-Modelle und berechneten den Anteil der Reasoning Traces, die den Vorgaben entsprachen. Dieser Anteil lag zwischen 0,1 und maximal 15,4 Prozent. Der geringe Anteil ist kein Produkt von Missverständnissen, die Modelle realisierten oft, dass ihre CoT von den Vorgaben abwich, scheiterten aber trotzdem.

Diese schlechten Leistungen sind vorerst ein gutes Zeichen für die sicherheitskritische Überwachbarkeit der Gedankenkette bei schlussfolgernden Modellen.

 

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben