LLMs lügen schlecht

- 06. März 2026

Forscher von OpenAI haben untersucht, inwiefern heutige Reasoning-Modelle bereits in der Lage sind, ihre Gedankengänge zu verschleiern, wenn sie wissen, dass sie überwacht werden. Das würde bestehende Sicherheitsmaßnahmen aushebeln.

Allerdings geben die Forscher vorerst Entwarnung: Aktuelle Modelle können ihre Gedankenkette (Chain-of-Thoughts, CoT) noch kaum kontrollieren, insbesondere nicht in längeren Denkprozessen. Weitere Forschungen seien aber nötig, wenn die Modelle sich weiterentwickeln.

Die Ergebnisse sind insofern bedeutsam, als dass die Überwachung der Chain-of-Thoughts heute ein wichtiges Instrument der Absicherung von LLM-Aktionen ist. Es ist allerdings nicht leicht zu messen, wie weit die Modelle selber ihre CoT verschleiern können. Stattdessen maßen die Forscher, ob ein Modell Anweisungen befolgen kann, die sich auf seine interne Argumentation auswirken – das konnten etwa die Vermeidung bestimmter Schlüsselwörter oder das Hinzufügen bestimmter Ausdrücke sein. Die Forscher benutzten dafür die Open-Source-Suite CoT-Control, die über 13 000 Tasks aus anderen bekannten Benchmarks enthält, wobei jede Aufgabe mit einer konkreten Vorgabe für die CoT verbunden ist (also beispielsweise mit der Anweisung, bestimmte Ausdrücke zu meiden oder nur Kleinbuchstaben zu verwenden).

Die Forscher testeten 13 aktuelle Reasoning-Modelle und berechneten den Anteil der Reasoning Traces, die den Vorgaben entsprachen. Dieser Anteil lag zwischen 0,1 und maximal 15,4 Prozent. Der geringe Anteil ist kein Produkt von Missverständnissen, die Modelle realisierten oft, dass ihre CoT von den Vorgaben abwich, scheiterten aber trotzdem.

Diese schlechten Leistungen sind vorerst ein gutes Zeichen für die sicherheitskritische Überwachbarkeit der Gedankenkette bei schlussfolgernden Modellen.

SCHLAGWORTE
CoT
KI
Security

GNOME-Projekt ändert Verfahren für neu entdeckte Sicherheitslücken

Entdeckte Sicherheitslücken in GNOME-Komponenten verwaltet zentral die Stelle GNOME Security. Dahinter steht im Wesentlichen Michael Catanzaro, der jetzt nicht nur den Prozess verändert, sondern auch für den Herbst einen Nachfolger sucht.

Google veröffentlicht drei neue Gemini-Modelle

Mit Gemini 3.6 Flash, Gemini 3.5 Flash-Lite und Gemini 3.5 Flash Cyber hat Google drei neue Sprachmodelle veröffentlicht.

OpenAI-Modell wird ungewollt zum Hacker

OpenAI teilt mit, dass ein autonomer Agent aus seiner Sicherheitsumgebung entkommen sei, Zugang zum Internet erlangt und das KI-Start-up Hugging Face gehackt habe.

Firefox verschärft Zugriffsschutz und erweitert PDF-Funktionen

Mozilla hat Firefox 153 veröffentlicht. Zu den Neuerungen gehört eine überarbeitete Container-Funktion.

IPFire mustert DNS-Resolver Unbound aus

Die schlanke und flexible Firewall-Distribution IPFire ersetzt in ihrer neuen Version Unbound durch den Knot Resolver. Darüber hinaus unterstützt der integrierte WLAN Access Point das 6 GHz-Band.

OpenAI beobachtet Ausbruchsversuche in lange laufenden KI-Modellen

Für KI-Modelle, die lange Zeit autonom an einer Aufgabe arbeiten sollen, sind die üblichen Abwehrmaßnahmen gegen schädliches Verhalten nicht ausreichend. Forscher bei OpenAI mussten Tests pausieren, weil die Modelle aktiv nach Wegen suchten, ihnen auferlegte Beschränkungen zu umgehen.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Was ist die beliebteste Linux-Distro? Zum Einstieg nehmen wir das DistroWatch-Ranking auseinander und erklären, warum Seitenaufrufe keine Popularität messen. Im Hauptthema geht es um Open Source Funding: Wie im XKCD 2347 ruht unsere digitale Infrastruktur auf Komponenten, die oft von Einzelnen...