Neue Studie: LLMs ziehen Schlüsse ohne nachzudenken

- 20. August 2025

Eine neue Studie von Forschern der Arizona State University zeigt: Sprachmodelle, die zu einem schrittweisen Nachdenken entlang einer Gedankenkette (Chain-of-Thoughts, CoT) aufgefordert werden, übertragen in Wirklichkeit nur Muster, die sie aus ihren Trainingsdaten kennen, auf die gestellte Aufgabe.

CoT ist damit gar kein Schlussfolgern, sondern eine fortgeschrittene Form von Pattern Matching, das stark an die Muster in den Trainingsdaten gebunden ist. Die Forscher erklären, die Erfolge von LLMs bei Aufgaben in Form einer Chain-of-Thoughts stammen nicht von einer dem Modell innewohnenden Fähigkeit zu schlussfolgern, sondern von der Übertragung von Lösungsmustern aus den Trainingsdaten auf ähnliche Fälle. Sobald sich aber die Trainingsdaten auch nur leicht von denen der Aufgabe unterscheiden, können die Modelle schnell reinen Nonsens produzieren, den sie aber mit Überzeugung vertreten und der schlimmstenfalls auf den ersten Blick plausibel klingt.

Die Forscher sprechen eine direkte Warnung an Praktiker aus, indem sie “das Risiko hervorheben, sich auf CoT als Plug-and-Play-Lösung für logische Aufgaben zu verlassen”, und davor warnen, CoT-ähnliche Ergebnisse mit menschlichem Denken gleichzusetzen. Sie geben drei wichtige Ratschläge für Entwickler, die Anwendungen mit LLMs erstellen:

Erstens: “Hüten Sie sich vor übermäßigem Vertrauen und falscher Zuversicht. CoT sollte nicht als verlässliches Modul für die Argumentation in Bereichen mit hohen Anforderungen wie Finanzen oder juristische Analysen angesehen werden.”

Zweitens: Vorrangige Durchführung von Out-of-Distribution (OOD)-Tests. Eine Standardvalidierung, bei der die Testdaten die Trainingsdaten widerspiegeln, reicht nicht aus, um echte Robustheit zu messen. Die Entwickler müssen strenge Tests durchführen, die systematisch nach Fehlern bei verschiedenen Aufgaben, Längen und Formaten suchen.

Drittens: Behandeln Sie eine Feinabstimmung als Flickwerk, nicht als Allheilmittel. Die überwachte Feinabstimmung (SFT) kann zwar die Leistung eines Modells bei einer bestimmten neuen Datenverteilung schnell ausbessern, schafft aber keine echte Verallgemeinerung. Es erweitert lediglich die “In-Distributions-Blase” des Modells ein wenig. Sich auf SFT zu verlassen, um jeden OOD-Fehler zu beheben, ist eine unhaltbare Strategie, die den zentralen Mangel des Modells an abstraktem Denken nicht behebt.

Google Meet protokolliert in Meetings mit

Google Nutzer mit KI Pro- und Ultra-Abos brauchen in Meetings ab sofort keinen Schriftführer mehr: Google Meet transkribiert die Diskussion selbstständig und fasst die wichtigsten Maßnahmen per E-Mail und in einem Google-Doc-File zusammen, dass den Teilnehmern anschließend automatisch zugestellt...

Universität Paderborn erweitert Supercomputer „Otus“

Die Universität Paderborn baut ihren Hochleistungsrechner „Otus“ aus. Wie die Hochschule mitteilt, stehen dafür mehr als zwölf Millionen Euro aus Landes- und Bundesmitteln zur Verfügung.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

1 Kommentar

Älteste

Neuste Beste Bewertung

Volker U.

10 Monate her

Wenn ich mir das Verhalten vieler Menschen betrachten ist “ziehen Schlüsse ohne nachzudenken” ja ein Anzeichen von menschlichem Verhalten ;-)

Antworten

Neue Studie: LLMs ziehen Schlüsse ohne nachzudenken

Verwandte Artikel

Google Meet protokolliert in Meetings mit

Universität Paderborn erweitert Supercomputer „Otus“

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Bundestag beschließt Recht auf Reparatur

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

LMP003 Chemnitzer Linux-Tage 2026