Eine neue Studie von Forschern der Arizona State University zeigt: Sprachmodelle, die zu einem schrittweisen Nachdenken entlang einer Gedankenkette (Chain-of-Thoughts, CoT) aufgefordert werden, übertragen in Wirklichkeit nur Muster, die sie aus ihren Trainingsdaten kennen, auf die gestellte Aufgabe.
CoT ist damit gar kein Schlussfolgern, sondern eine fortgeschrittene Form von Pattern Matching, das stark an die Muster in den Trainingsdaten gebunden ist. Die Forscher erklären, die Erfolge von LLMs bei Aufgaben in Form einer Chain-of-Thoughts stammen nicht von einer dem Modell innewohnenden Fähigkeit zu schlussfolgern, sondern von der Übertragung von Lösungsmustern aus den Trainingsdaten auf ähnliche Fälle. Sobald sich aber die Trainingsdaten auch nur leicht von denen der Aufgabe unterscheiden, können die Modelle schnell reinen Nonsens produzieren, den sie aber mit Überzeugung vertreten und der schlimmstenfalls auf den ersten Blick plausibel klingt.
Die Forscher sprechen eine direkte Warnung an Praktiker aus, indem sie “das Risiko hervorheben, sich auf CoT als Plug-and-Play-Lösung für logische Aufgaben zu verlassen”, und davor warnen, CoT-ähnliche Ergebnisse mit menschlichem Denken gleichzusetzen. Sie geben drei wichtige Ratschläge für Entwickler, die Anwendungen mit LLMs erstellen:
Erstens: “Hüten Sie sich vor übermäßigem Vertrauen und falscher Zuversicht. CoT sollte nicht als verlässliches Modul für die Argumentation in Bereichen mit hohen Anforderungen wie Finanzen oder juristische Analysen angesehen werden.”
Zweitens: Vorrangige Durchführung von Out-of-Distribution (OOD)-Tests. Eine Standardvalidierung, bei der die Testdaten die Trainingsdaten widerspiegeln, reicht nicht aus, um echte Robustheit zu messen. Die Entwickler müssen strenge Tests durchführen, die systematisch nach Fehlern bei verschiedenen Aufgaben, Längen und Formaten suchen.
Drittens: Behandeln Sie eine Feinabstimmung als Flickwerk, nicht als Allheilmittel. Die überwachte Feinabstimmung (SFT) kann zwar die Leistung eines Modells bei einer bestimmten neuen Datenverteilung schnell ausbessern, schafft aber keine echte Verallgemeinerung. Es erweitert lediglich die “In-Distributions-Blase” des Modells ein wenig. Sich auf SFT zu verlassen, um jeden OOD-Fehler zu beheben, ist eine unhaltbare Strategie, die den zentralen Mangel des Modells an abstraktem Denken nicht behebt.





Wenn ich mir das Verhalten vieler Menschen betrachten ist “ziehen Schlüsse ohne nachzudenken” ja ein Anzeichen von menschlichem Verhalten ;-)