Apple-Studie: Reasoning Modelle doch dümmer als geglaubt

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Im Vorfeld seiner Entwicklerkonferenz WWDC veröffentliche Apple eine Studie unter dem Titel “The Illusion of Thinking”, die prinzipielle Zweifel an der “Denkfähigkeit” moderner Reasoning Modelle begründet.

Die Forscher verglichen normale Sprachmodelle (LLMs) mit Reasoning-Modellen (LRMs). Zu letzteren gehören beispielsweise OpenAIs o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking oder Gemini Thinking. Untersucht wurden die Modelle dabei mit Puzzles wie den bekannten Türmen von Hanoi oder dem River-Crossing-Problem. Bei den Türmen von Hanoi lässt sich beispielsweise die Komplexität dadurch auf einfache Weise steigern, dass man die Anzahl der Scheiben erhöht. Herauskam, dass sich die Ergebnisse dieser Tests einer von drei Kategorien zuordnen ließen: Bei Problemen mit geringer Komplexität schlugen die LLMs überraschenderweise ihre Verwandten mit der vorgeblichen Fähigkeit zu schlussfolgern. Bei höherer Komplexität konnten die Reasoning-Modelle Vorteile ausspielen und schnitten besser ab als die einfachen LLMs. Bei hoher Komplexität versagten allerdings alle Modelle und brachen vollständig zusammen.

Ungeachtet von Stimmen, die annehmen, Reasoning-Modelle seien ein Schritt hin zu starker künstlicher Intelligenz, seien die Fähigkeiten zum Schlussfolgern und Problemlösen tatsächlich noch weitgehend unverstanden, so die Forscher. Es stellten sich kritische Fragen wie: Sind diese Modelle tatsächlich in der Lage, verallgemeinerbare Schlussfolgerungen zu ziehen, oder nutzen sie nur besondere Formen des Mustervergleichs? Wie skaliert ihre Leistung mit zunehmender Problemkomplexität? Wie schneiden sie im Vergleich mit ihren nicht-denkenden Standard-LLM-Pendants ab? Vor allem aber: Welche inhärenten Grenzen haben die gegenwärtigen Reasoning-Ansätze, und welche und welche Verbesserungen könnten notwendig sein, um zu robusteren Schlussfolgerungsfähigkeiten zu gelangen?

Nach Meinung der Forscher entwickeln diese Modelle trotz ihrer ausgefeilten Mechanismen zur Selbstreflexion, die sie sich durch Verstärkungslernen aneignen, keine verallgemeinerbaren Problemlösungsfähigkeiten für Planungsaufgaben. Die Leistung bricht ab einer bestimmten Komplexitätsschwelle auf Null zusammen. Auch die Fähigkeit zur Selbstkontrolle ist sehr beschränkt. So zeigte eine Untersuchung der Schrittfolge bei der Problemlösung etwa, dass die Modelle bei Problemen mit niedriger Komplexität oft schnell auf eine korrekte Lösung stießen, dann aber Rechenzeit verschwendeten, indem sie weiter unbrauchbare Ansätze verfolgten. Bei der Lösungssuche wurden kaum exakte Berechnungen oder explizite Algorithmen verwendet und der Prozess des Schlussfolgerns blieb oft inkonsistent. Besonders besorgniserregend war die Beobachtung, dass die Modelle entgegen der Intuition ihren Rechenaufwand wieder verringerten, sobald sich die Probleme einer kritischen Komplexität näherten. Das deutet auf eine inhärente Skalierungsgrenze bei LRMs hin.

Die Forscher schränken selber ein, dass sich ihre Untersuchungen nur auf eine kleine Gruppe von Problemlösungsaufgaben bezog, die sicher nicht repräsentativ für die Vielfalt des Schlussfolgerns in der realen Welt ist. Auch verwendeten sie die Modelle nur über deren API, hatten also keine Möglichkeit ihre interne Funktionsweise eingehend zu studieren. Alles in allem bleibt als Schlussfolgerung dennoch, was bereits der Titel der Studie sagt: Dass KI Modelle denken, ist eine Illusion.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben