Apple-Studie: Reasoning Modelle doch dümmer als geglaubt

- 10. Juni 2025

Im Vorfeld seiner Entwicklerkonferenz WWDC veröffentliche Apple eine Studie unter dem Titel “The Illusion of Thinking”, die prinzipielle Zweifel an der “Denkfähigkeit” moderner Reasoning Modelle begründet.

Die Forscher verglichen normale Sprachmodelle (LLMs) mit Reasoning-Modellen (LRMs). Zu letzteren gehören beispielsweise OpenAIs o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking oder Gemini Thinking. Untersucht wurden die Modelle dabei mit Puzzles wie den bekannten Türmen von Hanoi oder dem River-Crossing-Problem. Bei den Türmen von Hanoi lässt sich beispielsweise die Komplexität dadurch auf einfache Weise steigern, dass man die Anzahl der Scheiben erhöht. Herauskam, dass sich die Ergebnisse dieser Tests einer von drei Kategorien zuordnen ließen: Bei Problemen mit geringer Komplexität schlugen die LLMs überraschenderweise ihre Verwandten mit der vorgeblichen Fähigkeit zu schlussfolgern. Bei höherer Komplexität konnten die Reasoning-Modelle Vorteile ausspielen und schnitten besser ab als die einfachen LLMs. Bei hoher Komplexität versagten allerdings alle Modelle und brachen vollständig zusammen.

Ungeachtet von Stimmen, die annehmen, Reasoning-Modelle seien ein Schritt hin zu starker künstlicher Intelligenz, seien die Fähigkeiten zum Schlussfolgern und Problemlösen tatsächlich noch weitgehend unverstanden, so die Forscher. Es stellten sich kritische Fragen wie: Sind diese Modelle tatsächlich in der Lage, verallgemeinerbare Schlussfolgerungen zu ziehen, oder nutzen sie nur besondere Formen des Mustervergleichs? Wie skaliert ihre Leistung mit zunehmender Problemkomplexität? Wie schneiden sie im Vergleich mit ihren nicht-denkenden Standard-LLM-Pendants ab? Vor allem aber: Welche inhärenten Grenzen haben die gegenwärtigen Reasoning-Ansätze, und welche und welche Verbesserungen könnten notwendig sein, um zu robusteren Schlussfolgerungsfähigkeiten zu gelangen?

Nach Meinung der Forscher entwickeln diese Modelle trotz ihrer ausgefeilten Mechanismen zur Selbstreflexion, die sie sich durch Verstärkungslernen aneignen, keine verallgemeinerbaren Problemlösungsfähigkeiten für Planungsaufgaben. Die Leistung bricht ab einer bestimmten Komplexitätsschwelle auf Null zusammen. Auch die Fähigkeit zur Selbstkontrolle ist sehr beschränkt. So zeigte eine Untersuchung der Schrittfolge bei der Problemlösung etwa, dass die Modelle bei Problemen mit niedriger Komplexität oft schnell auf eine korrekte Lösung stießen, dann aber Rechenzeit verschwendeten, indem sie weiter unbrauchbare Ansätze verfolgten. Bei der Lösungssuche wurden kaum exakte Berechnungen oder explizite Algorithmen verwendet und der Prozess des Schlussfolgerns blieb oft inkonsistent. Besonders besorgniserregend war die Beobachtung, dass die Modelle entgegen der Intuition ihren Rechenaufwand wieder verringerten, sobald sich die Probleme einer kritischen Komplexität näherten. Das deutet auf eine inhärente Skalierungsgrenze bei LRMs hin.

Die Forscher schränken selber ein, dass sich ihre Untersuchungen nur auf eine kleine Gruppe von Problemlösungsaufgaben bezog, die sicher nicht repräsentativ für die Vielfalt des Schlussfolgerns in der realen Welt ist. Auch verwendeten sie die Modelle nur über deren API, hatten also keine Möglichkeit ihre interne Funktionsweise eingehend zu studieren. Alles in allem bleibt als Schlussfolgerung dennoch, was bereits der Titel der Studie sagt: Dass KI Modelle denken, ist eine Illusion.

SCHLAGWORTE
KI
LLM
LRM
Reasoning

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung