Forscher widerlegt Apple-Studie zu Reasoning KI

- 16. Juni 2025

Kürzlich erregte die Studie von Apple “The Illusion of Thinking” Aufsehen, die zeigen wollte, dass auch moderne Reasoning-Modelle einfache Logik-Puzzle wie etwa die Türme von Hanoi generell nicht lösen können, wenn sie eine bestimmte Komplexitätsgrenze überschreiten. In einer Erwiderung auf diese Studie, zeigt nun Alex Lawsen, ein Forscher bei Open Philanthropy, dass das Versagen ganz andere Gründe hat.

Wie Lawsen erklärt, kommen die Modelle bei den Türmen von Hanoi, bei denen die Anzahl der nötigen Züge mit der Anzahl der Scheiben exponentiell wächst, an das Limit der verfügbaren Ausgabetoken. Sie lösen die Ausgabe mit mehr als 7 bis 8 Scheiben also nicht deshalb nicht, weil sie keinen Lösungsweg kennen, sondern weil sie die Lösungszüge aufgrund interner Beschränkungen nicht mehr aufzählen können. Dann wird nämlich das Ausgabetoken-Limit von 64 000 für Claude-3.7-Sonnet beziehungsweise 100 000 für DeepSeek-R1 und o3-mini erreicht.

Lawsen konnte zeigen, dass man sehr wohl eine korrekte Lösung erhält, wenn man die Aufgabe so modifiziert, dass man das Modell bittet, ein Lua-Skript zu entwerfen, das eine algorithmische Lösung enthalten soll. In einem anderen Fall war die Aufgabe, an der das Modell gescheitert ist, mathematisch unlösbar.

Lawsen schlägt vor, nach anderen Komplexitätsmaßstäben zu suchen als der Länge der Lösung und Verfahren zu entwickeln, die zwischen einem “Denkversagen” und dem Unvermögen, die Lösungsschritte aufzuzählen, unterscheiden können.

SCHLAGWORTE
KI
Reasoning Modelle

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung