Forscher widerlegt Apple-Studie zu Reasoning KI

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Kürzlich erregte die Studie von Apple “The Illusion of Thinking” Aufsehen, die zeigen wollte, dass auch moderne Reasoning-Modelle einfache Logik-Puzzle wie etwa die Türme von Hanoi generell nicht lösen können, wenn sie eine bestimmte Komplexitätsgrenze überschreiten. In einer Erwiderung auf diese Studie, zeigt nun Alex Lawsen, ein Forscher bei Open Philanthropy, dass das Versagen ganz andere Gründe hat.

Wie Lawsen erklärt, kommen die Modelle bei den Türmen von Hanoi, bei denen die Anzahl der nötigen Züge mit der Anzahl der Scheiben exponentiell wächst, an das Limit der verfügbaren Ausgabetoken. Sie lösen die Ausgabe mit mehr als 7 bis 8 Scheiben also nicht deshalb nicht, weil sie keinen Lösungsweg kennen, sondern weil sie die Lösungszüge aufgrund interner Beschränkungen nicht mehr aufzählen können. Dann wird nämlich das Ausgabetoken-Limit von 64 000 für Claude-3.7-Sonnet beziehungsweise 100 000 für DeepSeek-R1 und o3-mini erreicht.

Lawsen konnte zeigen, dass man sehr wohl eine korrekte Lösung erhält, wenn man die Aufgabe so modifiziert, dass man das Modell bittet, ein Lua-Skript zu entwerfen, das eine algorithmische Lösung enthalten soll. In einem anderen Fall war die Aufgabe, an der das Modell gescheitert ist, mathematisch unlösbar.

Lawsen schlägt vor, nach anderen Komplexitätsmaßstäben zu suchen als der Länge der Lösung und Verfahren zu entwickeln, die zwischen einem “Denkversagen” und dem Unvermögen, die Lösungsschritte aufzuzählen, unterscheiden können.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben