Spitzen-Sprachmodelle scheitern an Aufgaben, die Kleinkinder lösen

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Während multimodale LLMs heute Textaufgaben auf Doktorandenniveau lösen können, versagen sie bei visuellen Aufgaben, die Kleinkinder im Alter von drei bis fünf Jahren beherrschen.

Die Aufgaben bestanden beispielsweise darin eine Linie in einem Gewirr sich kreuzender Linien zu verfolgen, die 2D-Frontalansicht eines Gebildes aus Bauklötzen zu erkennen, das als 3D-Abbildung vorgegeben wurde, ausgefüllte Kästchen in einem Raster zu zählen oder Paare gleicher Abbildungen in einer Menge ähnlicher Bildchen zu finden. Während Erwachsene bei diesen Aufgaben über 94 Prozent richtig lösen, kam das beste getestete LLM – Gemini-3-Pro-Preview – nur auf magere 49,7 Prozent. Alle außer diesem Modell, darunter Grok 4, GPT5.2 oder Claude4.5-Opus, blieben unter dem Niveau von Dreijährigen, das beste Modell wurde von Sechsjährigen deutlich geschlagen.

Das ist das Ergebnis einer Studie mit dem Titel BabyVision von Forschern verschiedener chinesischer und amerikanischer Organisationen und Universitäten. Sie formulierten 388 Aufgaben aus 5 Kategorien – visuelle Verfolgung, Erkennen subtiler Unterschiede, Verständnis für 3D-Strukturen und visuelle Mustererkennung – und legten sie den Spitzen-LMMS und Kindern im Alter von 3 bis 12 Jahren vor. Während Menschen etwa beim Zählen von 3D-Blöcken im Durchschnitt 100 Prozent erreichten, kam beispielsweise GPT5.2 auf weniger als 30 Prozent und auch das beste Modell auf weniger als 50 Prozent.

Das Problem dabei ist, dass das Sprachmodell die visuelle zuerst in eine Textaufgabe umwandeln muss, bevor es versuchen kann, daraus Schlussfolgerungen zu ziehen. Die Übersetzung der visuellen Aufgabe in Text ist aber schwierig und gelingt nur unzureichend, weshalb die Modelle versagen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben