Spitzen-Sprachmodelle scheitern an Aufgaben, die Kleinkinder lösen

- 20. Januar 2026

Während multimodale LLMs heute Textaufgaben auf Doktorandenniveau lösen können, versagen sie bei visuellen Aufgaben, die Kleinkinder im Alter von drei bis fünf Jahren beherrschen.

Die Aufgaben bestanden beispielsweise darin eine Linie in einem Gewirr sich kreuzender Linien zu verfolgen, die 2D-Frontalansicht eines Gebildes aus Bauklötzen zu erkennen, das als 3D-Abbildung vorgegeben wurde, ausgefüllte Kästchen in einem Raster zu zählen oder Paare gleicher Abbildungen in einer Menge ähnlicher Bildchen zu finden. Während Erwachsene bei diesen Aufgaben über 94 Prozent richtig lösen, kam das beste getestete LLM – Gemini-3-Pro-Preview – nur auf magere 49,7 Prozent. Alle außer diesem Modell, darunter Grok 4, GPT5.2 oder Claude4.5-Opus, blieben unter dem Niveau von Dreijährigen, das beste Modell wurde von Sechsjährigen deutlich geschlagen.

Das ist das Ergebnis einer Studie mit dem Titel BabyVision von Forschern verschiedener chinesischer und amerikanischer Organisationen und Universitäten. Sie formulierten 388 Aufgaben aus 5 Kategorien – visuelle Verfolgung, Erkennen subtiler Unterschiede, Verständnis für 3D-Strukturen und visuelle Mustererkennung – und legten sie den Spitzen-LMMS und Kindern im Alter von 3 bis 12 Jahren vor. Während Menschen etwa beim Zählen von 3D-Blöcken im Durchschnitt 100 Prozent erreichten, kam beispielsweise GPT5.2 auf weniger als 30 Prozent und auch das beste Modell auf weniger als 50 Prozent.

Das Problem dabei ist, dass das Sprachmodell die visuelle zuerst in eine Textaufgabe umwandeln muss, bevor es versuchen kann, daraus Schlussfolgerungen zu ziehen. Die Übersetzung der visuellen Aufgabe in Text ist aber schwierig und gelingt nur unzureichend, weshalb die Modelle versagen.

SCHLAGWORTE
KI
LLM
Visualisierung

IDC: Servermarkt wächst stark

Laut dem „Worldwide Quarterly Server Tracker“ des US-Marktforschers IDC erreichte der weltweite Servermarkt im ersten Quartal 2026 einen Herstellerumsatz von 122,6 Milliarden US-Dollar.

IT-Planungsrat legt Grundlagen für Deutschland-Stack fest

Der IT-Planungsrat berichtet über zentrale Beschlüsse seiner 50. Sitzung zur Weiterentwicklung des Deutschland-Stacks. Quelle: FITKO

Der IT-Planungsrat berichtet über zentrale Beschlüsse seiner 50. Sitzung zur Weiterentwicklung des Deutschland-Stacks. Bund und Länder haben sich dabei auf wesentliche Elemente des geplanten digitalen Ökosystems für die öffentliche Verwaltung verständigt.