Der neue CEO-Bench, entwickelt von Forschern der Princeton University, testet erstmals, wie sich KI-Agenten als CEO eines fiktiven Unternehmens bewähren. Der Test gilt als bestanden, wenn nach 500 Tagen mehr als der Startbetrag von einer Million Dollar in der Kasse ist. Das schafften nur 3 von 13 Modellen und auch die meist nicht in jedem Durchlauf.
Der neue Benchmark will anstelle einzelner Fähigkeiten bewerten, wie die Modelle in einer unsicheren Umgebung über längere Zeiträume hinweg navigieren können, wie sie sich in einer verrauschten Umgebung Informationen beschaffen, sich einer veränderten Lage anpassen und mehrere Teilaspekte einem gemeinsamen Ziel unterordnen können. Zu diesem Zweck sollten sie ein simuliertes Start-up über 500 Tage hinweg leiten. Maßstab war das Vermögen zum Ablauf der Frist. Der KI-Agent agierte über eine programmierbare Schnittstelle mit Zugriff auf Geschäftsdatenbanken, Unternehmensverwaltungstools und soziale Medien. Die Ergebnisse wurden von einem Markt bestimmt, der nur teilweise beobachtbar und verrauscht war, sich stetig wandelte sowie zeitverzögerte und gekoppelte Auswirkungen aufwies. Konkret konnte der Agent 34 Instrumente einsetzen, die die Bereiche Preisgestaltung, Wachstum, Produkt, Betriebsabläufe, Informationsbeschaffung, Öffentlichkeitsarbeit und Unternehmensvertrieb abdeckten. Jedes Tool akzeptierte fein strukturierte Argumente, sodass die Agenten einen großen Raum möglicher Strategien zusammenstellen konnten.
Die Liquidität unterlag Schwankungen aufgrund von Abonnement- und Werbeeinnahmen, Kapazitäts- und Rechenkosten, Support, Entwicklung, Akquisitionen, Marktforschung und Forschungsprojekten. Die Kunden hatten verborgene Preis-Qualitäts-Präferenzen, und die Agenten mussten Zufriedenheit und Nachfrage aus indirekten Hinweisen ableiten. Insgesamt verfügte die Simulation über 26 Kundengruppen mit jeweils eigenen Preis-Qualitäts-Vorstellungen. Die Kundenzufriedenheit wirkte sich auf die Reputation des Unternehmens aus und diese bestimmte wiederum die Neukundengewinnungsrate.
Im Ergebnis landeten die meisten Modelle im Minus. Nur Claude Fable 5, Claude Opus 4.8 und GPT-5.5 hatten in ihren besten Läufen am Ende mehr Geld in der Kasse als das Startkapital. Qwen 3.7 Max, Claude Opus 4.7, Kimi K2.6, GLM 5.2 und Claude Sonnet 4.6 schlossen zwar mit einem positiven Betrag ab, der aber geringer war als das Anfangskapital. Claude Haiku 4.5, GLM 5.1, Gemini 3 Flash, DeepSeek V4 Pro und Grok 4.0 endeten in der Insolvenz. Nur ein Modell, Claude Fable 5, landete in drei Durchläufen im Plus, allerdings musste dabei zuweilen Opus 4.8 einspringen, weil Fable den Dienst aufgrund seiner Sicherheitseinstellungen verweigerte. Am schlechtesten schnitt Grok 4.0 ab, das regelmäßig schon nach wenigen Wochen pleite war. Die Ergebnisse fasst diese Webseite zusammen.





