Neuer Benchmark testet KI-Agenten als Geschäftsführer

- 03. Juli 2026

Der neue CEO-Bench, entwickelt von Forschern der Princeton University, testet erstmals, wie sich KI-Agenten als CEO eines fiktiven Unternehmens bewähren. Der Test gilt als bestanden, wenn nach 500 Tagen mehr als der Startbetrag von einer Million Dollar in der Kasse ist. Das schafften nur 3 von 13 Modellen und auch die meist nicht in jedem Durchlauf.

Der neue Benchmark will anstelle einzelner Fähigkeiten bewerten, wie die Modelle in einer unsicheren Umgebung über längere Zeiträume hinweg navigieren können, wie sie sich in einer verrauschten Umgebung Informationen beschaffen, sich einer veränderten Lage anpassen und mehrere Teilaspekte einem gemeinsamen Ziel unterordnen können. Zu diesem Zweck sollten sie ein simuliertes Start-up über 500 Tage hinweg leiten. Maßstab war das Vermögen zum Ablauf der Frist. Der KI-Agent agierte über eine programmierbare Schnittstelle mit Zugriff auf Geschäftsdatenbanken, Unternehmensverwaltungstools und soziale Medien. Die Ergebnisse wurden von einem Markt bestimmt, der nur teilweise beobachtbar und verrauscht war, sich stetig wandelte sowie zeitverzögerte und gekoppelte Auswirkungen aufwies. Konkret konnte der Agent 34 Instrumente einsetzen, die die Bereiche Preisgestaltung, Wachstum, Produkt, Betriebsabläufe, Informationsbeschaffung, Öffentlichkeitsarbeit und Unternehmensvertrieb abdeckten. Jedes Tool akzeptierte fein strukturierte Argumente, sodass die Agenten einen großen Raum möglicher Strategien zusammenstellen konnten.

Die Liquidität unterlag Schwankungen aufgrund von Abonnement- und Werbeeinnahmen, Kapazitäts- und Rechenkosten, Support, Entwicklung, Akquisitionen, Marktforschung und Forschungsprojekten. Die Kunden hatten verborgene Preis-Qualitäts-Präferenzen, und die Agenten mussten Zufriedenheit und Nachfrage aus indirekten Hinweisen ableiten. Insgesamt verfügte die Simulation über 26 Kundengruppen mit jeweils eigenen Preis-Qualitäts-Vorstellungen. Die Kundenzufriedenheit wirkte sich auf die Reputation des Unternehmens aus und diese bestimmte wiederum die Neukundengewinnungsrate.

Im Ergebnis landeten die meisten Modelle im Minus. Nur Claude Fable 5, Claude Opus 4.8 und GPT-5.5 hatten in ihren besten Läufen am Ende mehr Geld in der Kasse als das Startkapital. Qwen 3.7 Max, Claude Opus 4.7, Kimi K2.6, GLM 5.2 und Claude Sonnet 4.6 schlossen zwar mit einem positiven Betrag ab, der aber geringer war als das Anfangskapital. Claude Haiku 4.5, GLM 5.1, Gemini 3 Flash, DeepSeek V4 Pro und Grok 4.0 endeten in der Insolvenz. Nur ein Modell, Claude Fable 5, landete in drei Durchläufen im Plus, allerdings musste dabei zuweilen Opus 4.8 einspringen, weil Fable den Dienst aufgrund seiner Sicherheitseinstellungen verweigerte. Am schlechtesten schnitt Grok 4.0 ab, das regelmäßig schon nach wenigen Wochen pleite war. Die Ergebnisse fasst diese Webseite zusammen.

SCHLAGWORTE
Benchmark
CEO
KI

Linux-Kernel-Entwickler diskutieren KI-Attribution

Aktuell schreibt die Dokumentation vor, dass KI-Coding-Agenten, die zum Linux Kernel beitragen, eine Attribution benötigen. Nun diskutieren Kernel-Entwickler den Sinn solcher Attribution.

Google und Amazon kämpfen um ihre Klimaziele - wegen KI

Google und Amazon haben Nachhaltigkeitsberichte vorgelegt. Die Zahlen belegen, dass es beiden zunehmend schwerfällt, ihre Null-Emission-Ziele zu erreichen.

Azure Linux 4.0 als Public Preview

Microsoft hat auf seiner Hausmesse Microsoft Build die Public Preview von Azure Linux 4.0 angekündigt.

Collabora Office 26.04 bringt Desktop-Version näher an die Betriebssysteme

Collabora hat mit Version 26.04 eine neue Ausgabe seiner Bürosoftware für Windows, Mac und Linux veröffentlicht. Nach Angaben des Unternehmens baut die Version auf der im vergangenen Jahr eingeführten Desktop-Variante auf und erweitert diese um neue Funktionen sowie eine engere Integration in...

Google stellt spezialisiertes KI-Modell für tabellarische Daten vor

Von der Vorhersage der Kundenwanderung bis hin zur Aufdeckung von Finanzbetrug – tabellarische Regressions- und Klassifizierungsaufgaben sind im Unternehmenskontext allgegenwärtig. Nun hat Google mit TabFM ein auf tabellarische Daten spezialisiertes KI-Modell vorgestellt.

Gartner: Kosten für KI-Programmierung bald höher als Entwicklergehälter

Das US-Marktforschungsunternehmen Gartner prognostiziert, dass die Kosten für KI-gestützte Programmierung bis 2028 das Durchschnittsgehalt von Entwicklern übersteigen. Grund ist der rasant steigende Token-Verbrauch.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung