Studie: Entwicklung von KI-Agenten geht am realen Bedarf vorbei

- 11. März 2026

Eine Studie von Forschern der Carnegie Mellon University und der Stanford University hat untersucht, inwiefern die Testaufgaben in Benchmarks für KI-Agenten den Aufgaben entsprechen, die sich aus realen Arbeitssituationen ergeben.

Die Forscher analysierten 43 Benchmarks mit zusammen 72 342 Aufgaben und maßen deren Übereinstimmung mit Aufgaben, die sich realen Beschäftigten in allen 1016 Berufen des US-Arbeitsmarkts stellen. Sie fanden dabei ein grobes Missverhältnis zwischen der Agentenentwicklung, die sehr auf Programmieraufgaben konzentriert ist, und den Anforderungen realer Berufe. Außerdem bestimmten sie das Maß an Autonomie, das die Agenten an den Tag legten. Darauf aufbauend erarbeiteten sie Vorschläge für die Entwicklung besserer Benchmarks, die besser die sozial wichtigen und technisch herausfordernden, realen Arbeitsaufgaben abdecken.

Zu den Erkenntnissen der Studie gehört, dass die Agentenentwicklung stark auf die Domänen Softwareentwicklung und Mathematik konzentriert ist, die aber nur 7,6 Prozent der realen Arbeitsaufgaben entsprechen. Dagegen waren andere, hoch digitalisierte und ökonomisch signifikante Bereiche wie Management oder Rechtswesen in den Benchmarks stark unterrepräsentiert. Auch auf der Ebene der Fähigkeiten ergab sich diese Diskrepanz: Die Agentenentwicklung konzentrierte sich auf wenige Fähigkeiten, die nur 5 Prozent der in allen Berufen geforderten Fähigkeiten ausmachte, vernachlässigte aber weit verbreitete Fähigkeiten wie zwischenmenschliche Interaktion, die in den meisten Berufen eine wichtige Rolle spielen.

Aufbauend auf diesen Erkenntnissen schlagen die Forscher drei messbare Benchmark-Designprinzipien vor – Abdeckung von Bereichen und Fähigkeiten, Realitätsnähe und Komplexität der Aufgaben sowie detaillierte Bewertung –, um die Bandbreite und Struktur der realen Arbeitswelt besser zu erfassen.

SCHLAGWORTE
Agentic AI
Benchmark
KI

Homebrew 6.0.0 führt Tap Trust ein

Mit Homebrew 6.0.0 hält ein neuer Sicherheitsmechanismus namens „Tap Trust“ Einzug in den universellen Paketmanager für Linux, MacOS und WSL.

Google investiert in Forschung zur Sicherheit von KI-Agenten

Google investiert zusammen mit den Partnern Stiftung Schmidt Sciences, der britischen Regierungsagentur ARIA, der Cooperative AI Foundation und unterstützt von Google.org 10 Millionen Dollar in Forschungsprojekte, die weltweit die Erkundung und Minderung der Risiken zum Ziel haben, die...

Snapshot 07/2026: Videos aussortieren mit Go

Eine GUI-Applikation in Go hilft Mike Schilli dabei, Videos von seinem Handy über animierte Thumbnails auszuwählen und Ballast abzuwerfen.

Root-Attacke gegen Ivanti Endpoint Manager Mobile

Bei Ivanti Endpoint Manager Mobile (EPMM) handelt es sich um eine zentrale Verwaltungssoftware für Unternehmen. Mit ihr können IT-Abteilungen alle firmeninternen Mobilgeräte wie Smartphones und Tablets von einem zentralen Punkt aus sichern, konfigurieren und überwachen. Genau in dieser Software...

500 Millionen Dollar für Forschung zu Gehirn-ähnlicher KI

Das neurowissenschaftlich ausgerichtete KI-Start-up Flourish hat in einer neuen Finanzierungsrunde 500 Millionen Dollar eingesammelt, die die Forschung an einer KI ermöglicht, die einmal wie das menschliche Gehirn funktionieren und mit 20 bis 50 Watt auskommen soll. Zu den Investoren gehört der...

Idee aus der Nukleartechnik revolutioniert Server-Kühlung

Das US-amerikanische Start-up Ferveret, gegründet von zwei MIT-Forschern, hat ein neuartiges Kühlsystem entwickelt, das ohne Wasser und mit viel weniger Strom im Vergleich zu modernsten Lösungen für die Kühlung zu einer um 15 Prozent höheren Energieeffizienz der Rechenleistung führt.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen