Studie: Entwicklung von KI-Agenten geht am realen Bedarf vorbei

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Eine Studie von Forschern der Carnegie Mellon University und der Stanford University hat untersucht, inwiefern die Testaufgaben in Benchmarks für KI-Agenten den Aufgaben entsprechen, die sich aus realen Arbeitssituationen ergeben.

Die Forscher analysierten 43 Benchmarks mit zusammen 72 342 Aufgaben und maßen deren Übereinstimmung mit Aufgaben, die sich realen Beschäftigten in allen 1016 Berufen des US-Arbeitsmarkts stellen. Sie fanden dabei ein grobes Missverhältnis zwischen der Agentenentwicklung, die sehr auf Programmieraufgaben konzentriert ist, und den Anforderungen realer Berufe. Außerdem bestimmten sie das Maß an Autonomie, das die Agenten an den Tag legten. Darauf aufbauend erarbeiteten sie Vorschläge für die Entwicklung besserer Benchmarks, die besser die sozial wichtigen und technisch herausfordernden, realen Arbeitsaufgaben abdecken.

Zu den Erkenntnissen der Studie gehört, dass die Agentenentwicklung stark auf die Domänen Softwareentwicklung und Mathematik konzentriert ist, die aber nur 7,6 Prozent der realen Arbeitsaufgaben entsprechen. Dagegen waren andere, hoch digitalisierte und ökonomisch signifikante Bereiche wie Management oder Rechtswesen in den Benchmarks stark unterrepräsentiert. Auch auf der Ebene der Fähigkeiten ergab sich diese Diskrepanz: Die Agentenentwicklung konzentrierte sich auf wenige Fähigkeiten, die nur 5 Prozent der in allen Berufen geforderten Fähigkeiten ausmachte, vernachlässigte aber weit verbreitete Fähigkeiten wie zwischenmenschliche Interaktion, die in den meisten Berufen eine wichtige Rolle spielen.

Aufbauend auf diesen Erkenntnissen schlagen die Forscher drei messbare Benchmark-Designprinzipien vor – Abdeckung von Bereichen und Fähigkeiten, Realitätsnähe und Komplexität der Aufgaben sowie detaillierte Bewertung –, um die Bandbreite und Struktur der realen Arbeitswelt besser zu erfassen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben