Agentische KI operiert häufig in sozialen Kontexten. Ein von Microsoft-Ingenieuren vorgestellter neuer Benchmark misst die soziale Kompetenz von KI-Agenten und offenbart: Oft lassen sie sich übervorteilen, selten erreichen sie in Verhandlungen das Beste für ihre Anwender.
Heutige Spitzenmodelle erfüllen zwar in der Regel ihre Aufgabe, akzeptieren jedoch häufig suboptimale Termine oder ungünstige Konditionen, wo sie sich im Interesse ihrer Nutzer besser hätten durchsetzen können. Gutes Prompting hilft, reicht aber nicht aus. Selbst mit expliziter Hilfe blieb die Leistung weit unter dem, was ein vertrauenswürdiger menschlicher Verhandler hätte erreichen sollen.
Heutigen Spitzenmodellen fehlt die soziale Kompetenz. In einem simulierten Markt akzeptierten die Agenten in 93 Prozent der Fälle den ersten Vorschlag, ohne weitere Alternativen zu prüfen oder Gegenvorschläge zu unterbreiten. Bei einem Red-Team-Test eines sozialen Netzwerks von Agenten verbreitete sich eine einzige bösartige Nachricht im System und veranlasste die Agenten dazu, private Daten preiszugeben, bevor sie die Nachricht weiterleiteten.
Diese Art von Beziehung, die hier eine Rolle spielt, hat außerhalb der KI eine lange Tradition. In der Wirtschaftswissenschaft und im Rechtswesen wird sie als Auftraggeber-Auftragnehmer-Beziehung bezeichnet: Ein Auftragnehmer verhandelt im Namen eines Auftraggebers mit anderen, deren Interessen von seinen abweichen. Rechtsanwälte, Immobilienmakler und Finanzberater arbeiten alle nach diesem Prinzip, und die Pflichten, denen sie unterliegen – Sorgfalt, Loyalität, Vertraulichkeit – sind in jahrhundertealten Berufsnormen verankert. KI-Agenten, die im Namen eines Nutzers handeln, sollten letztlich an ähnlichen Standards gemessen werden.
Um den Fortschritt bei der Sozialkompetenz messen zu können, entwickelten die Forscher den SocialReasoning-Bench mit dem getestet wird, ob und wie gut Agenten im Namen eines Benutzers gegenüber einer Gegenpartei mit eigenständigen Zielen, vertraulichen Informationen und möglicherweise feindseligen Absichten argumentieren und verhandeln können.
Dazu operiert der Benchmark mit zwei Szenarien: Zum einen Terminvereinbarungen für ein Meeting, zum anderen eine Marktsituation, bei der ein Käuferagent, der einen Nutzer vertritt, mit einem Verkäuferagenten über den Kauf eines einzelnen Produkts verhandelt. Dabei beurteilt der Benchmark nicht allein, ob die Aufgabe bewältigt wurde, sondern auch wie gut der Abschluss für den Auftraggeber des Agenten ist. Das heißt etwa, ob der Agent mit einer für seinen Auftraggeber vorteilhaften Position eröffnet und Zugeständnisse erst dann macht, wenn bessere Optionen ausgeschöpft sind.
In diesem Benchmark schnitten alle teilnehmenden Modelle (GPT-4.1, GPT-5.4, Gemini 3 Flash und Claude Sonnet 4.6) bei der reinen Bewältigung der Aufgabe bei oder nahe bei 100 Prozent ab, erreichten bei der Qualität des Verhandlungsergebnisses aber höchstens die Hälfte, in einigen Fällen auch weniger als ein Drittel der Prozentpunkte. Zudem verschlechterten sich die Ergebnisse bei Verhandlungen mit feindseligen Agenten unter Stress.
Diese Ergebnisse gewinnen noch an Bedeutung, wenn man bedenkt, dass die Agenten oft in netzartigen Strukturen zusammenwirken. Isoliert betrachtet verursacht ein Agent, der einen ungünstigen Besprechungstermin oder ein schlechtes Geschäft akzeptiert, nur begrenzten Schaden. In einem Netzwerk können genau diese Verhaltensweisen jedoch kaskadenartig wirken und zu einer systematisch schlechteren Koordination oder einem weitreichenden Wertverlust bei zahlreichen Agenten führen.



