Neuer Benchmark offenbart: KI-Agenten sind schlechte Verhandler

- 12. Mai 2026

Agentische KI operiert häufig in sozialen Kontexten. Ein von Microsoft-Ingenieuren vorgestellter neuer Benchmark misst die soziale Kompetenz von KI-Agenten und offenbart: Oft lassen sie sich übervorteilen, selten erreichen sie in Verhandlungen das Beste für ihre Anwender.

Heutige Spitzenmodelle erfüllen zwar in der Regel ihre Aufgabe, akzeptieren jedoch häufig suboptimale Termine oder ungünstige Konditionen, wo sie sich im Interesse ihrer Nutzer besser hätten durchsetzen können. Gutes Prompting hilft, reicht aber nicht aus. Selbst mit expliziter Hilfe blieb die Leistung weit unter dem, was ein vertrauenswürdiger menschlicher Verhandler hätte erreichen sollen.

Heutigen Spitzenmodellen fehlt die soziale Kompetenz. In einem simulierten Markt akzeptierten die Agenten in 93 Prozent der Fälle den ersten Vorschlag, ohne weitere Alternativen zu prüfen oder Gegenvorschläge zu unterbreiten. Bei einem Red-Team-Test eines sozialen Netzwerks von Agenten verbreitete sich eine einzige bösartige Nachricht im System und veranlasste die Agenten dazu, private Daten preiszugeben, bevor sie die Nachricht weiterleiteten.

Diese Art von Beziehung, die hier eine Rolle spielt, hat außerhalb der KI eine lange Tradition. In der Wirtschaftswissenschaft und im Rechtswesen wird sie als Auftraggeber-Auftragnehmer-Beziehung bezeichnet: Ein Auftragnehmer verhandelt im Namen eines Auftraggebers mit anderen, deren Interessen von seinen abweichen. Rechtsanwälte, Immobilienmakler und Finanzberater arbeiten alle nach diesem Prinzip, und die Pflichten, denen sie unterliegen – Sorgfalt, Loyalität, Vertraulichkeit – sind in jahrhundertealten Berufsnormen verankert. KI-Agenten, die im Namen eines Nutzers handeln, sollten letztlich an ähnlichen Standards gemessen werden.

Um den Fortschritt bei der Sozialkompetenz messen zu können, entwickelten die Forscher den SocialReasoning-Bench mit dem getestet wird, ob und wie gut Agenten im Namen eines Benutzers gegenüber einer Gegenpartei mit eigenständigen Zielen, vertraulichen Informationen und möglicherweise feindseligen Absichten argumentieren und verhandeln können.

Dazu operiert der Benchmark mit zwei Szenarien: Zum einen Terminvereinbarungen für ein Meeting, zum anderen eine Marktsituation, bei der ein Käuferagent, der einen Nutzer vertritt, mit einem Verkäuferagenten über den Kauf eines einzelnen Produkts verhandelt. Dabei beurteilt der Benchmark nicht allein, ob die Aufgabe bewältigt wurde, sondern auch wie gut der Abschluss für den Auftraggeber des Agenten ist. Das heißt etwa, ob der Agent mit einer für seinen Auftraggeber vorteilhaften Position eröffnet und Zugeständnisse erst dann macht, wenn bessere Optionen ausgeschöpft sind.

In diesem Benchmark schnitten alle teilnehmenden Modelle (GPT-4.1, GPT-5.4, Gemini 3 Flash und Claude Sonnet 4.6) bei der reinen Bewältigung der Aufgabe bei oder nahe bei 100 Prozent ab, erreichten bei der Qualität des Verhandlungsergebnisses aber höchstens die Hälfte, in einigen Fällen auch weniger als ein Drittel der Prozentpunkte. Zudem verschlechterten sich die Ergebnisse bei Verhandlungen mit feindseligen Agenten unter Stress.

Diese Ergebnisse gewinnen noch an Bedeutung, wenn man bedenkt, dass die Agenten oft in netzartigen Strukturen zusammenwirken. Isoliert betrachtet verursacht ein Agent, der einen ungünstigen Besprechungstermin oder ein schlechtes Geschäft akzeptiert, nur begrenzten Schaden. In einem Netzwerk können genau diese Verhaltensweisen jedoch kaskadenartig wirken und zu einer systematisch schlechteren Koordination oder einem weitreichenden Wertverlust bei zahlreichen Agenten führen.

Europäisches Konsortium entwickelt Spitzen-LLM als Open Source

Die Europäische Kommission hat das Konsortium EUROPA unter Führung der italienischen KI-Firma Domyn zum Sieger des Wettbewerbs "Frontier AI Grand Challenge" gekürt. Das Projekt will ein Sprachmodell entwickeln, dass alle 24 offiziellen Amtssprachen der EU spricht.

Ransomware-Angriffe nehmen weltweit deutlich zu

Die Zahl erfolgreicher Ransomware-Angriffe ist im Jahr 2025 deutlich gestiegen. Zu diesem Ergebnis kommt der vom Cybersicherheitsunternehmen aDvens veröffentlichte „Threat Status Report 2025/2026“.

GPT-5.5 Cyber soll Claude Mythos 5 hinter sich lassen

Die jetzt veröffentlichte Vollversion von OpenAIs neuestem Sicherheitsmodell GPT-5.5 Cyber soll das entsprechende Modell Mythos 5 von Anthropic hinter sich lassen, das eben noch nur ausgewählten Partnern zugänglich gemacht wurde, weil es ansonsten zu gefährlich sei, und das die US-Regierung...

OpenAIs Initiative "Patch the Planet" will helfen, Schwachstellen in Open-Source-Software zu beseitigen

Im Rahmen einer Cybersicherheitskampagne "Daybreak" will OpenAI zusammen mit der New Yorker Cybersicherheitsfirma Trail of Bits Open-Source-Maintainern helfen, in ihrer Software Schwachstellen auszumachen und zu patchen.

ELLIS forscht in NRW an Open-Source-KI

Nordrhein-Westfalen wird Standort einer neuen Einheit innerhalb des European Laboratory for Learning and Intelligent Systems (ELLIS), einem der führenden europäischen Netzwerke für KI-Forschung. Die neu genehmigte ELLIS Unit NRW vernetzt führende KI-Forschende und leistungsstarke...

Mastodon 4.6 bringt neue Features

Als Highlight des Updates auf Mastodon 4.6 sehen die Entwickler die Funktion Collections, mit denen Nutzer kuratierte Profilsammlungen erstellen und teilen können.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung