Selbst Top-LLMs schwächeln bei neuem Benchmark für KI-Agenten

- 25. August 2025

Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze. Selbst Top-Modelle zeigen bei dieser Prüfung deutliche Schwächen.

Das Model Context Protocol (MCP) hat sich zu einem Standard für die Verbindung großer Sprachmodelle (LLMs) mit externen Datenquellen und Tools entwickelt und findet zunehmend Verbreitung bei den wichtigsten KI-Anbietern und Entwicklungsplattformen. Allerdings sind die Forscher mit existierenden MCP-Benchmarks unzufrieden. “Bestehende Benchmarks konzentrieren sich vorwiegend auf isolierte Aspekte der LLM-Leistung, wie z.um Beispiel das Befolgen von Anweisungen, mathematisches Denken oder Funktionsaufrufe, ohne eine umfassende Bewertung der Interaktion von Modellen mit realen MCP-Servern in verschiedenen Szenarien zu liefern”, so Salesforce in einem Papier. Die bestehenden Benchmarks würden zu stark vereinfachen und könnten reale Anwendungsherausforderungen wie langfristiges Denken und große, unbekannte Tool-Räume nicht erfassen.

Im Ergebnis entwickelten die Wissenschaftler einen neuen MCP-Benchmark, der die Modellleistung bei der Werkzeugnutzung erfasst, Multi-Turn-Werkzeugaufrufe enthält und mit großen Kontextfenstern und großen Werkzeug-Sets umgeht. Er basiert auf bestehenden MCP-Servern mit Zugriff auf aktuelle Datenquellen und Umgebungen. Junnan Li, Direktor für KI-Forschung bei Salesforce, sieht als die größten Herausforderungen große Kontextfenster, bei denen die Modelle den Überblick über Informationen verlieren können oder Schwierigkeiten haben, konsistent zu denken und unbekannte Tools. Modelle sind oft nicht in der Lage, unbekannte Tools oder Systeme nahtlos zu nutzen, so wie Menschen sich spontan anpassen können.

MCP-Universe bewertet, wie gut die einzelnen Modelle eine Reihe von Aufgaben erfüllen, die denen von Unternehmen nachempfunden sind. Dabei benutzt der Benchmark drei Arten von Evaluatoren: Format-Evaluatoren, um zu sehen, ob die Agenten und Modelle den Formatanforderungen entsprechen, statische Evaluatoren, um die Korrektheit im Laufe der Zeit zu bewerten, und dynamische Evaluatoren, die prüfen, wie gut das Modell mit schwankenden Angaben umgeht, wie das beispielsweise Flugpreise sind.

Getestet wurde eine große Gruppe von Spitzenmodellen, jedes mit mindestens 120 Milliarden Parametern, darunter GPT-5 von OpenAI, Grok 4 von xAI, Claude 4 von Anthropic, Gemini 2.5 Pro und Flash von Google oder DeepSeek-V3-0304 von DeepSeek. Am besten schnitten die Modelle generell beim Format-Evaluator ab. Hier erreichte Claude 4.0 Sonnet den Spitzenwert mit einer Erfolgsrate von 98,29 Prozent. Beim statischen Evaluator teilen sich Claude 4.0 Sonnet und GPT-5 den ersten Platz mit 61,92 Prozent und beim dynamischen Evaluator siegt CPT-5 mit 65,96 Prozent. Den letzten Platz in allen Disziplinen belegt Gemini-2.5-Flash mit nur 51.28 beim Format-Evaluator, 45,21 Prozent beim statischen und 30,88 beim dynamischen Evaluator.

In seinen Tests stellte Salesforce weiter fest, dass GPT-5 die beste Erfolgsquote hatte, insbesondere bei Aufgaben der Finanzanalyse. Es folgt Grok 4, das alle Modellein der Browser-Automatisierung übertrifft, und Claude-4.0 Sonnet rundet die Top drei ab. Unter den Open-Source-Modellen schnitt GLM-4.5 am besten ab.

MCP-Universe hat jedoch auch gezeigt, dass alle Modelle Schwierigkeiten haben, mit langen Kontexten umzugehen, insbesondere bei der Standortnavigation, der Browser-Automatisierung und der Finanzanalyse. In dem Moment, in dem die LLMs auf unbekannte Tools treffen, sinkt ihre Leistung ebenfalls. Insgesamt zeigten die LLMs Schwierigkeiten bei der Bewältigung von mehr als der Hälfte der Aufgaben, die in Unternehmen üblicherweise anfallen.

SCHLAGWORTE
Agenten
Benchmark
KI

Mageia 10 mit Linux-Kernel 6.18 und aktueller Desktop-Software

Die Mageia-Gemeinschaft hat Version 10 ihrer Linux-Distribution veröffentlicht. Rund drei Jahre nach dem Erscheinen der Version 9 des Mandriva-Nachfolgers.

Google Meet protokolliert in Meetings mit

Google Nutzer mit KI Pro- und Ultra-Abos brauchen in Meetings ab sofort keinen Schriftführer mehr: Google Meet transkribiert die Diskussion selbstständig und fasst die wichtigsten Maßnahmen per E-Mail und in einem Google-Doc-File zusammen, dass den Teilnehmern anschließend automatisch zugestellt...

Universität Paderborn erweitert Supercomputer „Otus“

Die Universität Paderborn baut ihren Hochleistungsrechner „Otus“ aus. Wie die Hochschule mitteilt, stehen dafür mehr als zwölf Millionen Euro aus Landes- und Bundesmitteln zur Verfügung.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung