Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze. Selbst Top-Modelle zeigen bei dieser Prüfung deutliche Schwächen.
Das Model Context Protocol (MCP) hat sich zu einem Standard für die Verbindung großer Sprachmodelle (LLMs) mit externen Datenquellen und Tools entwickelt und findet zunehmend Verbreitung bei den wichtigsten KI-Anbietern und Entwicklungsplattformen. Allerdings sind die Forscher mit existierenden MCP-Benchmarks unzufrieden. “Bestehende Benchmarks konzentrieren sich vorwiegend auf isolierte Aspekte der LLM-Leistung, wie z.um Beispiel das Befolgen von Anweisungen, mathematisches Denken oder Funktionsaufrufe, ohne eine umfassende Bewertung der Interaktion von Modellen mit realen MCP-Servern in verschiedenen Szenarien zu liefern”, so Salesforce in einem Papier. Die bestehenden Benchmarks würden zu stark vereinfachen und könnten reale Anwendungsherausforderungen wie langfristiges Denken und große, unbekannte Tool-Räume nicht erfassen.
Im Ergebnis entwickelten die Wissenschaftler einen neuen MCP-Benchmark, der die Modellleistung bei der Werkzeugnutzung erfasst, Multi-Turn-Werkzeugaufrufe enthält und mit großen Kontextfenstern und großen Werkzeug-Sets umgeht. Er basiert auf bestehenden MCP-Servern mit Zugriff auf aktuelle Datenquellen und Umgebungen. Junnan Li, Direktor für KI-Forschung bei Salesforce, sieht als die größten Herausforderungen große Kontextfenster, bei denen die Modelle den Überblick über Informationen verlieren können oder Schwierigkeiten haben, konsistent zu denken und unbekannte Tools. Modelle sind oft nicht in der Lage, unbekannte Tools oder Systeme nahtlos zu nutzen, so wie Menschen sich spontan anpassen können.
MCP-Universe bewertet, wie gut die einzelnen Modelle eine Reihe von Aufgaben erfüllen, die denen von Unternehmen nachempfunden sind. Dabei benutzt der Benchmark drei Arten von Evaluatoren: Format-Evaluatoren, um zu sehen, ob die Agenten und Modelle den Formatanforderungen entsprechen, statische Evaluatoren, um die Korrektheit im Laufe der Zeit zu bewerten, und dynamische Evaluatoren, die prüfen, wie gut das Modell mit schwankenden Angaben umgeht, wie das beispielsweise Flugpreise sind.
Getestet wurde eine große Gruppe von Spitzenmodellen, jedes mit mindestens 120 Milliarden Parametern, darunter GPT-5 von OpenAI, Grok 4 von xAI, Claude 4 von Anthropic, Gemini 2.5 Pro und Flash von Google oder DeepSeek-V3-0304 von DeepSeek. Am besten schnitten die Modelle generell beim Format-Evaluator ab. Hier erreichte Claude 4.0 Sonnet den Spitzenwert mit einer Erfolgsrate von 98,29 Prozent. Beim statischen Evaluator teilen sich Claude 4.0 Sonnet und GPT-5 den ersten Platz mit 61,92 Prozent und beim dynamischen Evaluator siegt CPT-5 mit 65,96 Prozent. Den letzten Platz in allen Disziplinen belegt Gemini-2.5-Flash mit nur 51.28 beim Format-Evaluator, 45,21 Prozent beim statischen und 30,88 beim dynamischen Evaluator.
In seinen Tests stellte Salesforce weiter fest, dass GPT-5 die beste Erfolgsquote hatte, insbesondere bei Aufgaben der Finanzanalyse. Es folgt Grok 4, das alle Modellein der Browser-Automatisierung übertrifft, und Claude-4.0 Sonnet rundet die Top drei ab. Unter den Open-Source-Modellen schnitt GLM-4.5 am besten ab.
MCP-Universe hat jedoch auch gezeigt, dass alle Modelle Schwierigkeiten haben, mit langen Kontexten umzugehen, insbesondere bei der Standortnavigation, der Browser-Automatisierung und der Finanzanalyse. In dem Moment, in dem die LLMs auf unbekannte Tools treffen, sinkt ihre Leistung ebenfalls. Insgesamt zeigten die LLMs Schwierigkeiten bei der Bewältigung von mehr als der Hälfte der Aufgaben, die in Unternehmen üblicherweise anfallen.





