Fast alle KI-Benchmarks sind mangelhaft

- 10. November 2025

Ein Team aus 29 Wissenschaftlern hat 445 KI-Benchmarks einer systematischen Untersuchung unterzogen und herausgefunden: Fast alle weisen Mängel auf.

Die untersuchten Benchmarks deckten eine breite Palette an Phänomenen ab, darunter Reasoning, Alignment oder Coding. Dabei definierten die meisten (78,2 Prozent), aber nicht alle Benchmarks, was das Phänomen, das gemessen werden soll, ausmacht. Von den Definitionen waren aber fast die Hälfte (47,8 Prozent) umstritten und befassten sich mit Phänomenen, für die es viele mögliche Definitionen oder überhaupt keine klare Definition gibt. Beispielsweise zielten Alignment-Benchmarks häufig auf Phänomene mit umstrittenen Definitionen (etwa “Harmlosigkeit”) ab.

Die Definitionen der Phänomene unterschieden sich auch darin, ob sie das untersuchte Phänomen als zusammengesetzte Fähigkeit (61,2 Prozent) oder als einheitliches Ganzes (36,5 Prozent) definierten. So können einige Phänomene allein getestet werden (etwa die Verfolgung eines Wegs auf einer 2D-Karte), während andere Phänomene übergeordnete Fähigkeiten sind, die viele Teilfähigkeiten integrieren (zum Beispiel die “agentenbezogenen Fähigkeiten” eines Modells, die Teilfähigkeiten wie Absichtserkennung, Ausrichtung und strukturierte Ausgabegenerierung erfordern).

Die zur Messung der Zielphänomene ausgewählten Aufgaben waren ebenfalls sehr unterschiedlich und reichten von der Beantwortung medizinischer Prüfungsfragen über die Erkennung von Fehlern in Computercode bis hin zum Abgleich widersprüchlicher Informationen auf Wikipedia. Weniger als 10 Prozent der Benchmarks verwendeten vollständige reale Aufgaben, wie etwa das Schreiben einer korrekten SQL-Abfrage, aufgrund einer Anfrage in natürlicher Sprache. Insgesamt verwenden 40,7 Prozent aller untersuchten Benchmarks konstruierte Aufgaben.

Die am häufigsten verwendete Metrik zur Bewertung der Benchmarking-Aufgaben war die exakte Übereinstimmung. Nach der Bewertung der Antworten verwendeten
nur 16 Prozent Unsicherheitsschätzungen oder statistische Tests, um die Ergebnisse zu vergleichen.

Aus den Ergebnissen der Untersuchung leiteten die Wissenschaftler eine Reihe konkreter Forderungen ab, die Benchmarks künftig einhalten sollten. Das beginnt mit einer eindeutigen und präzisen Definition des zu messenden Phänomens, geht weiter über den Ausschluss von Aufgaben, die nicht mit dem Testziel in Verbindung stehen, aber das Ergebnis beeinflussen können. Geht weiter über die Zusammenstellung eines Sets repräsentativer Aufgaben unter Berücksichtigung von Einschränkungen bei der Wiederverwendung von Datensätzen. Dazu kommen Tests, die die Kontamination von Daten erkennen können. Und schließlich sollten anerkannte statistische Methoden beim Vergleich der Ergebnisse verwendet werden.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung