Forscher der Uni Stanford finden Fehler in KI-Benchmarks

- 10. Februar 2026

Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren. Forscher der Universität Stanford haben nun ein Framework entwickelt, das mit messtheoretischen Methoden falsche Fragen und Antworten in KI-Benchmarks mit einer Genauigkeit von 84 Prozent findet.

Benchmarks messen den KI-Fortschritt. Jedoch haben frühere Forschungen gezeigt, dass zum Beispiel der verbreitete Mathematik-Benchmark GSM8K eine Fehlerrate von 5 Prozent aufweist, das sind in absoluten Zahlen 88 fehlerhafte Fragen. Das kann die Bewertung erheblich verzerren: So landete DeepSeek R1 in der ursprünglichen Fassung des Benchmarks auf dem drittletzten Rang, in einer korrigierten Fassung war es aber das zweitbeste Modell.

Die Forscher identifizierten drei Typen von falschen Fragen: mehrdeutige Fragen, falsche Antworten und Probleme bei der Benotung. Mehrdeutige Fragen erlauben mehrere korrekte Antworten, falsche Antworten sind fehlerhafte Ergebnisse und Probleme bei der Benotung entstehen etwa, wenn “7” als korrekte Antwort akzeptiert wird, “7,00” aber nicht.

Die manuelle Identifizierung fehlerhafter Fragen in modernen KI-Benchmarks ist extrem teuer. Diese Benchmarks enthalten oft Tausende von Fragen aus verschiedenen Bereichen, für deren Überprüfung jeweils spezielles Fachwissen erforderlich ist. MMLU beispielsweise umfasst 57 Bereiche, von Chemie bis Philosophie, und enthält über 14 000 Fragen. Das Problem ist bei der Benotung noch ausgeprägter, da die Prüfer hier nicht nur die Fragen und Antwortschlüssel überprüfen, sondern auch die Antworten der LLM-Modelle. Daher werden die meisten Benchmarks nach ihrer Veröffentlichung nur selten überarbeitet. Umso dringender werden Methoden benötigt, die menschliche Prüfer unterstützen, indem sie potenziell fehlerhafte Fragen automatisch kennzeichnen.

Ein Framework mit solchen Methoden haben die Stanforder Forscher nun entwickelt. Sie greifen dabei auf messtheoretische Methoden zurück und verwenden statistische Signale – Inter-Item-Korrelation, Skalierbarkeitskoeffizient und Item-Gesamt-Korrelation -, um anhand von Antwortmustern anomale Fragen zu kennzeichnen. Außerdem führten sie eine erste Überprüfung der Fragen durch einen LLM-Beurteiler ein, die sich besonders effizient zur Erkennung von Bewertungsproblemen eignet. Das Framework kann statistische Erwartungswerte für die Antworten auf die Benchmark-Fragen berechnen und Ausreißer kennzeichnen.

Die Studie treibt die Bewertung künstlicher Intelligenz voran, indem sie messtheoretische Methoden in die Überarbeitung von Benchmarks integriert. Das Rahmenwerk ermöglicht es Kuratoren und Nutzern, fehlerhafte Fragen zu erkennen und zu korrigieren, wodurch fairere und vertrauenswürdigere Bewertungen gefördert werden. Durch die Analyse der Antwortmuster von LLM deckt es subtile Probleme auf, die bei heuristischen Überprüfungen oft übersehen werden, und zeigt, dass die Qualität von Benchmarks nicht allein aufgrund von Fachwissen vorgenommen werden kann, sondern aus den Antwortmustern von LLM abgeleitet werden muss.

SCHLAGWORTE
Benchmark
KI

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Wir melden uns mit einer kurzen Folge direkt von den Chemnitzer Linux-Tagen 2026. Es war wieder ein aufregendes CLT-Wochenende – und wir hoffen, dass euch unsere Kurz-Interviews einen guten Eindruck von der Veranstaltung vermitteln.