Forscher der Uni Stanford finden Fehler in KI-Benchmarks

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren. Forscher der Universität Stanford haben nun ein Framework entwickelt, das mit messtheoretischen Methoden falsche Fragen und Antworten in KI-Benchmarks mit einer Genauigkeit von 84 Prozent findet.

Benchmarks messen den KI-Fortschritt. Jedoch haben frühere Forschungen gezeigt, dass zum Beispiel der verbreitete Mathematik-Benchmark GSM8K eine Fehlerrate von 5 Prozent aufweist, das sind in absoluten Zahlen 88 fehlerhafte Fragen. Das kann die Bewertung erheblich verzerren: So landete DeepSeek R1 in der ursprünglichen Fassung des Benchmarks auf dem drittletzten Rang, in einer korrigierten Fassung war es aber das zweitbeste Modell.

Die Forscher identifizierten drei Typen von falschen Fragen: mehrdeutige Fragen, falsche Antworten und Probleme bei der Benotung. Mehrdeutige Fragen erlauben mehrere korrekte Antworten, falsche Antworten sind fehlerhafte Ergebnisse und Probleme bei der Benotung entstehen etwa, wenn “7” als korrekte Antwort akzeptiert wird, “7,00” aber nicht.

Die manuelle Identifizierung fehlerhafter Fragen in modernen KI-Benchmarks ist extrem teuer. Diese Benchmarks enthalten oft Tausende von Fragen aus verschiedenen Bereichen, für deren Überprüfung jeweils spezielles Fachwissen erforderlich ist. MMLU beispielsweise umfasst 57 Bereiche, von Chemie bis Philosophie, und enthält über 14 000 Fragen. Das Problem ist bei der Benotung noch ausgeprägter, da die Prüfer hier nicht nur die Fragen und Antwortschlüssel überprüfen, sondern auch die Antworten der LLM-Modelle. Daher werden die meisten Benchmarks nach ihrer Veröffentlichung nur selten überarbeitet. Umso dringender werden Methoden benötigt, die menschliche Prüfer unterstützen, indem sie potenziell fehlerhafte Fragen automatisch kennzeichnen.

Ein Framework mit solchen Methoden haben die Stanforder Forscher nun entwickelt. Sie greifen dabei auf messtheoretische Methoden zurück und verwenden statistische Signale – Inter-Item-Korrelation, Skalierbarkeitskoeffizient und Item-Gesamt-Korrelation -, um anhand von Antwortmustern anomale Fragen zu kennzeichnen. Außerdem führten sie eine erste Überprüfung der Fragen durch einen LLM-Beurteiler ein, die sich besonders effizient zur Erkennung von Bewertungsproblemen eignet. Das Framework kann statistische Erwartungswerte für die Antworten auf die Benchmark-Fragen berechnen und Ausreißer kennzeichnen.

Die Studie treibt die Bewertung künstlicher Intelligenz voran, indem sie messtheoretische Methoden in die Überarbeitung von Benchmarks integriert. Das Rahmenwerk ermöglicht es Kuratoren und Nutzern, fehlerhafte Fragen zu erkennen und zu korrigieren, wodurch fairere und vertrauenswürdigere Bewertungen gefördert werden. Durch die Analyse der Antwortmuster von LLM deckt es subtile Probleme auf, die bei heuristischen Überprüfungen oft übersehen werden, und zeigt, dass die Qualität von Benchmarks nicht allein aufgrund von Fachwissen vorgenommen werden kann, sondern aus den Antwortmustern von LLM abgeleitet werden muss.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben