Ein kürzlich veröffentlichter neuer Benchmark unter dem Titel “Humanity’s Last Exam” lässt alle heutigen Sprachmodelle verzweifeln. Selbst Spitzenmodelle wie GPT-4o lösen weniger als 10 Prozent der Aufgaben.
Benchnmarks für große Sprachmodelle gibt es in großer Zahl. Allerdings sind die meisten davon mittlerweile wertlos, weil alle gängigen Sprachmodelle eine Genauigkeit von über 90 Prozent bei üblichen Benchmarks wie MMLU erreichen. Eine sachkundige Messung der LLM-Fähigkeiten auf dem neuesten Stand der Technik ist damit nur noch eingeschränkt möglich. Als Antwort darauf stellte nun eine große Gruppe von Forschern unter Leitung der US-Organisation Scale AI und dem Center for AI Safety (CAIS) einen neuen Benchmark namens “Humanity’s Last Exam” (HLE) vor. Die Arbeit wurde Ende Januar als wissenschaftliche Publikation auf dem Preprint-Server arXiv veröffentlicht. Rund 1 000 Fachleute aus 50 Ländern steuerten Aufgaben bei.
HLE besteht aus 3 000 Fragen in Dutzenden von Fächern, darunter Mathematik, Geisteswissenschaften und Naturwissenschaften. Der HLE wird besteht aus Multiple-Choice-Fragen und Kurzantworten, die sich für eine automatische Bewertung eignen. Jede Frage hat eine bekannte Lösung, die eindeutig und leicht überprüfbar ist, aber nicht schnell über das Internet beantwortet werden kann. LLMs, die dem neuesten Stand der Technik entsprechen, weisen eine geringe Genauigkeit und Kalibrierung bei HLE auf, was eine erhebliche Lücke zwischen den derzeitigen LLM-Fähigkeiten und der menschlichen Expertengrenze bei geschlossenen akademischen Fragen aufzeigt.
Übrigens lieferte das kürzlich vorgestellte neue chinesische Modell DeepSeek auch bei diesem Benchmark mit die besten Antworten.





