Neuer Benchmark lässt alle LLMs alt aussehen

- 04. Februar 2025

Ein kürzlich veröffentlichter neuer Benchmark unter dem Titel “Humanity’s Last Exam” lässt alle heutigen Sprachmodelle verzweifeln. Selbst Spitzenmodelle wie GPT-4o lösen weniger als 10 Prozent der Aufgaben.

Benchnmarks für große Sprachmodelle gibt es in großer Zahl. Allerdings sind die meisten davon mittlerweile wertlos, weil alle gängigen Sprachmodelle eine Genauigkeit von über 90 Prozent bei üblichen Benchmarks wie MMLU erreichen. Eine sachkundige Messung der LLM-Fähigkeiten auf dem neuesten Stand der Technik ist damit nur noch eingeschränkt möglich. Als Antwort darauf stellte nun eine große Gruppe von Forschern unter Leitung der US-Organisation Scale AI und dem Center for AI Safety (CAIS) einen neuen Benchmark namens “Humanity’s Last Exam” (HLE) vor. Die Arbeit wurde Ende Januar als wissenschaftliche Publikation auf dem Preprint-Server arXiv veröffentlicht. Rund 1 000 Fachleute aus 50 Ländern steuerten Aufgaben bei.

HLE besteht aus 3 000 Fragen in Dutzenden von Fächern, darunter Mathematik, Geisteswissenschaften und Naturwissenschaften. Der HLE wird besteht aus Multiple-Choice-Fragen und Kurzantworten, die sich für eine automatische Bewertung eignen. Jede Frage hat eine bekannte Lösung, die eindeutig und leicht überprüfbar ist, aber nicht schnell über das Internet beantwortet werden kann. LLMs, die dem neuesten Stand der Technik entsprechen, weisen eine geringe Genauigkeit und Kalibrierung bei HLE auf, was eine erhebliche Lücke zwischen den derzeitigen LLM-Fähigkeiten und der menschlichen Expertengrenze bei geschlossenen akademischen Fragen aufzeigt.
Übrigens lieferte das kürzlich vorgestellte neue chinesische Modell DeepSeek auch bei diesem Benchmark mit die besten Antworten.

SCHLAGWORTE
Benchmark
HLE
LLM

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung