Forscher entwickeln Benchmark, der Halluzinationen von LLMs misst

- 11. Februar 2026

Forscher der École Polytechnique Fédérale de Lausanne, des Tübinger ELLIS Institute, des Max-Planck-Instituts für Intelligente Systeme und des Tübinger AI Center haben einen Benchmark entwickelt, der Halluzinationen von Sprachmodellen misst.

Der HALLUHARD getaufte Benchmark verwendet mehrschrittige, offene Interaktionen mit LLMs um verifizierbar Halluzinationen der Modelle zu erkennen und zu bewerten. Dabei werden die Modelle angewiesen, faktische Behauptungen mit expliziten Zitaten zu untermauern, um eine konkrete Grundlage für die Überprüfung zu schaffen. Ein webbasierter Suchalgorithmus folgt dann diesen Zitaten, um die referenzierten Quellen im Volltext abzurufen und zu lesen, einschließlich der Analyse von PDF-Dateien, falls erforderlich. Diese Vorgehensweise deckt einen subtilen, aber häufigen Fehler auf, der oft übersehen wird: Ein Modell kann zwar eine geeignete Quelle zitieren, aber dennoch Details erfinden, die durch die Quelle nicht belegt sind. Ohne das vollständige Papier zu lesen, sind solche Halluzinationen leicht zu übersehen.

Die 950 Fragen, die die Probanden beantworten sollen, stammen aus vier anspruchsvollen Bereichen, in denen Informationen vorkommen, die in den Daten selten, aber von hoher Bedeutung sind.
Halluzination wird dabei definiert als eine Ausgabe, die weder durch das In-Parameter-Wissen (Weltwissen) der Modelle noch durch In-Kontext-Dokumente gestützt wird. Dabei erwies sich die Halluzinationsrate selbst bei Spitzenmodellen wie GPT-5.2 oder Claude Opus 4.5 mit um die 30 Prozent als sehr hoch. Die Forscher schlagen deshalb eine automatisierte Verifikations-Pipeline vor, die die Quellen komplett liest und deren Inhalt mit den Ergebnissen vergleicht.

Ein neuer Benchmark wurde notwendig, weil die vorhandenen, oft einschrittigen Faktenprüfungen, die im Internet suchen dürfen, an eine Sättigungsgrenze stoßen. So erreicht GPT-4o eine Genauigkeit von 90 Prozent bei SimpleQA, und GPT-5-Thinking mit Websuche kann eine Genauigkeit von 95,1 Prozent erreichen. Ausgeweitete Faktenabfragen basieren hingegen oft auf sorgfältig ausgewählten Themen, die in der Regel im Internet ausführlich dokumentiert sind. Damit erreichen die Modelle der GPT-5-Familie Halluzinationsraten von unter einem Prozent. Auch ist die Bewertung der Ergebnisse bislang limitiert. Der neue HALLUHARD-Benchmark zeichnet sich dagegen durch sein mehrschrittiges Design, die Einbindung eines überprüfbaren LLM-Bewerters und eine breite Abdeckung von interessanten Bereichen aus, darunter Forschungsfragen, Rechtsfragen, medizinische Richtlinien und Programmier-Probleme. Dabei lag die Halluzinationsrate des besten getesteten Modells Claude Opus 4.5 immer noch um die 30 Prozent, während das Modell, das am schlechtesten abschnitt – GPT5-nano – in einigen Bereichen (Forschung, Medizin) zu über 90 Prozent halluzinierte.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Wir melden uns mit einer kurzen Folge direkt von den Chemnitzer Linux-Tagen 2026. Es war wieder ein aufregendes CLT-Wochenende – und wir hoffen, dass euch unsere Kurz-Interviews einen guten Eindruck von der Veranstaltung vermitteln.