Forscher der École Polytechnique Fédérale de Lausanne, des Tübinger ELLIS Institute, des Max-Planck-Instituts für Intelligente Systeme und des Tübinger AI Center haben einen Benchmark entwickelt, der Halluzinationen von Sprachmodellen misst.
Der HALLUHARD getaufte Benchmark verwendet mehrschrittige, offene Interaktionen mit LLMs um verifizierbar Halluzinationen der Modelle zu erkennen und zu bewerten. Dabei werden die Modelle angewiesen, faktische Behauptungen mit expliziten Zitaten zu untermauern, um eine konkrete Grundlage für die Überprüfung zu schaffen. Ein webbasierter Suchalgorithmus folgt dann diesen Zitaten, um die referenzierten Quellen im Volltext abzurufen und zu lesen, einschließlich der Analyse von PDF-Dateien, falls erforderlich. Diese Vorgehensweise deckt einen subtilen, aber häufigen Fehler auf, der oft übersehen wird: Ein Modell kann zwar eine geeignete Quelle zitieren, aber dennoch Details erfinden, die durch die Quelle nicht belegt sind. Ohne das vollständige Papier zu lesen, sind solche Halluzinationen leicht zu übersehen.
Die 950 Fragen, die die Probanden beantworten sollen, stammen aus vier anspruchsvollen Bereichen, in denen Informationen vorkommen, die in den Daten selten, aber von hoher Bedeutung sind.
Halluzination wird dabei definiert als eine Ausgabe, die weder durch das In-Parameter-Wissen (Weltwissen) der Modelle noch durch In-Kontext-Dokumente gestützt wird. Dabei erwies sich die Halluzinationsrate selbst bei Spitzenmodellen wie GPT-5.2 oder Claude Opus 4.5 mit um die 30 Prozent als sehr hoch. Die Forscher schlagen deshalb eine automatisierte Verifikations-Pipeline vor, die die Quellen komplett liest und deren Inhalt mit den Ergebnissen vergleicht.
Ein neuer Benchmark wurde notwendig, weil die vorhandenen, oft einschrittigen Faktenprüfungen, die im Internet suchen dürfen, an eine Sättigungsgrenze stoßen. So erreicht GPT-4o eine Genauigkeit von 90 Prozent bei SimpleQA, und GPT-5-Thinking mit Websuche kann eine Genauigkeit von 95,1 Prozent erreichen. Ausgeweitete Faktenabfragen basieren hingegen oft auf sorgfältig ausgewählten Themen, die in der Regel im Internet ausführlich dokumentiert sind. Damit erreichen die Modelle der GPT-5-Familie Halluzinationsraten von unter einem Prozent. Auch ist die Bewertung der Ergebnisse bislang limitiert. Der neue HALLUHARD-Benchmark zeichnet sich dagegen durch sein mehrschrittiges Design, die Einbindung eines überprüfbaren LLM-Bewerters und eine breite Abdeckung von interessanten Bereichen aus, darunter Forschungsfragen, Rechtsfragen, medizinische Richtlinien und Programmier-Probleme. Dabei lag die Halluzinationsrate des besten getesteten Modells Claude Opus 4.5 immer noch um die 30 Prozent, während das Modell, das am schlechtesten abschnitt – GPT5-nano – in einigen Bereichen (Forschung, Medizin) zu über 90 Prozent halluzinierte.




