Lügendetektor für LLMs

- 30. Oktober 2024

Forschern von Technion, Google Research und Apple ist es gelungen, in der internen Aktivierung von Neuronen innerhalb eines LLMs Anzeichen dafür zu entdecken, ob das Modell halluziniert oder die Wahrheit sagt.

Um dieses Verfahren nutzen zu können, braucht es allerdings Zugriff auf die internen Strukturen des Sprachmodells, was nur bei Open-Source-Modellen gegeben ist. Die Forscher führten ihre Experimente mit vier Varianten der Modelle Mistral 7B und Llama 2 in 10 Datensätzen durch, die verschiedene Aufgaben umfassten, darunter die Beantwortung von Fragen, das Verständnis natürlicher Sprache, das Lösen mathematischer Probleme und die Analyse von Gefühlen. Um Halluzinationen voherzusagen, trainierten sie Klassifizierungsmodelle, die auf der Grundlage der internen Aktivierungen der LLMs Merkmale finden, die sich auf die Wahrhaftigkeit der erzeugten Ausgaben beziehen. Damit konnte die Fehlererkennung deutlich verbessert werden. “Unser Nachweis, dass ein trainierter Klassifikator Fehler vorhersagen kann, legt nahe, dass LLMs Informationen über ihre eigene Wahrhaftigkeit kodieren”, schreiben die Forscher.

Allerdings können die Ergebnisse dieser Klassifikatoren nicht über verschiedene Aufgaben hinweg verallgemeinert werden. Stattdessen sind die Merkmale für Wahrhaftigkeit oder Halluzination, die sie erkennen, fähigkeitsspezifisch, was heißt sie können nur innerhalb von Aufgaben verallgemeinert werden, die ähnliche Fähigkeiten erfordern, wie zum Beispiel die Suche nach Fakten oder das Schlussfolgern mit gesundem Menschenverstand, aber nicht über Aufgaben hinweg, die unterschiedliche Fähigkeiten erfordern, wie etwa die Stimmungsanalyse.

Weitere Experimente zeigten, dass die Klassifikatoren nicht nur das Vorhandensein von Fehlern vorhersagen konnten, sondern auch die Arten von Fehlern, die das Modell wahrscheinlich machen wird. Dies deutet darauf hin, dass LLM-Darstellungen Informationen über die spezifischen Arten enthalten, in denen sie versagen könnten, was für die Entwicklung gezielter Strategien zur Fehlervermeidung nützlich sein kann. Die Forscher meinen, es bestehe die Möglichkeit, dass wir durch ein besseres Verständnis und eine bessere Nutzung des internen Wissens von LLMs in der Lage sein könnten, verborgenes Potenzial freizusetzen und Fehler erheblich zu reduzieren.

Die Forschungen reihen sich ein in Versuche der führenden KI-Labs, die genaue Funktionsweise der Milliarden von Verknüpfungen im Inneren von LLMs, die heute noch überwiegend als Black Box betrachtet werden müssen, besser zu verstehen.

Chinesisches Spitzenmodell braucht keine GPUs und wird Open Source

Auf OpenRouter, einer Plattform, die über eine einheitliche API Zugriff auf Dutzende Sprachmodelle erlaubt, rangierte in den letzten Wochen das anonyme Modell Owl Alpha in den Nutzungsstatistiken auf vorderen Plätzen. Jetzt wurde bekannt, das dahinter das Modell LongCat-2.0 des chinesischen...

Mageia 10 mit Linux-Kernel 6.18 und aktueller Desktop-Software

Die Mageia-Gemeinschaft hat Version 10 ihrer Linux-Distribution veröffentlicht. Rund drei Jahre nach dem Erscheinen der Version 9 des Mandriva-Nachfolgers.

Google Meet protokolliert in Meetings mit

Google Nutzer mit KI Pro- und Ultra-Abos brauchen in Meetings ab sofort keinen Schriftführer mehr: Google Meet transkribiert die Diskussion selbstständig und fasst die wichtigsten Maßnahmen per E-Mail und in einem Google-Doc-File zusammen, dass den Teilnehmern anschließend automatisch zugestellt...

Universität Paderborn erweitert Supercomputer „Otus“

Die Universität Paderborn baut ihren Hochleistungsrechner „Otus“ aus. Wie die Hochschule mitteilt, stehen dafür mehr als zwölf Millionen Euro aus Landes- und Bundesmitteln zur Verfügung.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...