Forschern von Technion, Google Research und Apple ist es gelungen, in der internen Aktivierung von Neuronen innerhalb eines LLMs Anzeichen dafür zu entdecken, ob das Modell halluziniert oder die Wahrheit sagt.
Um dieses Verfahren nutzen zu können, braucht es allerdings Zugriff auf die internen Strukturen des Sprachmodells, was nur bei Open-Source-Modellen gegeben ist. Die Forscher führten ihre Experimente mit vier Varianten der Modelle Mistral 7B und Llama 2 in 10 Datensätzen durch, die verschiedene Aufgaben umfassten, darunter die Beantwortung von Fragen, das Verständnis natürlicher Sprache, das Lösen mathematischer Probleme und die Analyse von Gefühlen. Um Halluzinationen voherzusagen, trainierten sie Klassifizierungsmodelle, die auf der Grundlage der internen Aktivierungen der LLMs Merkmale finden, die sich auf die Wahrhaftigkeit der erzeugten Ausgaben beziehen. Damit konnte die Fehlererkennung deutlich verbessert werden. “Unser Nachweis, dass ein trainierter Klassifikator Fehler vorhersagen kann, legt nahe, dass LLMs Informationen über ihre eigene Wahrhaftigkeit kodieren”, schreiben die Forscher.
Allerdings können die Ergebnisse dieser Klassifikatoren nicht über verschiedene Aufgaben hinweg verallgemeinert werden. Stattdessen sind die Merkmale für Wahrhaftigkeit oder Halluzination, die sie erkennen, fähigkeitsspezifisch, was heißt sie können nur innerhalb von Aufgaben verallgemeinert werden, die ähnliche Fähigkeiten erfordern, wie zum Beispiel die Suche nach Fakten oder das Schlussfolgern mit gesundem Menschenverstand, aber nicht über Aufgaben hinweg, die unterschiedliche Fähigkeiten erfordern, wie etwa die Stimmungsanalyse.
Weitere Experimente zeigten, dass die Klassifikatoren nicht nur das Vorhandensein von Fehlern vorhersagen konnten, sondern auch die Arten von Fehlern, die das Modell wahrscheinlich machen wird. Dies deutet darauf hin, dass LLM-Darstellungen Informationen über die spezifischen Arten enthalten, in denen sie versagen könnten, was für die Entwicklung gezielter Strategien zur Fehlervermeidung nützlich sein kann. Die Forscher meinen, es bestehe die Möglichkeit, dass wir durch ein besseres Verständnis und eine bessere Nutzung des internen Wissens von LLMs in der Lage sein könnten, verborgenes Potenzial freizusetzen und Fehler erheblich zu reduzieren.
Die Forschungen reihen sich ein in Versuche der führenden KI-Labs, die genaue Funktionsweise der Milliarden von Verknüpfungen im Inneren von LLMs, die heute noch überwiegend als Black Box betrachtet werden müssen, besser zu verstehen.





