Eine neue Studie zeigt, dass LLMs Daten auf der Grundlage ihrer Bedeutung als verschiedene Typen darstellen und über sie in ihrer dominanten Sprache denken.
Heute können LLMs Daten in verschiedenen Modalitäten verarbeiten – zum Beispiel als Text in verschiedenen Sprachen, als Code, als Audioaufnahme oder als Bild. Forscher des MIT, der University of Southern California und des Allen Institute for AI untersuchten nun die Funktionsweise von LLMs, um besser zu verstehen, wie sie derart unterschiedliche Daten verarbeiten, und fanden Hinweise darauf, dass sie gewisse Ähnlichkeiten mit dem menschlichen Gehirn aufweisen.
Neurowissenschaftler gehen davon aus, dass das menschliche Gehirn über einen “semantischen Knotenpunkt” im vorderen Temporallappen verfügt, der semantische Informationen aus verschiedenen Modalitäten wie visuelle Daten und taktile Eingaben integriert. Dieser semantische Knotenpunkt ist mit modalitätsspezifischen “Sprossen” verbunden, die Informationen an den Knotenpunkt weiterleiten. Die MIT-Forscher fanden heraus, dass LLMs einen ähnlichen Mechanismus nutzen, indem sie Daten aus verschiedenen Modalitäten auf abstrakte Weise in einer zentralen, generalisierten Weise verarbeiten. Ein Modell mit Englisch als vorherrschender Sprache würde sich beispielsweise auf Englisch als zentrales Medium stützen, um Eingaben in Japanisch zu verarbeiten oder über Arithmetik, Computercode und so weiter nachzudenken.
Die Hypothese der Forscher besagt, dass Modelle die Fähigkeit, Daten verschiedener Modalitäten zu verarbeiten, durch das Erlernen eines gemeinsamen Repräsentationsraums für heterogene Datentypen (etwa verschiedene Sprachen) erlangen, der semantisch ähnliche Eingaben nahe beieinander platziert, selbst wenn sie aus verschiedenen Modalitäten/Sprachen stammen.
Ein LLM, das aus vielen miteinander verbundenen Schichten besteht, zerlegt den eingegebenen Text in Wörter oder noch kleinere Einheiten, die Token genannt werden. Das Modell ordnet jedem Token eine Repräsentation zu, die es ihm ermöglicht, die Beziehungen zwischen den Token zu untersuchen und das nächste Wort in einer Sequenz zu generieren. Im Falle von Bildern oder Audiodateien entsprechen diese Token bestimmten Regionen eines Bildes oder Abschnitten eines Audioclips. Die Forscher fanden heraus, dass die ersten Schichten des Modells Daten in ihrer spezifischen Sprache oder Modalität verarbeiten, ähnlich wie die modalitätsspezifischen Sprossen im menschlichen Gehirn. Dann wandelt das LLM die Token in modalitätsunabhängige Repräsentationen um, während es sie in seinen internen Schichten verarbeitet, ähnlich wie der semantische Knotenpunkt des Gehirns verschiedene Informationen integriert.
“LLMs sind große Blackboxes. Sie haben sehr beeindruckende Leistungen erbracht, aber wir wissen nur sehr wenig über ihre internen Arbeitsmechanismen. Ich hoffe, dass dies ein erster Schritt sein kann, um ihre Funktionsweise besser zu verstehen, damit wir sie verbessern und bei Bedarf besser kontrollieren können”, sagt Zhaofeng Wu, Student der Elektrotechnik und Informatik (EECS) und Hauptautor eines Artikels über diese Forschung.




