Neue Forschung: LLMs schlussfolgern ähnlich wie Menschen

- 19. Februar 2025

Eine neue Studie zeigt, dass LLMs Daten auf der Grundlage ihrer Bedeutung als verschiedene Typen darstellen und über sie in ihrer dominanten Sprache denken.

Heute können LLMs Daten in verschiedenen Modalitäten verarbeiten – zum Beispiel als Text in verschiedenen Sprachen, als Code, als Audioaufnahme oder als Bild. Forscher des MIT, der University of Southern California und des Allen Institute for AI untersuchten nun die Funktionsweise von LLMs, um besser zu verstehen, wie sie derart unterschiedliche Daten verarbeiten, und fanden Hinweise darauf, dass sie gewisse Ähnlichkeiten mit dem menschlichen Gehirn aufweisen.

Neurowissenschaftler gehen davon aus, dass das menschliche Gehirn über einen “semantischen Knotenpunkt” im vorderen Temporallappen verfügt, der semantische Informationen aus verschiedenen Modalitäten wie visuelle Daten und taktile Eingaben integriert. Dieser semantische Knotenpunkt ist mit modalitätsspezifischen “Sprossen” verbunden, die Informationen an den Knotenpunkt weiterleiten. Die MIT-Forscher fanden heraus, dass LLMs einen ähnlichen Mechanismus nutzen, indem sie Daten aus verschiedenen Modalitäten auf abstrakte Weise in einer zentralen, generalisierten Weise verarbeiten. Ein Modell mit Englisch als vorherrschender Sprache würde sich beispielsweise auf Englisch als zentrales Medium stützen, um Eingaben in Japanisch zu verarbeiten oder über Arithmetik, Computercode und so weiter nachzudenken.

Die Hypothese der Forscher besagt, dass Modelle die Fähigkeit, Daten verschiedener Modalitäten zu verarbeiten, durch das Erlernen eines gemeinsamen Repräsentationsraums für heterogene Datentypen (etwa verschiedene Sprachen) erlangen, der semantisch ähnliche Eingaben nahe beieinander platziert, selbst wenn sie aus verschiedenen Modalitäten/Sprachen stammen.

Ein LLM, das aus vielen miteinander verbundenen Schichten besteht, zerlegt den eingegebenen Text in Wörter oder noch kleinere Einheiten, die Token genannt werden. Das Modell ordnet jedem Token eine Repräsentation zu, die es ihm ermöglicht, die Beziehungen zwischen den Token zu untersuchen und das nächste Wort in einer Sequenz zu generieren. Im Falle von Bildern oder Audiodateien entsprechen diese Token bestimmten Regionen eines Bildes oder Abschnitten eines Audioclips. Die Forscher fanden heraus, dass die ersten Schichten des Modells Daten in ihrer spezifischen Sprache oder Modalität verarbeiten, ähnlich wie die modalitätsspezifischen Sprossen im menschlichen Gehirn. Dann wandelt das LLM die Token in modalitätsunabhängige Repräsentationen um, während es sie in seinen internen Schichten verarbeitet, ähnlich wie der semantische Knotenpunkt des Gehirns verschiedene Informationen integriert.

“LLMs sind große Blackboxes. Sie haben sehr beeindruckende Leistungen erbracht, aber wir wissen nur sehr wenig über ihre internen Arbeitsmechanismen. Ich hoffe, dass dies ein erster Schritt sein kann, um ihre Funktionsweise besser zu verstehen, damit wir sie verbessern und bei Bedarf besser kontrollieren können”, sagt Zhaofeng Wu, Student der Elektrotechnik und Informatik (EECS) und Hauptautor eines Artikels über diese Forschung.

SCHLAGWORTE
LLM

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung