DeepMind-Forscher finden prinzipielles Problem bei Vector-Embeddings

- 12. September 2025

Vector-Embeddings bilden das Rückgrat der heutigen Sprachmodelle. Forscher von Google DeepMind haben darin nun ein prinzipielles Problem ausgemacht, dass auch nicht mit größeren Modellen oder mehr Training behoben werden kann.

Mithilfe von Vector-Embeddings werden unstrukturierte Daten wie Text, Bilder oder Audiodaten in numerische Darstellungen verwandelt (die Vektoren), die Punkte in einem vieldimensionalen Raum darstellen. Auf diese Weise werden die semantischen Beziehungen zwischen den Daten abgebildet. Das in vielen RAG-Systemen häufig verwendete Verfahren Dense Retrieval verwandelt die Anfrage dann in einen ebensolchen Vektor und findet relevante Dokumente anschließend durch ihre räumliche Nähe zur Anfrage.

Dabei kann es auch bei sehr einfachen Abfragen dazu kommen, dass die relevanten Dokumente aufgrund abstrakter Konzepte gewählt werden und sich dadurch ihre Anzahl beliebig erhöht, worauf das System versagt.

Bisher glaubte man, dass dieser Effekt auf eine ungeschickte Formulierung der Anfrage zurückzuführen sei. Doch nun haben die Forscher ein ideales Experiment ersonnen, dass nur auf den Werten der Vektoren beruht und überhaupt keinem Einfluss von Sprache mehr unterliegt. Auch hier fanden die Forscher für jede Vektorgröße einen kritischen Punkt, ab dem die Menge der als relevant erachteten Dokumente zu groß wurde. Die Dimensionalität der Einbettung ist einfach zu gering, um die Komplexität zu kodieren.

Aktuelle Benchmarks decken diese Schwäche oft nicht auf. In dem Papier wird festgestellt, dass ein Datensatz wie QUEST mit 325 000 Dokumenten mehr als 7,1e+91 (71 gefolgt von 90 Nullen) mögliche Kombinationen von 20 relevanten Dokumenten enthält. Mit den 3 000 Abfragen wird jedoch nur ein verschwindend kleiner Teil dieses Raums getestet.

Hochmoderne Einbettungsmodelle von Google und anderen haben mit dem LIMIT-Datensatz große Schwierigkeiten. Einige erreichen weniger als 20 Prozent Recall (der Anteil der richtigen Dokumente, die das Modell findet) bei der gesamten Aufgabe. Überraschenderweise schneidet BM25, ein jahrzehntealter lexikalischer Suchalgorithmus, bei der gleichen Aufgabe außergewöhnlich gut ab.

Entscheidend ist, dass sich die Leistung des Modells kaum verbesserte, als die Forscher es mit einer Trainingsversion von LIMIT feinabstimmten. Dies deutet darauf hin, dass es sich bei dem Problem nicht um eine “Domänenverschiebung” handelt (bei der ein Modell versagt, weil es zuvor keine ähnlichen Daten gesehen hat), sondern um eine grundlegende architektonische Einschränkung. Die Modelle sind grundsätzlich nicht in der Lage, die Aufgabe zu lösen.

Was kann man tun? Die Forscher empfehlen auf Warnzeichen zu achten. Wenn ein System bei Abfragen, die logischerweise mehrere Dokumente erfordern, um vollständig beantwortet zu werden, durchgängig nur eines der relevanten Dokumente abruft, statt der erforderlichen Menge, sei das ein klares Anzeichen dafür, dass es an die besagte Grenzen stößt. Zu empfehlen sei auch ein hybrider Ansatz, der neben den Embeddings auch herkömmliche, für ihre kombinatorische Robustheit bekannte Algorithmen wie BM25 verwendet. Und schließlich sei die Evaluations-Strategie zu überdenken, die sich oft auf Benchmarks stützt, die nur einen winzigen Bruchteil möglicher Anfragen testen. “Sich ausschließlich auf die Leistung von Bestenlisten zu verlassen, kann dazu führen, dass Unternehmen Tools einsetzen, die in Benchmarks gut aussehen, in der Praxis aber nicht funktionieren”, warnen die Autoren.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung