DeepMind-Forscher finden prinzipielles Problem bei Vector-Embeddings

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Vector-Embeddings bilden das Rückgrat der heutigen Sprachmodelle. Forscher von Google DeepMind haben darin nun ein prinzipielles Problem ausgemacht, dass auch nicht mit größeren Modellen oder mehr Training behoben werden kann.

Mithilfe von Vector-Embeddings werden unstrukturierte Daten wie Text, Bilder oder Audiodaten in numerische Darstellungen verwandelt (die Vektoren), die Punkte in einem vieldimensionalen Raum darstellen. Auf diese Weise werden die semantischen Beziehungen zwischen den Daten abgebildet. Das in vielen RAG-Systemen häufig verwendete Verfahren Dense Retrieval verwandelt die Anfrage dann in einen ebensolchen Vektor und findet relevante Dokumente anschließend durch ihre räumliche Nähe zur Anfrage.

Dabei kann es auch bei sehr einfachen Abfragen dazu kommen, dass die relevanten Dokumente aufgrund abstrakter Konzepte gewählt werden und sich dadurch ihre Anzahl beliebig erhöht, worauf das System versagt.

Bisher glaubte man, dass dieser Effekt auf eine ungeschickte Formulierung der Anfrage zurückzuführen sei. Doch nun haben die Forscher ein ideales Experiment ersonnen, dass nur auf den Werten der Vektoren beruht und überhaupt keinem Einfluss von Sprache mehr unterliegt. Auch hier fanden die Forscher für jede Vektorgröße einen kritischen Punkt, ab dem die Menge der als relevant erachteten Dokumente zu groß wurde. Die Dimensionalität der Einbettung ist einfach zu gering, um die Komplexität zu kodieren.

Aktuelle Benchmarks decken diese Schwäche oft nicht auf. In dem Papier wird festgestellt, dass ein Datensatz wie QUEST mit 325 000 Dokumenten mehr als 7,1e+91 (71 gefolgt von 90 Nullen) mögliche Kombinationen von 20 relevanten Dokumenten enthält. Mit den 3 000 Abfragen wird jedoch nur ein verschwindend kleiner Teil dieses Raums getestet.

Hochmoderne Einbettungsmodelle von Google und anderen haben mit dem LIMIT-Datensatz große Schwierigkeiten. Einige erreichen weniger als 20 Prozent Recall (der Anteil der richtigen Dokumente, die das Modell findet) bei der gesamten Aufgabe. Überraschenderweise schneidet BM25, ein jahrzehntealter lexikalischer Suchalgorithmus, bei der gleichen Aufgabe außergewöhnlich gut ab.

Entscheidend ist, dass sich die Leistung des Modells kaum verbesserte, als die Forscher es mit einer Trainingsversion von LIMIT feinabstimmten. Dies deutet darauf hin, dass es sich bei dem Problem nicht um eine “Domänenverschiebung” handelt (bei der ein Modell versagt, weil es zuvor keine ähnlichen Daten gesehen hat), sondern um eine grundlegende architektonische Einschränkung. Die Modelle sind grundsätzlich nicht in der Lage, die Aufgabe zu lösen.

Was kann man tun? Die Forscher empfehlen auf Warnzeichen zu achten. Wenn ein System bei Abfragen, die logischerweise mehrere Dokumente erfordern, um vollständig beantwortet zu werden, durchgängig nur eines der relevanten Dokumente abruft, statt der erforderlichen Menge, sei das ein klares Anzeichen dafür, dass es an die besagte Grenzen stößt. Zu empfehlen sei auch ein hybrider Ansatz, der neben den Embeddings auch herkömmliche, für ihre kombinatorische Robustheit bekannte Algorithmen wie BM25 verwendet. Und schließlich sei die Evaluations-Strategie zu überdenken, die sich oft auf Benchmarks stützt, die nur einen winzigen Bruchteil möglicher Anfragen testen. “Sich ausschließlich auf die Leistung von Bestenlisten zu verlassen, kann dazu führen, dass Unternehmen Tools einsetzen, die in Benchmarks gut aussehen, in der Praxis aber nicht funktionieren”, warnen die Autoren.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben