Gemini Embedding 2 überträgt Text, Bild, Audio und Video in einheitlichen Vektorraum

- 11. März 2026

Google bezeichnet das neue Gemini Embedding 2 auch als erstes nativ multimodales Modell, weil es die Embeddings von Text-, Bild-, Audio- und Videoinhalten in einem einheitlichen Vektorraum abbildet.

Unter Embeddings versteht man die Darstellung von Inhalten als vieldimensionale numerische Vektoren. Sie ermöglicht KI-Modellen, die inhaltliche (semantische) Nähe von Aussagen zu berechnen. Erstmals werden nun alle Vektoren in einem vereinheitlichten Raum abgebildet, egal aus welcher Quelle der jeweilige Inhalt stammt. Das macht es leichter, etwa Antworten auf eine als Text formulierte Frage in einem Video- oder Audiobeitrag zu finden.

Das Modell unterstützt dabei Texte aus 100 Sprachen mit einer Kontextlänge von 8192 Token, bis zu 6 PNG- oder JPEG-Bilder pro Anfrage, bis zu 120 Sekunden Video in den Formaten MP4 oder MOV, Audioquellen, die nicht transkribiert werden müssen und bis zu 6 Seiten PDF-Dokumente. Die Input-Formate dürfen in einer Anfrage gemischt vorkommen.

Wie schon frühere Einbettungsmodelle nutzt auch Gemini Embedding 2 das Matryoshka Representation Learning (MRL), eine Technik, die Informationen durch dynamische Verkleinerung der Dimensionen verschachtelt. Das ermöglicht eine flexible Verkleinerung der Ausgabedimensionen gegenüber der Standardeinstellung von 3072. So können Entwickler ein Gleichgewicht zwischen Leistung und Speicherkosten herstellen.

Gemini Embedding 2 setzt auch neue Standards für die Performance bei der Verarbeitung multimodaler Information und führt die Bestenliste etlicher Benchmarks an, darunter MTEB (Multilingual) oder TextCaps.