Google ist es gelungen, den RAM-Bedarf für KI-Modelle auf ein Sechstel einzudampfen. Das beschleunigt die Ausführung und spart viel an Hardwarekosten ein.
Viel RAM benötigen die KI-Modelle besonders dann, wenn sie mit großen Kontextlängen arbeiten sollen. In diesem Fall müssen sie sich große Mengen vieldimensionaler Vektoren in Key-Value-Caches merken, die sozusagen als Spickzettel fungieren und schnell zu einem Flaschenhals werden. Ein bewährtes Gegenmittel ist die Kompression der Vektoren, was Platz spart und die Ähnlichkeitssuche im Vektorraum beschleunigt.
Der von Google entwickelte neue Kompressionsalgorithmus TurboQuant benutzt zwei neuartige Techniken. Zum einen konvertiert er die Vektoren zuerst in Polarkoordinaten, die sich besser komprimieren lassen, weil sie nur noch aus zwei Komponenten bestehen: Radius und Richtung. Zum anderen verwendet der anschließend angewandte Quantized-Johnson-Lindenstrauss-Algorithmus (QJL) einen kleinen Teil des Speicherplatzes für eine wirksame Fehlerkorrektur, die die Genauigkeit bewahrt.
Versuche anhand von Standard-Benchmarks für lange Kontexte, darunter LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval, ergaben bei Verwendung von Open-Source-LLMs (Gemma und Mistral) eine optimale Performance. Gleichzeitig konnte der Speicherbedarf für Schlüssel-Wert-Paare minimiert werden.
Es ist kein spezielles Training oder Feintuning nötig. TurboQuant erzielte auf H100-GPU-Beschleunigern eine bis zu 8-fache Leistungssteigerung gegenüber nicht quantisierten 32-Bit-Schlüsseln. Dadurch eignet sich die Methode ideal für Anwendungsfälle wie die Vektorsuche, wo es den Indexaufbau erheblich beschleunigt. Die Forscher haben die Leistungsfähigkeit von TurboQuant bei der hochdimensionalen Vektorsuche im Vergleich zu den modernsten Methoden (PQ und RabbiQ) bewertet: TurboQuant erzielte im Vergleich zu den Basismethoden durchweg überlegene Ergebnisse. Dies bestätigt die Robustheit und Effizienz von TurboQuant bei hochdimensionalen Suchaufgaben.





