Google komprimiert RAM-Bedarf für KI-Modelle auf ein Sechstel

- 26. März 2026

Google ist es gelungen, den RAM-Bedarf für KI-Modelle auf ein Sechstel einzudampfen. Das beschleunigt die Ausführung und spart viel an Hardwarekosten ein.

Viel RAM benötigen die KI-Modelle besonders dann, wenn sie mit großen Kontextlängen arbeiten sollen. In diesem Fall müssen sie sich große Mengen vieldimensionaler Vektoren in Key-Value-Caches merken, die sozusagen als Spickzettel fungieren und schnell zu einem Flaschenhals werden. Ein bewährtes Gegenmittel ist die Kompression der Vektoren, was Platz spart und die Ähnlichkeitssuche im Vektorraum beschleunigt.

Der von Google entwickelte neue Kompressionsalgorithmus TurboQuant benutzt zwei neuartige Techniken. Zum einen konvertiert er die Vektoren zuerst in Polarkoordinaten, die sich besser komprimieren lassen, weil sie nur noch aus zwei Komponenten bestehen: Radius und Richtung. Zum anderen verwendet der anschließend angewandte Quantized-Johnson-Lindenstrauss-Algorithmus (QJL) einen kleinen Teil des Speicherplatzes für eine wirksame Fehlerkorrektur, die die Genauigkeit bewahrt.

Versuche anhand von Standard-Benchmarks für lange Kontexte, darunter LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval, ergaben bei Verwendung von Open-Source-LLMs (Gemma und Mistral) eine optimale Performance. Gleichzeitig konnte der Speicherbedarf für Schlüssel-Wert-Paare minimiert werden.

Es ist kein spezielles Training oder Feintuning nötig. TurboQuant erzielte auf H100-GPU-Beschleunigern eine bis zu 8-fache Leistungssteigerung gegenüber nicht quantisierten 32-Bit-Schlüsseln. Dadurch eignet sich die Methode ideal für Anwendungsfälle wie die Vektorsuche, wo es den Indexaufbau erheblich beschleunigt. Die Forscher haben die Leistungsfähigkeit von TurboQuant bei der hochdimensionalen Vektorsuche im Vergleich zu den modernsten Methoden (PQ und RabbiQ) bewertet: TurboQuant erzielte im Vergleich zu den Basismethoden durchweg überlegene Ergebnisse. Dies bestätigt die Robustheit und Effizienz von TurboQuant bei hochdimensionalen Suchaufgaben.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung