Neue Kompressionsmethode bringt LLMs auf billigere Hardware

- 06. Oktober 2025

Eine neue, von Huawei entwickelte und unter Apache-2.0-Lizenz veröffentlichte Kompressionsmethode macht es möglich, dass große Sprachmodelle auf deutlich kleineren und billigeren Rechnern laufen.

So reduziert die SINQ (Sinkhorn-Normalized Quantization) getaufte Methode den Speicherbedarf um 60 bis 70 Prozent. Modelle, die zuvor mehr als 60 GB Speicher benötigten, kommen nun mit 20 GB aus. Auch laufen sie nun auf einer einzelnen GPU aus dem Consumer-Bereich wie Nvidia GeForce RTX 4090 (um 1600 Dollar), während sie zuvor eine GPU der Enterprise-Klasse brauchten, etwa eine Nvidia H100 (über 30 000 Dollar). Diese Kosteneinsparungen können auch Teams realisieren, die ihre Modelle in einer öffentlichen Cloud betreiben. Denn da kostet eine Arbeitsstunde mit einer mit H100 bestückten Instanz 3 bis 4,50 Dollar – mit einer Instanz auf Basis der RTX 4090 aber nur 1 bis 1,50 Dollar. Das summiert sich über die Zeit leicht zu Tausenden Dollar Kosteneinsparung.

Derartige Kompressionen werden oft mit einem Verlust an Präzision erkauft, weil dabei Gleitkommazahlen durch Integerwerte ersetzt werden. SINQ verspricht diese Probleme mit seiner Plug-and-Play-Lösung zu adressieren und hohe Performance auch mit verminderter Genauigkeit zu liefern, ohne dass die Kalibrierung des neuronalen Netzes nachjustiert werden müsste.

SINQ wurde in einem breiten Spektrum von Architekturen und Modellen evaluiert, darunter die Qwen3-Serie, LLaMA und DeepSeek. Bei Benchmarks wie WikiText2 und C4 erreichten die Modelle oft Leistungen, die an die unkomprimierter Modelle heranreichten. Dabei komprimiert SINQ die Modelle außerdem bedeutend schneller als es andere Methoden wie HQQ oder AWQ tun.

Huawei hat SINQ als Open-Source-Projekt unter einer unternehmensfreundlichen Apache-2.0-Lizenz auf GitHub veröffentlicht. Das Repository enthält Unterstützung für die Quantisierung von Hugging-Face-Modellen mit nur wenigen Zeilen Code sowie Tools zum Speichern und erneuten Laden von quantisierten Gewichten. Die Standardeinstellungen bieten ein Gleichgewicht zwischen Speicherplatzersparnis und Genauigkeit, und die Benutzer können Parameter wie Bitbreite, Kachelstrategie und Gruppengröße nach ihren Bedürfnissen anpassen. In naher Zukunft wollen die Autoren auch vorquantisierte Modelle auf dem Hugging Face Hub veröffentlichen.

SCHLAGWORTE
KI
Kompression
LLM

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung