Einzelne Parameter können ein LLM zerstören

- 26. August 2025

Forscher von Apple haben herausgefunden, dass einzelne unter den Milliarden Parametern eines LLM, sogenannte Super Weights, die Sprachfähigkeit des Modells entscheidend beeinflussen oder sogar zerstören können.

Im Extremfall reicht ein einzelner Wert, der, wenn er geändert oder gelöscht wird, darüber entscheidet, ob das Modell noch sinnvollen Text produzieren kann. Diese Beobachtung ist besonders relevant für die Kompression von Sprachmodellen. Eine solche Kompression wiederum ist nötig, wenn die Modelle auf Hardware mit beschränkten Ressourcen laufen sollen, etwa auf einem Mobiltelefon. Ein Modell in Originalgröße mit Milliarden Parametern ist dort nicht ausführbar. Durch Komprimierung sinkt aber auch der Speicher- und Strombedarf der Modelle und so lassen sie sich lokal ausführen. Allerdings würde eine naive Kompression die Leistungsfähigkeit drastisch beeinträchtigen, oder, wie beim Wegfall eines Super Weights, ganz zunichte machen.

Die Forscher gingen auch der Frage nach, wie ein solches Super Weight gefunden werden kann. Die Antwort: Es ist an außergewöhnlichen Spitzen in der Aktivierung der Neurone erkennbar, die unabhängig vom Input auftreten und sich über viele Netzwerkschichten fortpflanzen.

Die Entdeckung von Supergewichten und Superaktivierungen kann zu Verbesserungen bei der LLM-Komprimierung und zu einem breiteren Verständnis dieser Modelle in diesem Bereich führen. Der große Einfluss dieser wenigen Parameter legt nahe, dass ihre Erhaltung bei LLM-Kompressionstechniken entscheidend ist. Durch die Beibehaltung des Supergewichts bei gleichzeitigem Ausschneiden anderer Gewichtsausreißer kann die einfache Round-to-Nearest-Quantisierung selbst bei viel größeren Blockgrößen als bisher für möglich gehalten effektiv sein, was zu besseren Kompressionsraten führt.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung