Aus Linux-Magazin 01/2025

Editorial

Immer mehr Parameter, mehr Trainingsdaten, mehr Rechenleistung war lange die Parole für neue KI-Modelle. Das kann freilich nicht unbegrenzt so weitergehen. Also suchen Forscher nach einem Ausweg.

Größer ist besser. Diese These in Bezug auf KI-Modelle kommt nicht von ungefähr. Empirische Studien [1] haben gezeigt, dass speziell die Leistung von Transformer-Modellen, den heute gebräuchlichsten Sprachmodellen, die sich verschiedenen Satzbestandteilen mit abgestimmter Aufmerksamkeit zuwenden können, hauptsächlich von drei Dingen abhängt: der Anzahl an Parametern, der Größe des Datensets für das Training und der verfügbaren Rechenleistung. Auch die Robustheit soll mit der Parameteranzahl steigen, und manche Fähigkeiten entwickeln nur sehr große Modelle.

Welchen Einfluss die jeweiligen Faktoren haben, wird kontrovers diskutiert. Teilweise erreichten auch Modelle mit relativ wenigen Parametern mit größeren Modellen vergleichbare Ergebnisse, wenn sie mit exorbitant riesigen Datensätzen trainiert wurden. So soll Llama von Meta mit nur 13 Milliarden Parametern GPT-3 (175 Milliarden Parameter) übertroffen haben, nachdem es mit 1,4 Billionen Token trainiert wurde. Jedenfalls wuchs die Größe der Modelle in den letzten Jahren exponentiell. Das größte Modell der PaLM-Familie von Google arbeitet beispielsweise mit 540 Milliarden Parametern, für GPT-4 von OpenAI gibt es keine offizielle Zahl, Schätzungen liegen aber durchweg im Billionen-Parameter-Bereich.

Diese Entwicklung stößt nun allerdings an Grenzen. Der größte Teil aller öffentlich verfügbarer, von Menschen verfasster Texte wird schon im Jahr 2028 in einem Trainingslauf verwendet werden – schätzt das Forschungsinstitut Epoch AI [2]. Danach gibt es keine neuen, nicht synthetischen Trainingstexte mehr. Gleichzeitig erhöht sich die benutzte Rechenleistung um mehr als das Vierfache pro Jahr gegenüber den 2010er-Jahren. Und in Zusammenhang damit steigen die Trainingskosten um das Zweieinhalbfache pro Jahr. Ebenfalls in Zusammenhang mit der Rechenleistung explodieren Strom- und Wasserverbräuche der Rechenzentren und in der Folge die Kosten für die Umwelt. Das Training des erwähnten PaLM-Modells von Google hat beispielsweise binnen zweier Monate so viel Strom verbraucht wie 300 US-Haushalte jährlich. All das kann offensichtlich nicht endlos so weitergehen.

Deswegen suchen Forscher bereits seit einiger Zeit in verschiedenen Richtungen nach einem Ausweg. Ein Ansatzpunkt ist die Datenqualität: Wenn einem Modell schon bald jeder von Menschen verfasste Satz zu Trainingszwecken verfüttert wird, konsumiert es augenscheinlich auch eine Menge Müll. Deshalb fokussieren sich Forscher des Allen Institute for Artificial Intelligence (Ai2) bei ihrer multimodalen Modellfamilie namens Molmo [3] ganz auf die Qualität der Daten und brauchen infolgedessen tausendmal weniger davon.

Vielleicht muss man aber auch die Architektur der neuronalen Netze weiter überdenken. Das Startup Liquid AI [4] versucht das mit Elementen aus der Theorie dynamischer Systeme, Signalverarbeitung sowie linearer numerischer Algebra und will damit größere Modelle in diversen Benchmarks übertreffen. Die Integration externer Wissensquellen ist ebenfalls ein Weg, womöglich auch in Gestalt spezialisierter Agenten, die dann zusammenarbeiten. Zudem wäre es möglich, dass man sich noch stärker an der Biologie orientieren muss und Rückkopplungen braucht, über die heutige Transformer-Modelle nicht verfügen und bei denen der Datenfluss ausschließlich eine Richtung kennt (Feed-Forward-Netze). Oder es sind Modelle nötig, di, wie in der Natur nicht dauerhaft überall aktiv sind. Ingenieure von BitEnergy AI wollen schließlich bis zu 95 Prozent der Energie damit einsparen, dass sie Integer- statt Floating-Point-Operationen verwenden. Das ist enorm, wenn auch noch weit hinter dem biologischen Vorbild: Das menschliche Gehirn kommt immerhin mit einem winzigen Bruchteil der Energie eines KI-Modells aus (20 bis 50 Watt), ist um viele Größenordnungen kleiner und braucht außerdem keine millionenfache Wiederholung für eine einfache Aufgabe.

Worin auch immer die Lösung besteht: Ein einfaches Hau-drauf mit immer mehr vom selben wird nicht die Zukunft sein. Es bleibt spannend.

Jens-Christoph Brendel

Stellv. Chefredakteur

Infos

Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361
Epoch AI: https://epochai.org/trends
Molmo: https://molmo.org/de
Liquid AI: https://www.liquid.ai

SCHLAGWORTE
AI
KI
Linux

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF	Umfang: 1 Heftseite	Preis €0,99 (inkl. 19% MwSt.)	Kasse

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE	Print-Ausgaben	Digitale Ausgaben
ABONNEMENTS	Print-Abos	Digitales Abo
TABLET & SMARTPHONE APPS

Editorial

Elon Musk tritt im Prozess gegen OpenAI als Altruist auf, der sich um eine gemeinnützige Firma betrogen sieht, die er einst mitgegründet hatte. Dabei weiß er, dass Geldverdienen unumgänglich ist. Wie aber das Gericht entscheiden wird, bleibt hoch spannend.

Einordnung der KI-Strategie von Ubuntu

Ubuntu ist nicht das einzige Projekt, das der Einsatz von KI umtreibt. Wir haben die Pläne der Distro unter die Lupe genommen.

Welche Neuerungen die SUSECON 2026 in Prag bringt

Niemand entkam auf der SUSECON den beiden Topthemen KI und digitale Souveränität – manch einer mag versucht gewesen sein, laut Bingo zu rufen. Doch abseits davon lässt sich vor allem bei SLE und MLM viel Positives berichten.

25 Jahre Vintage Computer Festival Europa

2026 feiert das Vintage Computer Festival Europa sein 25. Jubiläum. Veranstaltungen in Berlin, München und Zürich präsentieren historische Rechentechnik zum Bestaunen und Anfassen.

Notizen von der Stackconf 2026

Ein breites Themenspektrum, das viele Referenten in der Tiefe ausloteten. Das bildete die Mischung für eine gelungene Konferenz zu Fragen der Open-Source-Infrastruktur.

Open-Source-LLMs als Wettbewerbsvorteil: Kontrolle, Compliance und Kosten im Griff?

KI leistungsfähig einsetzen, ohne Kontrolle über Daten, Kosten und Compliance zu verlieren – ein aktuelles Spannungsfeld, in dem sich viele Unternehmen wiederfinden. Offene und selbstgehostete LLMs versprechen neue Spielräume, bringen aber auch eigene Entscheidungen mit sich.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen

Editorial

Verwandte Artikel

Editorial

Einordnung der KI-Strategie von Ubuntu

Welche Neuerungen die SUSECON 2026 in Prag bringt

25 Jahre Vintage Computer Festival Europa

Notizen von der Stackconf 2026

Open-Source-LLMs als Wettbewerbsvorteil: Kontrolle, Compliance und Kosten im Griff?

LMP003 Chemnitzer Linux-Tage 2026