Immer mehr Parameter, mehr Trainingsdaten, mehr Rechenleistung war lange die Parole für neue KI-Modelle. Das kann freilich nicht unbegrenzt so weitergehen. Also suchen Forscher nach einem Ausweg.
Größer ist besser. Diese These in Bezug auf KI-Modelle kommt nicht von ungefähr. Empirische Studien [1] haben gezeigt, dass speziell die Leistung von Transformer-Modellen, den heute gebräuchlichsten Sprachmodellen, die sich verschiedenen Satzbestandteilen mit abgestimmter Aufmerksamkeit zuwenden können, hauptsächlich von drei Dingen abhängt: der Anzahl an Parametern, der Größe des Datensets für das Training und der verfügbaren Rechenleistung. Auch die Robustheit soll mit der Parameteranzahl steigen, und manche Fähigkeiten entwickeln nur sehr große Modelle.
Welchen Einfluss die jeweiligen Faktoren haben, wird kontrovers diskutiert. Teilweise erreichten auch Modelle mit relativ wenigen Parametern mit größeren Modellen vergleichbare Ergebnisse, wenn sie mit exorbitant riesigen Datensätzen trainiert wurden. So soll Llama von Meta mit nur 13 Milliarden Parametern GPT-3 (175 Milliarden Parameter) übertroffen haben, nachdem es mit 1,4 Billionen Token trainiert wurde. Jedenfalls wuchs die Größe der Modelle in den letzten Jahren exponentiell. Das größte Modell der PaLM-Familie von Google arbeitet beispielsweise mit 540 Milliarden Parametern, für GPT-4 von OpenAI gibt es keine offizielle Zahl, Schätzungen liegen aber durchweg im Billionen-Parameter-Bereich.
Diese Entwicklung stößt nun allerdings an Grenzen. Der größte Teil aller öffentlich verfügbarer, von Menschen verfasster Texte wird schon im Jahr 2028 in einem Trainingslauf verwendet werden – schätzt das Forschungsinstitut Epoch AI [2]. Danach gibt es keine neuen, nicht synthetischen Trainingstexte mehr. Gleichzeitig erhöht sich die benutzte Rechenleistung um mehr als das Vierfache pro Jahr gegenüber den 2010er-Jahren. Und in Zusammenhang damit steigen die Trainingskosten um das Zweieinhalbfache pro Jahr. Ebenfalls in Zusammenhang mit der Rechenleistung explodieren Strom- und Wasserverbräuche der Rechenzentren und in der Folge die Kosten für die Umwelt. Das Training des erwähnten PaLM-Modells von Google hat beispielsweise binnen zweier Monate so viel Strom verbraucht wie 300 US-Haushalte jährlich. All das kann offensichtlich nicht endlos so weitergehen.
Deswegen suchen Forscher bereits seit einiger Zeit in verschiedenen Richtungen nach einem Ausweg. Ein Ansatzpunkt ist die Datenqualität: Wenn einem Modell schon bald jeder von Menschen verfasste Satz zu Trainingszwecken verfüttert wird, konsumiert es augenscheinlich auch eine Menge Müll. Deshalb fokussieren sich Forscher des Allen Institute for Artificial Intelligence (Ai2) bei ihrer multimodalen Modellfamilie namens Molmo [3] ganz auf die Qualität der Daten und brauchen infolgedessen tausendmal weniger davon.
Vielleicht muss man aber auch die Architektur der neuronalen Netze weiter überdenken. Das Startup Liquid AI [4] versucht das mit Elementen aus der Theorie dynamischer Systeme, Signalverarbeitung sowie linearer numerischer Algebra und will damit größere Modelle in diversen Benchmarks übertreffen. Die Integration externer Wissensquellen ist ebenfalls ein Weg, womöglich auch in Gestalt spezialisierter Agenten, die dann zusammenarbeiten. Zudem wäre es möglich, dass man sich noch stärker an der Biologie orientieren muss und Rückkopplungen braucht, über die heutige Transformer-Modelle nicht verfügen und bei denen der Datenfluss ausschließlich eine Richtung kennt (Feed-Forward-Netze). Oder es sind Modelle nötig, di, wie in der Natur nicht dauerhaft überall aktiv sind. Ingenieure von BitEnergy AI wollen schließlich bis zu 95 Prozent der Energie damit einsparen, dass sie Integer- statt Floating-Point-Operationen verwenden. Das ist enorm, wenn auch noch weit hinter dem biologischen Vorbild: Das menschliche Gehirn kommt immerhin mit einem winzigen Bruchteil der Energie eines KI-Modells aus (20 bis 50 Watt), ist um viele Größenordnungen kleiner und braucht außerdem keine millionenfache Wiederholung für eine einfache Aufgabe.
Worin auch immer die Lösung besteht: Ein einfaches Hau-drauf mit immer mehr vom selben wird nicht die Zukunft sein. Es bleibt spannend.
Jens-Christoph Brendel
Stellv. Chefredakteur
Infos
- Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361
- Epoch AI: https://epochai.org/trends
- Molmo: https://molmo.org/de
- Liquid AI: https://www.liquid.ai







