Neuartige Foundation Modelle punkten mit Effizienz

Neuronen, (C) ssilver/123rf.com

Biologische Neuronen-Netze des Nervensystems sind die Vorbilder der neuronalen Netze der IT. (C) ssilver/123rf.com

Ein wesentlich kleinerer Speicherfußabdruck, geringerer Bedarf an Trainingsdaten, reduzierte Ansprüche an die Hardware, dabei aber eine mindestens konkurrenzfähige Performance und eine bessere Erklärbarkeit – das sind die Vorteile neuartiger, smarter Foundation-Modelle, die Liqiuid AI, eine Ausgründung des MIT mit Sitz in Boston, nun vorgestellt hat.

Während bisherige Transformer-Modelle (wie ChatGPT von OpenAI oder Llama von Meta) hauptsächlich durch noch mehr Daten, noch mehr Parameter und damit einen noch höheren Speicherverbrauch skalieren, erreichen die neuen Modelle eine ebenso gute oder bessere Performance durch eine effektivere Verarbeitung der Daten. Das kann einige der bekannten Probleme lindern, angefangen bei ungenügender Verfügbarkeit freier Trainingsdaten bis zu ungeheuren Energie- und Wasserverbräuchen für die Rechenzentren mit entsprechender Umweltbelastung. Außerdem lassen sich herkömmliche Modelle nur schwer auf ressourcenbeschränkter Hardware betreiben, etwa beim Edge Computing, oder ohne Verbindung zu einer Cloud. Noch hinzukommt, dass die neuen Modelle einen höheren Grad an Erklärbarkeit aufweisen und dank einer speziellen Funktion erläutern können, wie jedes Token der Ausgabe zustande gekommen ist.

Zunächst wurden drei Versionen des Liquid Foundation Model (LFM) für Sprachverarbeitung vorgestellt: 1.3B für sehr ressourcenbeschränkte Anwendungen (es läuft bereits auf einem Raspberry Pi), 3.1B für Anwendungen im Edge Computing (hier reicht ein IPhone zum Betrieb) und das High-End-Modell 40.3B für die Abarbeitung komplexerer Aufgaben (das B zeigt jeweils die Anzahl Parameter in Milliarden an). Das Spektrum der Foundation Modelle ist allerdings wesentlich breiter: Sie können die Sprache der Biologie erlernen und neue Proteine entwickeln, sie können sich auf Transaktionen spezialisieren und beispielsweise in der Finanzwelt betrügerische Vorgänge erkennen, sie können physikalische Zusammenhänge erfassen und steuern, etwa beim autonomen Fahren, oder sie können mit Video- und Audiosignalen umgehen.

Schon das kleinste der Sprachmodelle, soll einen neuen Maßstab in seiner Größenkategorie setzen, indem es die erste Nicht-GPT-Architektur ist, die Transformer-basierte Modelle ähnlicher Größe in verschiedenen öffentlichen Benchmarks deutlich übertrifft. Verglichen wurde dieses Modell etwa mit Llama 3.2 1.2B von Meta, Phi 1.5 von Microsoft oder StableLM2 2.6B von Stability AI. Genutzt wurden Benchmarks wie MMLU (Measuring Massive Multitask Language Understanding) mit 16 000 Multiple-Choice-Fragen aus 57 Wissensgebieten wie Mathematik, Philosophie, Recht und Medizin oder HellaSwag mit rund 70 000 Fortsetzungsaufgaben, bei denen die KI Sachverhalte, die mit wenigen Sätzen beschrieben wurden, fortsetzen muss, indem sie zwischen vier vorgegebenen Antworten beziehungsweise Fortsetzungen jeweils die richtige auswählt. Auch GSM8K kam zum Einsatz, dieser Benchmark umfasst 1319 mathematische Grundschulaufgaben, die in 2 bis 8 Schritten lösbar sind und elementare arithmetische Operationen beinhalten. Die Ergebnisse stammen alle vom Hersteller und müssten daher von neutraler, dritter Seite noch bestätigt werden, sie liegen aber durchweg deutlich über denen der Konkurrenz.

Zu den jetzt neu vorgestellten Produkten zählt auch eine Entwicklungsumgebung (DevKit), die durch Abstraktion einen großen Teil der Komplexität vor dem Programmierer verbergen kann. Er arbeitet stattdessen mit vorgefertigten Operationen oder Blöcken von Operationen beziehungsweise ganzen Backbones (Kombinationen von Blöcken). Werden Anwendungen durch Hinzufügen von Ressourcen skaliert, kümmert sich die Software auch um die Lastverteilung.

Wodurch gelang Liquid AI dieser Fortschritt? Das Unternehmen selbst gibt an, ihre Technik sei “tief verankert in der Theorie dynamischer Systeme, Signalverarbeitung und linearer numerischer Algebra”. Man wolle zum Fortschritt im Bereich der KI beitragen, indem man seine Ergebnisse und Methoden in wissenschaftlichen und technischen Berichten offen veröffentliche. Da man aber viel Zeit und Ressourcen in die Entwicklung dieser Architekturen gesteckt habe, plane man im Moment nicht, die Modelle als Open Source anzubieten. “Auf diese Weise können wir weiter auf unseren Fortschritten aufbauen und unseren Vorsprung in der wettbewerbsorientierten KI-Landschaft wahren.”

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben