Neuartige Foundation Modelle punkten mit Effizienz

- 24. Oktober 2024

Biologische Neuronen-Netze des Nervensystems sind die Vorbilder der neuronalen Netze der IT. (C) ssilver/123rf.com

Ein wesentlich kleinerer Speicherfußabdruck, geringerer Bedarf an Trainingsdaten, reduzierte Ansprüche an die Hardware, dabei aber eine mindestens konkurrenzfähige Performance und eine bessere Erklärbarkeit – das sind die Vorteile neuartiger, smarter Foundation-Modelle, die Liqiuid AI, eine Ausgründung des MIT mit Sitz in Boston, nun vorgestellt hat.

Während bisherige Transformer-Modelle (wie ChatGPT von OpenAI oder Llama von Meta) hauptsächlich durch noch mehr Daten, noch mehr Parameter und damit einen noch höheren Speicherverbrauch skalieren, erreichen die neuen Modelle eine ebenso gute oder bessere Performance durch eine effektivere Verarbeitung der Daten. Das kann einige der bekannten Probleme lindern, angefangen bei ungenügender Verfügbarkeit freier Trainingsdaten bis zu ungeheuren Energie- und Wasserverbräuchen für die Rechenzentren mit entsprechender Umweltbelastung. Außerdem lassen sich herkömmliche Modelle nur schwer auf ressourcenbeschränkter Hardware betreiben, etwa beim Edge Computing, oder ohne Verbindung zu einer Cloud. Noch hinzukommt, dass die neuen Modelle einen höheren Grad an Erklärbarkeit aufweisen und dank einer speziellen Funktion erläutern können, wie jedes Token der Ausgabe zustande gekommen ist.

Zunächst wurden drei Versionen des Liquid Foundation Model (LFM) für Sprachverarbeitung vorgestellt: 1.3B für sehr ressourcenbeschränkte Anwendungen (es läuft bereits auf einem Raspberry Pi), 3.1B für Anwendungen im Edge Computing (hier reicht ein IPhone zum Betrieb) und das High-End-Modell 40.3B für die Abarbeitung komplexerer Aufgaben (das B zeigt jeweils die Anzahl Parameter in Milliarden an). Das Spektrum der Foundation Modelle ist allerdings wesentlich breiter: Sie können die Sprache der Biologie erlernen und neue Proteine entwickeln, sie können sich auf Transaktionen spezialisieren und beispielsweise in der Finanzwelt betrügerische Vorgänge erkennen, sie können physikalische Zusammenhänge erfassen und steuern, etwa beim autonomen Fahren, oder sie können mit Video- und Audiosignalen umgehen.

Schon das kleinste der Sprachmodelle, soll einen neuen Maßstab in seiner Größenkategorie setzen, indem es die erste Nicht-GPT-Architektur ist, die Transformer-basierte Modelle ähnlicher Größe in verschiedenen öffentlichen Benchmarks deutlich übertrifft. Verglichen wurde dieses Modell etwa mit Llama 3.2 1.2B von Meta, Phi 1.5 von Microsoft oder StableLM2 2.6B von Stability AI. Genutzt wurden Benchmarks wie MMLU (Measuring Massive Multitask Language Understanding) mit 16 000 Multiple-Choice-Fragen aus 57 Wissensgebieten wie Mathematik, Philosophie, Recht und Medizin oder HellaSwag mit rund 70 000 Fortsetzungsaufgaben, bei denen die KI Sachverhalte, die mit wenigen Sätzen beschrieben wurden, fortsetzen muss, indem sie zwischen vier vorgegebenen Antworten beziehungsweise Fortsetzungen jeweils die richtige auswählt. Auch GSM8K kam zum Einsatz, dieser Benchmark umfasst 1319 mathematische Grundschulaufgaben, die in 2 bis 8 Schritten lösbar sind und elementare arithmetische Operationen beinhalten. Die Ergebnisse stammen alle vom Hersteller und müssten daher von neutraler, dritter Seite noch bestätigt werden, sie liegen aber durchweg deutlich über denen der Konkurrenz.

Zu den jetzt neu vorgestellten Produkten zählt auch eine Entwicklungsumgebung (DevKit), die durch Abstraktion einen großen Teil der Komplexität vor dem Programmierer verbergen kann. Er arbeitet stattdessen mit vorgefertigten Operationen oder Blöcken von Operationen beziehungsweise ganzen Backbones (Kombinationen von Blöcken). Werden Anwendungen durch Hinzufügen von Ressourcen skaliert, kümmert sich die Software auch um die Lastverteilung.

Wodurch gelang Liquid AI dieser Fortschritt? Das Unternehmen selbst gibt an, ihre Technik sei “tief verankert in der Theorie dynamischer Systeme, Signalverarbeitung und linearer numerischer Algebra”. Man wolle zum Fortschritt im Bereich der KI beitragen, indem man seine Ergebnisse und Methoden in wissenschaftlichen und technischen Berichten offen veröffentliche. Da man aber viel Zeit und Ressourcen in die Entwicklung dieser Architekturen gesteckt habe, plane man im Moment nicht, die Modelle als Open Source anzubieten. “Auf diese Weise können wir weiter auf unseren Fortschritten aufbauen und unseren Vorsprung in der wettbewerbsorientierten KI-Landschaft wahren.”

Chinesisches Spitzenmodell braucht keine GPUs und wird Open Source

Auf OpenRouter, einer Plattform, die über eine einheitliche API Zugriff auf Dutzende Sprachmodelle erlaubt, rangierte in den letzten Wochen das anonyme Modell Owl Alpha in den Nutzungsstatistiken auf vorderen Plätzen. Jetzt wurde bekannt, das dahinter das Modell LongCat-2.0 des chinesischen...

Mageia 10 mit Linux-Kernel 6.18 und aktueller Desktop-Software

Die Mageia-Gemeinschaft hat Version 10 ihrer Linux-Distribution veröffentlicht. Rund drei Jahre nach dem Erscheinen der Version 9 des Mandriva-Nachfolgers.

Google Meet protokolliert in Meetings mit

Google Nutzer mit KI Pro- und Ultra-Abos brauchen in Meetings ab sofort keinen Schriftführer mehr: Google Meet transkribiert die Diskussion selbstständig und fasst die wichtigsten Maßnahmen per E-Mail und in einem Google-Doc-File zusammen, dass den Teilnehmern anschließend automatisch zugestellt...

Universität Paderborn erweitert Supercomputer „Otus“

Die Universität Paderborn baut ihren Hochleistungsrechner „Otus“ aus. Wie die Hochschule mitteilt, stehen dafür mehr als zwölf Millionen Euro aus Landes- und Bundesmitteln zur Verfügung.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...