Laion: Riesiges Sprachmodell für Deutsch trainiert

- 04. Oktober 2023

Die KI-Forschungsgruppe Laion hat das freie Llama-Modell für Deutsch angepasst. Das soll vor allem die englischsprachige Dominanz brechen.

Zahlreiche große Sprachemodelle (LLMs) wie etwa GPT-4 oder das intern von Google eingesetzte Palm sind zwar mehrsprachig, offene und frei verfügbare Sprachmodelle sind in den allermeisten Fällen jedoch ausschließlich in Englisch verfügbar. Die in Deutschland initiierte offene KI-Forschungsgruppe Laion setzt dem mit LeoLM (Linguistically Enhanced Open Language Model) nun ein deutschsprachiges Modell entgegen.

Das Modell basiert auf dem frei verfügbaren Llama-2-Modell und ist derzeit mit 7 oder 13 Milliarden Parametern nutzbar. Diese Größen dürften sich dank einiger Optimierungen dafür eignen, auch auf heimischen Rechnern und Grafikkarten ausgeführt zu werden, statt ausschließlich im Rechenzentrum. Darüber hinaus heißt es in der Ankündigung, dass ein Modell mit 70 Milliarden Parametern bereits in Arbeit sei. Trainiert wird das Modell mit Unterstützung von HessianAI, einem Forschungsverbund mehrerer hessischer Universitäten, und dessen Supercomputer 42, der mehr als 600 Nvidia A100 Karten nutzt.

Als Grund für die Arbeiten nennen die Beteiligten, dass die Qualität von Llama 2 inzwischen zwar an kommerzielle und proprietäre Modelle heranreiche. Da das Training dafür aber hauptsächlich mit englischsprachigen Daten durchgeführt worden sei, enthalte das Modell zahlreiche Verzerrungen, die etwa auf die US-Kultur oder die Sprache selbst zurückzuführen seien. “Wir versuchen, diese Probleme in der Fallstudie für deutsche Sprache zu lindern, indem wir viele der modernen Techniken anwenden, um ein wirklich fähiges, lokalisiertes und zweisprachiges LLM zu entwickeln”, schreibt Laion dazu.

Das Team passt Llama für Deutsch mit einer zweiten sogenannten Pre-Training-Phase an. Dabei wird das bestehende Llama-Modell auf Grundlage eines weiteren deutschen Text-Korpus weiter trainiert. Dazu wird Oscar genutzt. Zum Überprüfen der Ergebnisse des so trainierten Modells haben die Beteiligten darüber hinaus bisher nur in Englisch verfügbare Benchmarks ins Deutsche übersetzt. Wie zu erwarten liefert LeoLM dabei dann auf Deutsch leicht bessere Ergebnisse, schneidet aber auf Englisch leicht schlechter ab als Llama 2. Dabei seien die Vorteile durch die Verbesserungen für Deutsch aber deutlich wichtiger als die leichten Verschlechterungen für Englisch, was zeige, dass auch bereits gelernte Inhalte mit der genutzten Vorgehensweise erhalten bleiben können.

SCHLAGWORTE
LLama
LLM

Weltklassemodell aus China vorgestellt

Das chinesische Start-up Moonshot hat mit Kimi K3 ein neues Modell mit 2,8 Billionen Parametern vorgestellt, das auch in unabhängigen Tests mit den besten Modellen von OpenAI oder Anthropic mithalten kann. Damit schließt das Modell die Lücke, die bisher noch zwischen den amerikanischen...

Forgejo 16.0 ist da

Die neue Version 16.0 des leichtgewichtigen Tools für Code-Hosting und -Kollaboration ist am 16. Juli 2026 erschienen.

Klarstellung: Linus Torvalds erlaubt KI bei Kernel-Entwicklung

Der Einsatz von Künstlicher Intelligenz ist bei der Kernel-Entwicklung explizit erlaubt – das Linus Torvalds im Rahmen einer Diskussion noch einmal klargestellt. Für KI-Kritiker findet er darin zudem drastische Worte.

frame: vollständig in Assembler geschriebener X-Server

Der Norweger Geir Isene hat einen X-Server komplett in Assembler geschrieben. Der soll nicht nur deutlich ressourcenschonender arbeiten als das Pendant von X.org, er besteht derzeit auch nur aus rund 20.000 Zeilen Code. Es gibt aber auch ein paar Haken.

OpenShift 4.22 bringt Updates für Sicherheit, Virtualisierung und KI

Red Hat hat die Version 4.22 seiner Plattform OpenShift veröffentlicht. Das Update bringt Neuerungen für die Sicherheit, die Verwaltung virtueller Maschinen, die Automatisierung von Cloud-Infrastrukturen und den Betrieb von Anwendungen mit Künstlicher Intelligenz.

FrOSCon 2026: Programm steht fest

Die diesjährige FrOSCon findet am 15. und 16. August statt.

Die Free and Open Source Software Conference findet am 15. und 16. August 2026 an der Hochschule Bonn-Rhein-Sieg in Sankt Augustin statt. Der Eintritt ist frei.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung