Laion: Riesiges Sprachmodell für Deutsch trainiert

Die KI-Forschungsgruppe Laion hat das freie Llama-Modell für Deutsch angepasst. Das soll vor allem die englischsprachige Dominanz brechen.

Zahlreiche große Sprachemodelle (LLMs) wie etwa GPT-4 oder das intern von Google eingesetzte Palm sind zwar mehrsprachig, offene und frei verfügbare Sprachmodelle sind in den allermeisten Fällen jedoch ausschließlich in Englisch verfügbar. Die in Deutschland initiierte offene KI-Forschungsgruppe Laion setzt dem mit LeoLM (Linguistically Enhanced Open Language Model) nun ein deutschsprachiges Modell entgegen.

Das Modell basiert auf dem frei verfügbaren Llama-2-Modell und ist derzeit mit 7 oder 13 Milliarden Parametern nutzbar. Diese Größen dürften sich dank einiger Optimierungen dafür eignen, auch auf heimischen Rechnern und Grafikkarten ausgeführt zu werden, statt ausschließlich im Rechenzentrum. Darüber hinaus heißt es in der Ankündigung, dass ein Modell mit 70 Milliarden Parametern bereits in Arbeit sei. Trainiert wird das Modell mit Unterstützung von HessianAI, einem Forschungsverbund mehrerer hessischer Universitäten, und dessen Supercomputer 42, der mehr als 600 Nvidia A100 Karten nutzt.

Als Grund für die Arbeiten nennen die Beteiligten, dass die Qualität von Llama 2 inzwischen zwar an kommerzielle und proprietäre Modelle heranreiche. Da das Training dafür aber hauptsächlich mit englischsprachigen Daten durchgeführt worden sei, enthalte das Modell zahlreiche Verzerrungen, die etwa auf die US-Kultur oder die Sprache selbst zurückzuführen seien. “Wir versuchen, diese Probleme in der Fallstudie für deutsche Sprache zu lindern, indem wir viele der modernen Techniken anwenden, um ein wirklich fähiges, lokalisiertes und zweisprachiges LLM zu entwickeln”, schreibt Laion dazu.

Das Team passt Llama für Deutsch mit einer zweiten sogenannten Pre-Training-Phase an. Dabei wird das bestehende Llama-Modell auf Grundlage eines weiteren deutschen Text-Korpus weiter trainiert. Dazu wird Oscar genutzt. Zum Überprüfen der Ergebnisse des so trainierten Modells haben die Beteiligten darüber hinaus bisher nur in Englisch verfügbare Benchmarks ins Deutsche übersetzt. Wie zu erwarten liefert LeoLM dabei dann auf Deutsch leicht bessere Ergebnisse, schneidet aber auf Englisch leicht schlechter ab als Llama 2. Dabei seien die Vorteile durch die Verbesserungen für Deutsch aber deutlich wichtiger als die leichten Verschlechterungen für Englisch, was zeige, dass auch bereits gelernte Inhalte mit der genutzten Vorgehensweise erhalten bleiben können.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben