YuE: Open-Source-KI erzeugt Musik aus Songtexten

- 03. Februar 2025

YuE-Logo

Chinesische und amerikanische Forscher haben ein KI-Modell entwickelt, das zu einem vorgegebenen Liedtext einen passenden Song erzeugt. Das komplette Modell haben sie zudem unter der liberalen Apache 2.0-Lizenz veröffentlicht.

Das YuE getaufte Modell erzeugt komplette Lieder, die auch den Gesang enthalten und mehrere Minuten laufen („lyrics2song“). Letzteres ist ein kleiner Sprung nach vor: Bisherige quelloffene Modelle zur KI-Erzeugung konnten in hoher Qualität nur kurze Musikpassagen generieren. Längere Lieder waren kommerziellen Modellen vorbehalten. Bei YuE ist allerdings ebenfalls nach fünf Minuten Schluss. Das Modell stellt sich immerhin auf verschiedene Genres, Sprachen und Gesangstechniken ein.

In Praxis …

Die Forscher haben mehrere Beispiellieder veröffentlicht, die man sich direkt im Browser anhören kann. Die Songs klingen dabei erstaunlich gut, haben aber allesamt einen elektronischen Einschlag. Besonders deutlich wird dies bei einem Heavy-Metal-Lied, bei dem die Gitarren nur an solche erinnern.

Wer die KI selbst auf einen Text loslassen möchte, braucht einen potenten Rechenbeschleuniger von Nvidia, wie etwa eine Karte mit H800 GPU. Einen kompletten Song in voller Qualität erhält man zudem nur, wenn der GPU mindestens 80 GByte Hauptspeicher zur Seite stehen. Mit teilweise deutlichen Einbußen läuft das Modell aber auch auf Grafikkarten mit weniger Speicher.

Dazu stellen die Entwickler YuE in verschiedenen Größen bereit. Derzeit existiert eine Fassung mit 7 und eine weitere mit „nur“ 1 Milliarde Parametern. Darüber hinaus gibt es für die unterstützten Sprachen Englisch, Chinesisch sowie Japanisch und Koreanisch jeweils eigene Modell. In jedem Fall verlangt die Inbetriebnahme die Frameworks PyTorch und CUDA. Schnellstartanleitungen stehen auf der GitHub-Seite und in Form eines Videos bereit.

… und Theorie

Die Musikerzeugung gilt als eine der schwierigeren Herausforderungen in der künstlichen Intelligenz: Musik hat eine komplexe Struktur, wobei die Modelle auch noch mehrere gleichzeitig spielende Instrumente und den darauf abgestimmten Gesang erzeugen müssen. Die YuE-Entwickler nutzten daher beim Training ein 3-stufiges Schema, das sie auf einer eigenen Webseite anschaulich vorstellen. Dabei kam ein semantisch erweiterter Audio-Tokenizer zum Einsatz, was unter anderem die Trainingskosten reduzierte. Eine Lyrics-Chain-Of-Thoughts genannte Technik soll zudem dem Modell erlauben, den kompletten Song stufenweise in einem Kontext anhand des Liedtextes erzeugt. Das komplette Modell setzt dabei auf der Llama-Architektur auf, die auch viele andere Modelle nutzen.

YuE entstand in Kooperation zwischen Forschern der Hong Kong University of Science and Technology (HKUST) und dem Forschungsverbund Multimodal Art Projection (M-A-P). In letztgenanntem haben sich Forscher zusammengeschlossen, die an verschiedenen Open-Source-Modellen arbeiten. Das chinesische Wort YuE soll sowohl für „Musik“ als auch „Fröhlichkeit“ stehen.

SCHLAGWORTE
KI
YuE

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung