YuE: Open-Source-KI erzeugt Musik aus Songtexten

YuE-Logo

YuE-Logo

Chinesische und amerikanische Forscher haben ein KI-Modell entwickelt, das zu einem vorgegebenen Liedtext einen passenden Song erzeugt. Das komplette Modell haben sie zudem unter der liberalen Apache 2.0-Lizenz veröffentlicht.

Das YuE getaufte Modell erzeugt komplette Lieder, die auch den Gesang enthalten und mehrere Minuten laufen („lyrics2song“). Letzteres ist ein kleiner Sprung nach vor: Bisherige quelloffene Modelle zur KI-Erzeugung konnten in hoher Qualität nur kurze Musikpassagen generieren. Längere Lieder waren kommerziellen Modellen vorbehalten. Bei YuE ist allerdings ebenfalls nach fünf Minuten Schluss. Das Modell stellt sich immerhin auf verschiedene Genres, Sprachen und Gesangstechniken ein.

In Praxis …

Die Forscher haben mehrere Beispiellieder veröffentlicht, die man sich direkt im Browser anhören kann. Die Songs klingen dabei erstaunlich gut, haben aber allesamt einen elektronischen Einschlag. Besonders deutlich wird dies bei einem Heavy-Metal-Lied, bei dem die Gitarren nur an solche erinnern.

Wer die KI selbst auf einen Text loslassen möchte, braucht einen potenten Rechenbeschleuniger von Nvidia, wie etwa eine Karte mit H800 GPU. Einen kompletten Song in voller Qualität erhält man zudem nur, wenn der GPU mindestens 80 GByte Hauptspeicher zur Seite stehen. Mit teilweise deutlichen Einbußen läuft das Modell aber auch auf Grafikkarten mit weniger Speicher.

Dazu stellen die Entwickler YuE in verschiedenen Größen bereit. Derzeit existiert eine Fassung mit 7 und eine weitere mit „nur“ 1 Milliarde Parametern. Darüber hinaus gibt es für die unterstützten Sprachen Englisch, Chinesisch sowie Japanisch und Koreanisch jeweils eigene Modell. In jedem Fall verlangt die Inbetriebnahme die Frameworks PyTorch und CUDA. Schnellstartanleitungen stehen auf der GitHub-Seite und in Form eines Videos bereit.

… und Theorie

Die Musikerzeugung gilt als eine der schwierigeren Herausforderungen in der künstlichen Intelligenz: Musik hat eine komplexe Struktur, wobei die Modelle auch noch mehrere gleichzeitig spielende Instrumente und den darauf abgestimmten Gesang erzeugen müssen. Die YuE-Entwickler nutzten daher beim Training ein 3-stufiges Schema, das sie auf einer eigenen Webseite anschaulich vorstellen. Dabei kam ein semantisch erweiterter Audio-Tokenizer zum Einsatz, was unter anderem die Trainingskosten reduzierte. Eine Lyrics-Chain-Of-Thoughts genannte Technik soll zudem dem Modell erlauben, den kompletten Song stufenweise in einem Kontext anhand des Liedtextes erzeugt. Das komplette Modell setzt dabei auf der Llama-Architektur auf, die auch viele andere Modelle nutzen.

YuE entstand in Kooperation zwischen Forschern der Hong Kong University of Science and Technology (HKUST) und dem Forschungsverbund Multimodal Art Projection (M-A-P). In letztgenanntem haben sich Forscher zusammengeschlossen, die an verschiedenen Open-Source-Modellen arbeiten. Das chinesische Wort YuE soll sowohl für „Musik“ als auch „Fröhlichkeit“ stehen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben