Offener Podcast-Generator von Meta

(C) DeshaCAM, Fotolia

KI erzeugt Audio-Dialoge aus Text.(C) DeshaCAM, Fotolia

Nachdem Google im September viel Aufmerksamkeit mit einer neuen Funktion seines KI-Notiz- und Rechercheassistenten NotebookLM auf sich zog, die aus einem PDF mit Neuigkeiten einen Audio-Podcast mit verteilten Sprecherrollen erzeugen kann, zog Meta nun nach und offeriert Vergleichbares in einer offenen Version.

Das Tool nennt sich in Anlehnung an das Original NotebookLlama und basiert auf einem Sprachmodell der Llama-Familie. Man kann ihm ebenfalls einen Sachbericht, einen Blog Post oder eine Nachricht in Form eines PDF vorgeben und es verwandelt die Daten in eine Podcast-Sequenz. Dabei fertigt es zunächst ein Transkript an, dass die Fakten mit dramaturgischen Mitteln in einen Dialog verwandelt und übergibt das Ergebnis dann einem Text-to-Speech-Modell, das daraus ein Audio-File erzeugt.

Metas Tool kommt noch nicht ganz an die Qualität des Originals von Google heran – die Stimmen klingen noch roboterhafter und sie fallen sich manchmal auch an unpassenden Stellen ins Wort – aber diese Nachteile, meinen Forscher bei Meta, ließen sich mit besseren Sprachmodellen beheben. Außerdem könne zukünftig man statt eines einzelnen Modells, wie es derzeit benutzt wird, auch mit zwei Modellen arbeiten, die miteinander debattieren und so den Podcast-Entwurf erzeugen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben