FFmpeg transkribiert Audio mit lokaler Whisper-KI

Die kommende Version 8.0 des Multimedia-Frameworks FFmpeg schreibt auf Wunsch Audio-Material mit. Das gelingt über eine lokal auf dem System laufende Whisper-KI, FFmpeg zapft folglich keinen Cloud-Dienst an.

Voraussetzung ist die „whisper.cpp“-Bibliothek sowie das Whisper-Modell im GGML-Format.
Bei der Übersetzung von FFmpeg lässt sich die Unterstützung dann per „./configure –enable-whisper“ anknipsen. Die Transkription ist in FFmpeg als Filter implementiert. Dem teilt man den Pfad mit dem heruntergeladenen Whisper-Modell mit.

Die Sprache des Audio-Materials versucht FFmpeg automatisch zu erkennen, alternativ gibt man dem Framework die Sprache vor. Bei der Transkription spannt der Filter auf Wunsch die GPU beziehungsweise die Grafikkarte mit ein. Ebenfalls hinzuholen lässt sich eine Voice Activity Detection (VAD) Modelldatei, mit dem der Filter die Audio-Queue in passende Häppchen unterteilt.

Liefern kann der Filter die transkribierte Sprache als reinen Text, im Untertitelformat SRT oder verpackt im JSON-Format. FFmpeg 8.0 soll in den nächsten Tagen erscheinen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben