FFmpeg transkribiert Audio mit lokaler Whisper-KI

- 13. August 2025

Die kommende Version 8.0 des Multimedia-Frameworks FFmpeg schreibt auf Wunsch Audio-Material mit. Das gelingt über eine lokal auf dem System laufende Whisper-KI, FFmpeg zapft folglich keinen Cloud-Dienst an.

Voraussetzung ist die „whisper.cpp“-Bibliothek sowie das Whisper-Modell im GGML-Format.
Bei der Übersetzung von FFmpeg lässt sich die Unterstützung dann per „./configure –enable-whisper“ anknipsen. Die Transkription ist in FFmpeg als Filter implementiert. Dem teilt man den Pfad mit dem heruntergeladenen Whisper-Modell mit.

Die Sprache des Audio-Materials versucht FFmpeg automatisch zu erkennen, alternativ gibt man dem Framework die Sprache vor. Bei der Transkription spannt der Filter auf Wunsch die GPU beziehungsweise die Grafikkarte mit ein. Ebenfalls hinzuholen lässt sich eine Voice Activity Detection (VAD) Modelldatei, mit dem der Filter die Audio-Queue in passende Häppchen unterteilt.

Liefern kann der Filter die transkribierte Sprache als reinen Text, im Untertitelformat SRT oder verpackt im JSON-Format. FFmpeg 8.0 soll in den nächsten Tagen erscheinen.

SCHLAGWORTE
FFMPEG
KI
Whisper

Anthropic veröffentlich zwei neue Spitzenmodelle: Claude Fable 5 und Mythos 5

Anthropic hat zwei neue Spitzenmodelle vorgestellt Claude Fable 5 und Claude Mythos 5. Beide Modelle basieren auf derselben technischen Grundlage, wobei Fable 5, das Modell für die breite Öffentlichkeit, mit strengsten Sicherheitsvorkehrungen ausgeliefert wird, die einen Missbrauch verhindern...

Apples Siri-Update kommt vorerst nicht nach Europa

Gerade hat Apple bekanntgegeben, dass es seinen persönlichen Assistenten Siri mit KI-Funktionen aufwerten will, da ist auch klar: Europäer werden vorerst nichts davon haben.

Gemeinsam souverän: Nextcloud Hub 26 Spring und der Start von Euro-Office

Pünktlich zum zehnten Geburtstag erscheint Nextcloud Hub 26 Spring. Die Jubiläumsausgabe bringt mit Euro-Office eine zweite, in Europa entwickelte Office-Suite, ein neues Compliance-Werkzeug namens Governance und ein deutlich aufgeräumtes Bedienkonzept. Nextcloud wird zehn Jahre alt und...

Netflix-Synchronsprecher streiken gegen KI-Klausel

Viele bekannte Synchronsprecher, die Charakteren in beliebten Netflix-Serien ihre Stimme liehen, verweigern die Unterschrift unter neue Verträge, in denen sich Netflix das Recht einräumen lassen will, ohne besondere Vergütung mit den Stimmen eine KI zu trainieren.

SoftMaker startet Betatest für Office 2026

Der Anbieter Softmaker hat die öffentliche Betaphase von SoftMaker Office 2026 angekündigt. Nach Angaben des Nürnberger Softwareherstellers können Interessierte die Vorabversion bis zum 31. Juli 2026 kostenlos testen und Rückmeldungen geben.

Auch OpenAI macht Börsengang offiziell

OpenAI, das mit seinem Chatbot ChatGPT den Boom der künstlichen Intelligenz ausgelöst hat, hat am Montag vertraulich einen Börsengang beantragt und damit die Weichen für einen der größten Börsengänge an der Wall Street gestellt. Es folgt mit diesem Schritt dem Konkurrenten Anthropic und dem...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen