Das französische KI-start-up Mistral hat mit Voxtral Transcribe 2 zwei neue KI-Modelle für die Übertragung von gesprochener Sprache in Text vorgestellt.
Voxtral Transcribe 2 kommt dabei in zwei Versionen: Voxtral Mini Transcribe V2 für die Stapelverarbeitung und Voxtral Realtime für Live-Anwendungen. Voxtral Realtime ist unter der Apache 2.0-Lizenz frei verfügbar. Beide Versionen bieten modernste Transkriptionen mit Sprechererkennung und Beachtung des Kontext in 13 Sprachen: Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.
Voxtral Realtime eigenet sich für Echtzeitanwendungen mit einer konfigurierbaren Latenz bis unter 200 Millisekunden. Anders als Konkurrenten verabeitet es Sprache nicht abschnittweise, sondern dank einer neuen Streamingtechnik im Fluss. Mit zwei Milliarden Parameter ist das Modell noch auf Edge-Geräten lauffähig, was es auch für besonders sicherheitsbedürftige Anwendungen geeignet macht.
Die Stapelverarbeitung mit Voxtral Mini Transcribe V2 erreicht dagegen die niedrigste Wortfehlerrate und den niedrigsten Preis. Bei einer durchschnittlichen Wortfehlerrate von vier Prozent kostet es nicht mehr als 0,003 Dollar pro Minute. Es übertrifft GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova in puncto Genauigkeit und verarbeitet Audio etwa dreimal schneller als ElevenLabs’ Scribe v2, wobei es bei einem Fünftel der Kosten die gleiche Qualität bietet.






