NVIDIA veröffentlicht Spracherkennungsmodell als Open Source

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

NVIDIA, bekannt vor allem als Hardwarehersteller, der die für die KI-Beschleunigung so wichtigen GPUs liefert, arbeitet auch an der Software eigener KI-Modelle. Nun hat der Hersteller unter der Bezeichnung Parakeet-TDT-0.6B-v2 ein automatisches Spracherkennungsmodell veröffentlicht, das eine Stunde Audio-Material in einer Sekunde transkribieren können soll.

Vorgängerversionen des Modells kamen bereit im Januar 2024 auf den Markt, das jetzige Modell aber setzt sich an die Spitze des Hugging Face Open ASR Leaderboard mit einer Fehlerrate von nur 6,05 Prozent. Die unter der freien Lizenz Creative Commons CC-BY-4.0 veröffentlichte Software spielt damit in einer Liga mit proprietären Spracherkennungssystemen wie OpenAI’s GPT-4o-transcribe (Fehlerrate 2,46 Prozent für Englisch) oder ElevenLabs Scribe (3,3 Prozent).

Dabei legt es eine enorm hohe Geschwindigkeit an den Tag und kann eine Stunde Audiomaterial in nur einer Sekunde transkribieren. Damit steht es an der Spitze der von Hugging Face geführten Benchmarkliste.

Das Modell, das seit dem 1. Mai global verfügbar ist, zielt auf Forscher und Entwickler von Sprache-zu-Text-Systemen. Es unterstützt Interpunktion, Großschreibung und detaillierte Zeitstempel auf Wortebene und bietet damit ein komplettes Transkriptionspaket für eine breite Palette von Sprache-zu-Text-Anforderungen. Die Lizenz erlaubt auch kommerzielle Anwendungen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben