Mozillas Common Voice Corpus 18.0 ist da

Mozilla bietet mit Common Voice Corpus einen großen Datensatz mit menschlichen Stimmen an, mit dem sich Spracherkennungssoftware trainieren lässt. Mit Version 18 ist der freie und kostenlos nutzbare Common Voice Corpus nochmal gewachsen.

Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

Der deutsche Datensatz ist mit Version 18 auf über 33,5 GByte angewachsen. Er umfasst 1431 Stunden Sprachdateien mit 19.1467 verschiedenen Stimmen.  Mozilla bietet über das Common Voice Projekt auch sogenannte Delta-Segmente zum Download an. Diese enthalten dann nur die neu hinzugekommenen Daten im Vergleich zur Vorversion. Mozilla erläutert das Prozedere der Delta-Versionen hier ausführlich.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben