Mozilla bringt Common Voice Corpus 22.0

Mit dem Common Voice hat Mozilla im Jahr 2017 ein Projekt gestartet, aus dem inzwischen der größte freie Datensatz mit menschlichen Stimmen erwachsen ist. Common Voice Corpus 22.0 fügt weitere Daten hinzu.

Mit dem Common Voice hat Mozilla im Jahr 2017 ein Projekt gestartet, aus dem inzwischen der größte freie Datensatz mit menschlichen Stimmen erwachsen ist. Common Voice Corpus 22.0 fügt weitere Daten hinzu.

Im Common Voice Corpus 22.0 wächst etwa der deutschsprachige Datensatz auf nun 1476 Stunden in gesprochener Sprache an. Das entspricht einem Download von rund 33 GByte. Anwender, die bereits den Datensatz in Version 21 nutzen, können ein so genanntes DeltaSegment herunterladen. Damit landen nur die neu hinzugekommenen Daten auf dem Rechner. Im Fall des deutschsprachigen Datensatzes sind das dann rund 463 MByte.

Mozilla Common Voice will als Open-Source-Initiativ den Zugang zu Sprachtechnologie allgemein erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

Insgesamt deckt Mozilla Common Voice 137 Sprachen mit insgesamt 33.816 Stunden gesprochenen Daten ab.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben