Common Voice Corpus wächst weiter

Mozilla hat den Common Voice Corpus 20.0 veröffentlicht. Der deutschsprachige Datensatz ist dort mit 1443 erfassten Stunden dabei. Quelle: Mozilla

Quelle: Mozilla

Mozilla hat den Common Voice Corpus 20.0 veröffentlicht. Der deutschsprachige Datensatz ist dort mit 1443 erfassten Stunden dabei.

Wer bereits einen Datensatz heruntergeladen hat, kann statt dem kompletten Common Voice Corpus 20.0 mit rund 34 GByte auch das Delta Segment herunterladen. Dieses Segment bringt nur die Unterschiede zur Vorversion mit und ist in Version 20.0 rund 138 Mbyte groß.

Mit dieser Veröffentlichung werden laut Mozilla die Sprachen Aragonesisch, IsiNdebele (manchmal auch als Süd-Ndebele bekannt), Süd-Sotho und Tupuri zum ersten Mal in den Datensatz aufgenommen. Die engagierten Sprachaktivisten, Übersetzer und Mitwirkenden für diese neuen Sprachen haben großartige Arbeit geleistet und offene Sprachdaten für ihre Sprachen erstellt, auf denen jeder aufbauen kann, schreibt Mozilla. Mit diesen neuen Sprachen erhöht sich die Gesamtzahl der Sprachen im Common Voice Scripted Speech-Datensatz auf insgesamt 133. Rund 566 neue Sprachstunden und 515 neu validierte Sprachstunden sind hinzugekommen.

Damit steigt die Gesamtzahl der verfügbaren Sprachdaten im Common Voice-Datensatz auf 33.150 Stunden. Bei 22.108 Stunden wurde die Qualitätssicherung („Validierung“) durch die Community durchgeführt.

Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben