Mozilla bringt stark gewachsenen Common Voice Datensatz

Mit Common Voice 8 bringt Mozilla eine um 30 Prozent angewachsene Version seiner freien Sprachdatenbank heraus. Dies sei damit die bisher größte Version, die dank einer wachsenden, engagierten Gemeinschaft entstanden sei, teilt die Mozilla Foundation mit.

Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

In Common Voice 8 seien rund 18.000 Stunden und 13 Millionen Sprachclips enthalten, die von mehr als 200.000 Freiwilligen aus aller Welt beigesteuert wurden, so die Stiftung. Zu den neuen Sprachen zählen bei Common Voice nun Igbo, Marathi, Dänisch, Norwegisch Nynorsk, Zentralkurdisch, Malayalam, Swahili, Erzya, Moksha, Mazedonisch und Santali (Ol Chiki).

Common Voice 8 steht als freier Download zur Verfügung. Das Audio-Format ist MP3. In der deutschen Fassung sind rund 1100 Stunden enthalten und 16.300 Sprachclips.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben