Mozillas Common Voice lernt Friesisch und Obersorbisch

Common Voice, Mozillas Sammlung von Sprachaufnahmen, konnte 2020 das Sortiment an Sprachen ausbauen. Mittlerweile liegen insgesamt rund 5600 bestätigte Stunden an Sprachspenden vor.

In deutscher Sprache liegen inzwischen 686 bestätigte Stunden an Material vor, wobei 11735 Menschen halfen, dieses Material zu sammeln. Der Datensatz steht dabei unter der CC-0-Lizenz, ist also Gemeingut, soweit das für Deutschland möglich ist. Einer der Gründe für den Erfolg dürfte sein, dass Mozilla die Hürden für eine Teilnahme sehr niedrig hängt. Es genügt, das Mikrofon freizuschalten und einer Webseite vorgefertigte Sätze vorzulesen.

Insgesamt stecken in den neuen Datensammlungen rund 7200 Stunden an Stimmaufnahmen, von denen laut einem Blogpost rund 5600 bestätigt sind. Mozillas Sprachdatensammlung liegt in 54 Sprachen vor, 14 davon sind 2020 neu hinzugekommen, darunter Obersorbisch, Friesisch, Rumänisch oder Polnisch. Für mehrere Sprachen, darunter Deutsch, Englisch, Französisch, Italienisch und Spanisch, gibt es mittlerweile mehr als 5000 unterschiedliche Sprecher, was einen sehr diversen Sprach-Input erlaubt.

Neu ist ein so genanntes Single Word Target Segment, das die Zahlen 0 bis 9 enthält sowie die Wörter “yes”, “no”, “hey” und “Firefox”. Es soll als Benchmark für Mozillas quelloffene Voice Recognition Engine Deep Speech dienen. Angesichts der umfangreichen Datensätze (allein der für die deutsche Sprache umfasst rund 19 GByte) besteht eine der künftigen Aufgaben für Common Voice unter anderem darin, die Daten in handlichere Pakete zu verpacken und den Nutzern einfacher zugänglich zu machen.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben