Die Mozilla Foundation hat für das Common Voice Projekt, das frei zugängliche und verwendbare Sprachdaten anbietet, einen erweiterten Datensatz veröffentlicht.
16 neue Sprachen – wie Basaa und Kasachisch – und 4622 neue Sprachstunden seien enthalten, teilt die Mozilla Foundation mit. Das Common Voice Projekt will dem Missstand begegnen, dass Entwickler von Sprachtechnologie kaum Zugang zu Trainingsdaten haben, da die teuer zu beschaffen seien und damit großen Konzernen vorbehalten seien. Damit werde die Entwicklung von Sprachtechnologie gehemmt, so die Foundation. Mit Common Voice können die Teilnehmer am Projekt Sprachdaten für einen öffentlichen Datensatz spenden, der dann von jedermann für das Training sprachgesteuerter Technologien genutzt werden kann.
Zuletzt war das Projekt auch durch eine Entlassungswelle bei Mozilla betroffen gewesen und einige Forscher haben daraufhin ein Startup gegründet. Seitdem hat aber Hardwarespezialist Nvidia ein Investment von 1,5 Millionen S-Dollar in das Projekt getätigt. Mit dem Geld von Nvidia soll der Datenbestand weiter ausgebaut werden und es sollen Mitarbeiter eingestellt werden, hatte Mozilla daraufhin angekündigt. Zudem gab es eine Förderung in Höhe von 3,4 Millionen US-Dollar seitens der Bill und Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit und des britischen Foreign Commonwealth & Development Office. Mit diesem Geld sollen Sprachdatensätzen in Kisuaheli aufgebaut werden, einer ostafrikanischen Sprache, die von schätzungsweise 100 Millionen Menschen in Kenia gesprochen werde, teilte Mozilla mit.
Die jüngsten Updates umfassen die neuen Sprachen Basaa, Slowakisch, Nordkurdisch, Bulgarisch, Kasachisch, Baschkirisch, Galizisch, Uigurisch, Armenisch, Weißrussisch, Urdu, Guarani, Serbisch, Usbekisch, Aserbaidschanisch und Hausa.
In den Statistiken des Projekts heißt es, dass die fünf wichtigsten Sprachen nach Gesamtstundenzahl Englisch (2.630 Stunden), Kinyarwanda (2.260), Deutsch (1.040), Katalanisch (920) und Esperanto (840) sind.


