Mozilla bringt Common Voice Corpus 22.0

- 30. Juni 2025

Mit dem Common Voice hat Mozilla im Jahr 2017 ein Projekt gestartet, aus dem inzwischen der größte freie Datensatz mit menschlichen Stimmen erwachsen ist. Common Voice Corpus 22.0 fügt weitere Daten hinzu.

Im Common Voice Corpus 22.0 wächst etwa der deutschsprachige Datensatz auf nun 1476 Stunden in gesprochener Sprache an. Das entspricht einem Download von rund 33 GByte. Anwender, die bereits den Datensatz in Version 21 nutzen, können ein so genanntes DeltaSegment herunterladen. Damit landen nur die neu hinzugekommenen Daten auf dem Rechner. Im Fall des deutschsprachigen Datensatzes sind das dann rund 463 MByte.

Mozilla Common Voice will als Open-Source-Initiativ den Zugang zu Sprachtechnologie allgemein erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

Insgesamt deckt Mozilla Common Voice 137 Sprachen mit insgesamt 33.816 Stunden gesprochenen Daten ab.

SCHLAGWORTE
Common Voice
Mozilla

Europäisches Konsortium entwickelt Spitzen-LLM als Open Source

Die Europäische Kommission hat das Konsortium EUROPA unter Führung der italienischen KI-Firma Domyn zum Sieger des Wettbewerbs "Frontier AI Grand Challenge" gekürt. Das Projekt will ein Sprachmodell entwickeln, dass alle 24 offiziellen Amtssprachen der EU spricht.

Ransomware-Angriffe nehmen weltweit deutlich zu

Die Zahl erfolgreicher Ransomware-Angriffe ist im Jahr 2025 deutlich gestiegen. Zu diesem Ergebnis kommt der vom Cybersicherheitsunternehmen aDvens veröffentlichte „Threat Status Report 2025/2026“.

GPT-5.5 Cyber soll Claude Mythos 5 hinter sich lassen

Die jetzt veröffentlichte Vollversion von OpenAIs neuestem Sicherheitsmodell GPT-5.5 Cyber soll das entsprechende Modell Mythos 5 von Anthropic hinter sich lassen, das eben noch nur ausgewählten Partnern zugänglich gemacht wurde, weil es ansonsten zu gefährlich sei, und das die US-Regierung...

OpenAIs Initiative "Patch the Planet" will helfen, Schwachstellen in Open-Source-Software zu beseitigen

Im Rahmen einer Cybersicherheitskampagne "Daybreak" will OpenAI zusammen mit der New Yorker Cybersicherheitsfirma Trail of Bits Open-Source-Maintainern helfen, in ihrer Software Schwachstellen auszumachen und zu patchen.

ELLIS forscht in NRW an Open-Source-KI

Nordrhein-Westfalen wird Standort einer neuen Einheit innerhalb des European Laboratory for Learning and Intelligent Systems (ELLIS), einem der führenden europäischen Netzwerke für KI-Forschung. Die neu genehmigte ELLIS Unit NRW vernetzt führende KI-Forschende und leistungsstarke...

Mastodon 4.6 bringt neue Features

Als Highlight des Updates auf Mastodon 4.6 sehen die Entwickler die Funktion Collections, mit denen Nutzer kuratierte Profilsammlungen erstellen und teilen können.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung