Common Voice Corpus wächst weiter

- 16. Dezember 2024

Quelle: Mozilla

Mozilla hat den Common Voice Corpus 20.0 veröffentlicht. Der deutschsprachige Datensatz ist dort mit 1443 erfassten Stunden dabei.

Wer bereits einen Datensatz heruntergeladen hat, kann statt dem kompletten Common Voice Corpus 20.0 mit rund 34 GByte auch das Delta Segment herunterladen. Dieses Segment bringt nur die Unterschiede zur Vorversion mit und ist in Version 20.0 rund 138 Mbyte groß.

Mit dieser Veröffentlichung werden laut Mozilla die Sprachen Aragonesisch, IsiNdebele (manchmal auch als Süd-Ndebele bekannt), Süd-Sotho und Tupuri zum ersten Mal in den Datensatz aufgenommen. Die engagierten Sprachaktivisten, Übersetzer und Mitwirkenden für diese neuen Sprachen haben großartige Arbeit geleistet und offene Sprachdaten für ihre Sprachen erstellt, auf denen jeder aufbauen kann, schreibt Mozilla. Mit diesen neuen Sprachen erhöht sich die Gesamtzahl der Sprachen im Common Voice Scripted Speech-Datensatz auf insgesamt 133. Rund 566 neue Sprachstunden und 515 neu validierte Sprachstunden sind hinzugekommen.

Damit steigt die Gesamtzahl der verfügbaren Sprachdaten im Common Voice-Datensatz auf 33.150 Stunden. Bei 22.108 Stunden wurde die Qualitätssicherung („Validierung“) durch die Community durchgeführt.

Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

SCHLAGWORTE
Common Voice
Mozilla

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung