Mozillas Common Voice lernt Friesisch und Obersorbisch

- 02. Juli 2020

Common Voice, Mozillas Sammlung von Sprachaufnahmen, konnte 2020 das Sortiment an Sprachen ausbauen. Mittlerweile liegen insgesamt rund 5600 bestätigte Stunden an Sprachspenden vor.

In deutscher Sprache liegen inzwischen 686 bestätigte Stunden an Material vor, wobei 11735 Menschen halfen, dieses Material zu sammeln. Der Datensatz steht dabei unter der CC-0-Lizenz, ist also Gemeingut, soweit das für Deutschland möglich ist. Einer der Gründe für den Erfolg dürfte sein, dass Mozilla die Hürden für eine Teilnahme sehr niedrig hängt. Es genügt, das Mikrofon freizuschalten und einer Webseite vorgefertigte Sätze vorzulesen.

Insgesamt stecken in den neuen Datensammlungen rund 7200 Stunden an Stimmaufnahmen, von denen laut einem Blogpost rund 5600 bestätigt sind. Mozillas Sprachdatensammlung liegt in 54 Sprachen vor, 14 davon sind 2020 neu hinzugekommen, darunter Obersorbisch, Friesisch, Rumänisch oder Polnisch. Für mehrere Sprachen, darunter Deutsch, Englisch, Französisch, Italienisch und Spanisch, gibt es mittlerweile mehr als 5000 unterschiedliche Sprecher, was einen sehr diversen Sprach-Input erlaubt.

Neu ist ein so genanntes Single Word Target Segment, das die Zahlen 0 bis 9 enthält sowie die Wörter “yes”, “no”, “hey” und “Firefox”. Es soll als Benchmark für Mozillas quelloffene Voice Recognition Engine Deep Speech dienen. Angesichts der umfangreichen Datensätze (allein der für die deutsche Sprache umfasst rund 19 GByte) besteht eine der künftigen Aufgaben für Common Voice unter anderem darin, die Daten in handlichere Pakete zu verpacken und den Nutzern einfacher zugänglich zu machen.

Collabora portiert Arch Linux für die Arm64-Plattform von Steam

Collabora arbeitet gemeinsam mit Valve an „Holo Core“, einer auf die Arm64-Architektur zugeschnittenen Portierung von Arch Linux. Sie soll als Grundlage für das Betriebssystem des kommenden Steam Frame dienen, der einen Prozessor mit Arm64-Architektur nutzt.

"Half a Second": Kostenloses E-Book arbeitet XZ-Backdoor auf

Eine Backdoor im kleinen Kompressionsprogramm XZ sorgte 2024 für ein großes weltweites Sicherheitsproblem und stieß eine Diskussion um überlastete Maintainer an. Den kompletten Vorfall arbeitet jetzt Adrian Mastronardi penibel in seinem kostenlosen E-Book auf.

Weltklassemodell aus China vorgestellt

Das chinesische Start-up Moonshot hat mit Kimi K3 ein neues Modell mit 2,8 Billionen Parametern vorgestellt, das auch in unabhängigen Tests mit den besten Modellen von OpenAI oder Anthropic mithalten kann. Damit schließt das Modell die Lücke, die bisher noch zwischen den amerikanischen...

Forgejo 16.0 ist da

Die neue Version 16.0 des leichtgewichtigen Tools für Code-Hosting und -Kollaboration ist am 16. Juli 2026 erschienen.

Klarstellung: Linus Torvalds erlaubt KI bei Kernel-Entwicklung

Der Einsatz von Künstlicher Intelligenz ist bei der Kernel-Entwicklung explizit erlaubt – das Linus Torvalds im Rahmen einer Diskussion noch einmal klargestellt. Für KI-Kritiker findet er darin zudem drastische Worte.

frame: vollständig in Assembler geschriebener X-Server

Der Norweger Geir Isene hat einen X-Server komplett in Assembler geschrieben. Der soll nicht nur deutlich ressourcenschonender arbeiten als das Pendant von X.org, er besteht derzeit auch nur aus rund 20.000 Zeilen Code. Es gibt aber auch ein paar Haken.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Was ist die beliebteste Linux-Distro? Zum Einstieg nehmen wir das DistroWatch-Ranking auseinander und erklären, warum Seitenaufrufe keine Popularität messen. Im Hauptthema geht es um Open Source Funding: Wie im XKCD 2347 ruht unsere digitale Infrastruktur auf Komponenten, die oft von Einzelnen...