Riesiges Datenset lizenzfreier KI-Trainingsdaten veröffentlicht

- 13. Dezember 2024

Die Havard Univerity hat – finanziell uterstützt von OpenAI und Microsoft – ein riesiges Trainingsset für LLMs und andere KI-Modelle veröffentlicht, das aus fast einer Million Büchern besteht, für die kein Copyright mehr existiert.

Das Datenset der Institutional Data Initiative ist etwa fünfmal so groß wie der berüchtigte Books3-Datensatz, der zum Trainieren von KI-Modellen wie Metas Llama verwendet wurde. Sie umfasst viele Genres, Jahrzehnte und Sprachen und enthält Klassiker von Shakespeare, Charles Dickens oder Dante ebenso wie obskure tschechische Mathebücher und walisische Taschenwörterbücher.

Greg Leppert, Executive Director der Institutional Data Initiative, sagt, das Projekt sei ein Versuch, “das Spielfeld zu ebnen”, indem es der breiten Öffentlichkeit, einschließlich kleinerer Akteure in der KI-Branche und einzelner Forscher, Zugang zu der Art von ausgesuchten und kuratierten Content-Repositories verschafft, die normalerweise nur etablierte Tech-Giganten mit den entsprechenden Ressourcen zusammenstellen können. “Ich sehe das ein bisschen so, wie Linux zu einem grundlegenden Betriebssystem für einen Großteil der Welt geworden ist”, sagt er und merkt an, dass die Unternehmen immer noch zusätzliche Trainingsdaten benötigen, um ihre Modelle von denen der Konkurrenz zu unterscheiden.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung