Die Havard Univerity hat – finanziell uterstützt von OpenAI und Microsoft – ein riesiges Trainingsset für LLMs und andere KI-Modelle veröffentlicht, das aus fast einer Million Büchern besteht, für die kein Copyright mehr existiert.
Das Datenset der Institutional Data Initiative ist etwa fünfmal so groß wie der berüchtigte Books3-Datensatz, der zum Trainieren von KI-Modellen wie Metas Llama verwendet wurde. Sie umfasst viele Genres, Jahrzehnte und Sprachen und enthält Klassiker von Shakespeare, Charles Dickens oder Dante ebenso wie obskure tschechische Mathebücher und walisische Taschenwörterbücher.
Greg Leppert, Executive Director der Institutional Data Initiative, sagt, das Projekt sei ein Versuch, “das Spielfeld zu ebnen”, indem es der breiten Öffentlichkeit, einschließlich kleinerer Akteure in der KI-Branche und einzelner Forscher, Zugang zu der Art von ausgesuchten und kuratierten Content-Repositories verschafft, die normalerweise nur etablierte Tech-Giganten mit den entsprechenden Ressourcen zusammenstellen können. “Ich sehe das ein bisschen so, wie Linux zu einem grundlegenden Betriebssystem für einen Großteil der Welt geworden ist”, sagt er und merkt an, dass die Unternehmen immer noch zusätzliche Trainingsdaten benötigen, um ihre Modelle von denen der Konkurrenz zu unterscheiden.





