Zu den zahlreichen Klagen und Vorwürfen gegen OpenAI wegen unlizenzierter Nutzung von Trainingsdaten gesellt sich nun ein neuer Fall: Das AI Disclosures Project, eine von Tim O’Reilly und Ilan Strauss mitbegründete gemeinnützige Organisation, veröffentlichte ein Papier das OpenAI vorwirft unberechtigt O’Reilly-Bücher für das Training seiner Modelle verwendet zu haben, die sich hinter einer Bezahlschranke befanden.
Die Verfasser benutzten eine Methode namens DE-COP, was für “Detecting Copyrighted Content in Language Models Training Data” steht. Damit untersuchten sie GPT-4o, GPT-3.5 Turbo und andere OpenAI-Modelle anhand von 13 962 Auszügen aus 34 O’Reilly-Büchern. Das Ergebnis war, dass GPT-4o deutlich mehr kostenpflichtige O’Reilly-Bücher kannte als ältere Modelle wie GPT-3.5 Turbo. Der Studie zufolge kennt GPT-4o wahrscheinlich viele nicht-öffentliche O’Reilly-Bücher, die vor dem Stichtag seines Trainings veröffentlicht wurden. O’Reilly hat aber keine Lizenzvereinbarung mit OpenAI, so das Papier.
Die Autoren räumen ein, dass die Methode nicht narrensicher ist und OpenAI möglicherweise Auszüge aus den ChatGPT-Eingaben der Nutzer gesammelt hat. Ein weiterer Vorbehalt ist, dass neuere OpenAI-Modelle, einschließlich GPT-4.5, nicht bewertet wurden.



