KI: Missbrauch von Trainingsdaten verhindern

Mit Trainingsdaten für medizinische KI-Modelle lassen sich auch fragwürdige Anwendungen entwickeln. Die aktuellen Gesetze schieben dem keinerlei Riegel vor.

Das Trainieren von KI-Modellen wird im wissenschaftlichen Umfeld häufig mit dem medizinischen Nutzen der Daten begründet. Doch bislang gibt es kaum Möglichkeiten, den Einsatz dieser Daten für völlig andere Zwecke zu verhindern.

In einem Vortrag [1] auf dem 38. Chaos Communication Congress (38C3) forderte der Ethik-Professor Rainer Mühlhoff (Abbildung 1) eine Zweckbindung [2] für künstliche Intelligenz (KI) sowie eine Registrierungspflicht für die sekundäre Nutzung von KI-Modellen. Als Beispiel für eine solche Zweckentfremdung von Daten nannte Mühlhoff klinische Studien, um über die Stimmdaten von Betroffenen eine Depression diagnostizieren zu können. Solche Studien hat beispielsweise das Neuropsychiatrische Zentrum Hamburg [3] vorgenommen und veröffentlicht.

Abbildung 1: Ethik-Professor Rainer Mühlhoff beim 38C3 in Hamburg. Quelle: CCC, CC BY 4.0 https://creativecommons.org/licenses/by/4.0/

Finetuning möglich

Das Besondere an dem Datensatz: Obwohl nur 166 Personen ihre Stimmdaten abgaben, lassen sich laut Mühlhoff damit große Sprachmodelle feinjustieren. Das hatten chinesische Forscher jüngst in einer Studie [4] anhand eines anderen Datensatzes mit 189 Probanden demonstriert. “Offene Basismodelle potenzieren das Risiko der Sekundärnutzung auch kleiner Datensätze”, warnte Mühlhoff.

Laut Mühlhoff kommen solche Systeme nicht nur im klinischen Umfeld zum Einsatz. So wirbt das US-Unternehmen Aiberry [5] damit, Einblicke in die psychische Gesundheit in Echtzeit zu liefern. Es bietet sein Tool auch für Arbeitgeber an, die in einem Dashboard einen Überblick über Depressionen, Ängste und Stress ihrer Mitarbeiter erhalten wollen (Abbildung 2).

Abbildung 2: Solche Einblicke in die Situation von Mitarbeitern versprechen Stimmanalysen von Aiberry. Quelle: Friedhelm Greis

KI schätzt Bewerber ein

Das israelische Unternehmen Voicesense wiederum schreibt auf seiner Webseite: “Voicesense nutzt Techniken des maschinellen Lernens, um mithilfe von Signalverarbeitung, klinischer Psychologie und Sprachanalyse den Charakter einer Person zu bewerten und zukünftige Verhaltensmuster vorherzusagen, unabhängig von sprachlichen, kulturellen, geschlechtsspezifischen und individuellen Unterschieden.”

Laut Hersteller lässt sich das Programm beispielsweise dazu verwenden, die Erfolgsaussichten von Verkaufsgesprächen zu ermitteln oder Personalverantwortliche “vor der Burn-out-Wahrscheinlichkeit und/oder potenziellen stressbedingten Risiken einer Person” zu warnen. Das Besondere an Voicesense: Firmengründer und Forschungschef Yoav Degani war an der bereits zitierten Studie des Neuropsychiatrischen Zentrums Hamburg beteiligt. Laut seinem Linkedin-Profil verfügt Degani über mehrjährige Erfahrungen im Bereich der Geheimdienst- und Militärtechnologie.

Laut Mühlhoff ist zwar unklar, ob das Modell von Voicesense die Hamburger Stimmdaten zum Training verwendete, aber es wurden “mindestens Inferenzen gemacht”, also die Daten auf das Modell angewendet. Aus der neuropsychiatrischen Studie gehe zudem nicht hervor, ob die Daten später gelöscht wurden. “Ich habe Kontakt zum Erstautor der Studie aufgenommen. Der hat mir erläutert, dass man damals nicht unbedingt an eine wirtschaftliche Verwendung gedacht hat”, sagte Mühlhoff. Darüber hinaus taucht der Name Voicesense in der Einwilligungserklärung der Probanden nicht auf.

Doch die Verwendung der Daten durch die Israelis ist weder nach der EU-Datenschutzgrundverordnung (DSGVO) noch nach der neuen KI-Verordnung illegal. Hier diagnostiziert Mühlhoff eine Regulierungslücke, deren Ursache er im Vorliegen unterschiedlicher Datensubjekte sieht.

Vulnerable Gruppen

Die Daten der Trainingsdatensubjekte werden durch das Trainieren der Modelle anonymisiert. Diese Subjekte unterscheiden sich jedoch von den Personen, auf die die Modelle angewendet werden. “Ich trainiere anhand von 189 Menschen ein Modell, das Depressionen vorhersagen kann, und kann es auf dich anwenden. Und du bist nicht in den Trainingsdaten drin”, verdeutlicht Mühlhoff.

Das Problem dabei: Forschungsdaten bilden oft vulnerable Gruppen ab, beispielsweise depressive Menschen. Offen zirkulierende Datensätze oder trainierte Modelle verstärken die mögliche Nutzung solcher Daten gegen diese Gruppen selbst. Das könnte beispielsweise in einem Bewerbungsverfahren der Fall sein. Zudem liegt bei der Anmeldung der Modelle häufig eine Machtasymmetrie vor. Wenn man sich auf einen Job bewirbt und eine KI-Auswertung ablehnt, “dann werden Sie halt einfach nicht berücksichtigt”, unterstreicht der Ethik-Professor.

DSGVO greift nicht

Die DSGVO gilt nur für personenbezogene Daten, nicht aber für anonymisierte. Zudem greift laut Mühlhoff die Zweckbindung nach Artikel 5 und 6 der DSGVO beim Zielobjekt nicht. Einen Verzicht auf die Offenlegung der Daten lehnt er jedoch ab, weil er Transparenz und Reproduzierbarkeit als wichtig ansieht.

Mühlhoffs erste Forderung lautet daher: “Ein Machine-Learning-Modell darf nur für die Zwecke trainiert, verwendet oder übertragen werden, für die die Trainingsdaten erhoben wurden.” Um die Nutzung anonymisierter Daten zu ermöglichen, schlägt er folgende Regelung vor: “Ein Datensatz darf nur dann zum Training eines Machine-Learning-Modells verwendet werden, wenn der Zweck, für den der Datensatz ursprünglich erhoben wurde, mit dem Zweck, für den das Modell trainiert wird, vereinbar ist.” Das würde bedeuten, dass Datensätze aus dem medizinischen Umfeld nicht für das Auswerten von Bewerbungsgesprächen genutzt werden dürften.

In seinem Vortrag gab sich Mühlhoff nicht sehr optimistisch, dass sich diese Maßgaben schnell umsetzen lassen. Am ehesten sei noch denkbar, sie in eine aktualisierte Version der EU-KI-Verordnung aufzunehmen. Er schlägt weiter vor, in der vorgesehenen Datenbank konkret eine Registrierungspflicht für die Sekundärnutzung von KI-Modellen einzuführen. Dazu wäre nach seiner Ansicht die Etablierung einer Purpose-Limited-Open-Data-Bewegung oder einer Purpose-Limited-Open-AI-Bewegung sinnvoll. (uba)

Infos

Vortrag Rainer Mühlhoff: https://media.ccc.de/v/38c3-gemeinwohlorientierte-forschung-mit-ki-missbrauch-eindmmen-durch-zweckbindung-fr-ki-modelle
Zweckbindung für KI: https://purposelimitation.ai/purpose-limitation-for-AI/
Studie Neuropsychiatrisches Zentrum Hamburg: https://www.researchprotocols.org/2020/5/e13852
Studie zum Feintuning: https://www.nature.com/articles/s41598-024-63556-0
Aiberry: https://www.aiberry.com

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF	Umfang: 2 Heftseiten	Preis €0,99 (inkl. 19% MwSt.)	Kasse

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE	Print-Ausgaben	Digitale Ausgaben
ABONNEMENTS	Print-Abos	Digitales Abo
TABLET & SMARTPHONE APPS

KI: Missbrauch von Trainingsdaten verhindern

Finetuning möglich

KI schätzt Bewerber ein

Vulnerable Gruppen

DSGVO greift nicht

Verwandte Artikel

Editorial

Linux 7.0

Künstliche Intelligenz in der Ausbildung sinnvoll einsetzen

Der freie Einstieg in digitale Kompetenz

Linux-Distributionen für Vor- und Grundschulkinder

Linux für junge Gamer: Spielen, lernen, entdecken

LMP004 Von Nebraska nach Brüssel