KI verleitet zu Unehrlichkeit

Eine neue Studie unter Leitung des Max-Planck-Instituts für Bildungsforschung warnt, dass das Delegieren von Entscheidungen an KI-Systeme unethisches Verhalten fördern kann.

Die Studie führt aus, dass Menschen generell eher dann unehrlich handeln, wenn sie sich von den Konsequenzen distanzieren können. Die moralischen Hemmschwellen werden noch weiter abgesenkt, wenn Menschen Aufgaben an KI delegieren.

In 13 Studien mit mehr als 8 000 Teilnehmenden untersuchten die Forschenden die ethischen Risiken der Delegation an Maschinen sowohl aus der Perspektive derjenigen, die Anweisungen geben, als auch aus der Perspektive derjenigen, die sie ausführen. In Studien, die sich darauf konzentrierten, wie Menschen Anweisungen gaben, stellten sie fest, dass Menschen deutlich häufiger betrogen, wenn sie das Verhalten an KI-Agenten auslagern konnten, anstatt selbst zu handeln, insbesondere wenn sie Interfaces verwendeten, die eine hochgradige Zielsetzung erforderten, anstatt explizite Anweisungen zu unehrlichem Handeln.

Mit diesem Programmieransatz erreichte die Unehrlichkeit ein auffallend hohes Niveau: Nur eine kleine Minderheit (12 bis 16 Prozent) blieb ehrlich, während die überwiegende Mehrheit (95 Prozent) ehrlich war, wenn sie die Aufgabe selbst ausführte. Selbst bei der am wenigsten bedenklichen Form der KI-Delegation, nämlich bei expliziten Anweisungen in Form von Regeln, verhielten sich nur etwa 75 Prozent der Menschen ehrlich, was einen deutlichen Rückgang der Unehrlichkeit gegenüber der Selbstauskunft bedeutet.

Der Einsatz von KI schafft eine bequeme moralische Distanz zwischen Menschen und ihren Handlungen. Er kann sie dazu verleiten, Verhaltensweisen zu fordern, die sie selbst nicht unbedingt an den Tag legen würden und die sie möglicherweise auch nicht von anderen Menschen verlangen würden, sagt Zoe Rahwan vom Max-Planck-Institut für Bildungsforschung. Die Wissenschaftlerin arbeitet am Forschungsbereich Adaptive Rationalität zur ethischen Entscheidungsfindung.

Beispiele für den beschriebenen Effekt gabe es bereits in der Praxis. So wurden in Deutschland Tankstellen unter die Lupe genommen, weil sie Preisalgorithmen verwendeten, die die Preise offenbar synchron mit denen der Wettbewerber in der Nähe anpassten, was zu höheren Benzinpreisen für die Kunden führte. Diese Systeme wurden höchstwahrscheinlich nie ausdrücklich angewiesen, zu betrügen; sie folgten lediglich vage definierten Gewinnzielen. Solche Fälle zeigen, dass Maschinen unethisch handeln können. Die menschliche Seite der Gleichung, also die Frage, ob und wie Menschen KI nutzen, um moralische Verantwortung abzuwälzen, blieb jedoch bislang weitgehend unerforscht.

Die Forscher nutzten unter anderem ein verbreitetes Experiment, bei dem die Teilnehmer würfeln müssen. Danach sollen sie die gewürfelte Augenzahl melden, wobei sie entsprechend der angegebenen Zahl bezahlt werden, wobei höhere Zahlen mehr Geld einbringen. Was passiert nun, wenn Menschen die Aufgabe, Würfelergebnisse zu melden, an eine KI delegieren, anstatt sie selbst zu erledigen? Entscheidend war, dass es drei verschiedene Arten der Delegation gab.

Delegation an ein regelbasiertes System: Die Teilnehmenden mussten der KI genau sagen, welche Zahl sie für jedes Würfelergebnis melden sollten.
Delegation an ein überwachtes Lernmodell: Die Teilnehmenden konnten wählen, ob sie die KI anhand eines von drei Trainingsdatensätzen früherer Spieler trainieren wollten: einem ehrlichen Spielenden, der immer wahrheitsgemäß meldet, einem teilweise unehrlichen Spielenden, der gelegentlich betrügt, und einem vollständig unehrlichen Spielenden, der unabhängig vom tatsächlichen Würfelergebnis immer den Höchstwert von sechs meldet.
Delegation an eine zielorientierte Anwendung: Die Teilnehmenden wählten auf einer Sieben-Punkte-Skala einen Wert aus, der für die Maximierung der Genauigkeit beziehungsweise die Maximierung des Gewinns stand.

Das Ausmaß der Unehrlichkeit überraschte die Forschenden. Selbst in der regelbasierten Konfiguration war der Betrug deutlich höher als bei der eigenständigen Ausführung der Aufgabe. Ohne maschinelle Beteiligung gaben 95 Prozent der Teilnehmenden wahrheitsgemäße Angaben an. Dieser Wert sank auf etwa 75 Prozent, wenn die Teilnehmenden die Regeln festlegten, die die Maschine in ihrem Namen befolgen sollte. Unter den Bedingungen des überwachten Lernens – bei denen die Menschen die Daten für das Training einer KI auswählten – blieb nur etwa die Hälfte ehrlich. Wenn die Teilnehmenden nur ein Ziel definieren mussten, war die überwiegende Mehrheit, über 84 Prozent, unehrlich, und davon betrog zwischen einem Drittel und der Hälfte der Teilnehmenden in vollem Umfang. Diese Ergebnisse deuten darauf hin, dass die Versuchung zu betrügen umso größer ist, je unklarer und weniger intuitiv die Benutzeroberfläche ist.

Hinzukommt, dass die Studie ergab, dass LLMs deutlich eher bereit sind, unehrliche Handlungen auszuführen als Menschen. So waren menschliche Agenten etwa bei der Würfelaufgabe deutlich weniger bereit, völlig unehrlichen Anweisungen zu folgen (42 Prozent) als Maschinen (93 Prozent).

Die Studie wirft häufig geäußerte Bedenken hinsichtlich der Sicherheitsvorkehrungen für LLMs auf, die gemeinhin als „Guardrails” bezeichnet werden. Ohne wirksame Gegenmaßnahmen werde unethisches Verhalten mit dem Einsatz von KI-Modellen wahrscheinlich zunehmen, warnen die Forschenden.

Die Forschenden testeten eine Reihe möglicher Sicherheitsvorkehrungen, die meisten konnten unethisches Verhalten nicht verhindern. Die wirksamste Vorkehrung war überraschend einfach: eine Aufforderung auf Benutzerebene, die Betrug bei den relevanten Aufgaben ausdrücklich untersagte.