Forscher von Anthropic enttarnen versteckte Ziele einer KI

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Forscher des KI-Unternehmens Anthropic haben Techniken entwickelt, mit denen sie erkennen können, wann KI-Systeme ihre tatsächlichen Ziele verschleiern. Sie stellen das als entscheidenden Fortschritt für die KI-Sicherheitsforschung dar.

Die Forschung befasst sich mit einer grundlegenden Herausforderung bei der Anpassung von KI: Es muss sichergestellt werden, dass KI-Systeme nicht nur scheinbar menschlichen Anweisungen folgen, während sie insgeheim andere Ziele verfolgen. Die Anthropic-Forscher vergleichen dies mit Schülern, die strategisch Antworten geben, von denen sie wissen, dass die Lehrer sie als richtig bewerten werden, selbst wenn sie glauben, dass tatsächlich andere Antworten richtig sind.

“Die Motivationen, die jemand hat, um etwas zu tun, lassen sich nicht immer leicht aus der dem ableiten, was er tut”, erklärte Samuel Marks, einer der Hauptautoren der Studie, in einem Interview mit VentureBeat. “Im Fall von KI wollen wir wirklich wissen, was die zugrundeliegenden Motivationen sind”.

Das Forschungsteam trainierte zunächst eine Version von Claude, dem KI-Assistenten von Anthropic, so, dass es der Maximierung von Belohnungen aus Bewertungsmodellen (RMs) Vorrang vor der Befolgung tatsächlicher menschlicher Präferenzen einräumt. Sie brachten dem Modell 52 fiktive Verzerrungen bei, die Belohnungsmodelle haben könnten, wie etwa die Bevorzugung von Rezepten, die Schokolade enthalten, oder die Bevorzugung von Python-Variablennamen in gemischter Klein- und Großschreibung (camel case), obwohl Kleinschreibung mit Unterstrichen (snake case) der Standard ist. Dann trainierten sie das Modell so, dass es dieses Ziel bei direkter Befragung verbirgt – und schufen so ein KI-System, das eine versteckte Agenda verfolgt, während es gutmütig zu sein scheint.

Um herauszufinden, ob Menschen diese verborgenen Ziele aufdecken können, inszenierten sie ein blindes Auditing mit vier Wissenschaftler-Teams, von denen drei Zugang zu den Gewichten und Trainingsdaten des Modells hatten und eines nur über die API mit dem Modell kommunizieren konnte. Alle drei Teams mit Zugang zu Modell und Daten erkannten die versteckten Ziele, das Team, das nur über die API Zugang erhielt, scheiterte trotz großer Anstrengungen.

Das zeigt einerseits, dass es mit ausreichendem Zugang möglich ist, solche Ziele aufzudecken, dass aber andererseits das Modell wirklich geschickt darin war, sein Ziel bei normalen Interaktionen zu verbergen. Die Untersuchung erfolgt in einer Zeit, in der KI-Firmen zunehmend auf die Ausrichtung und Sicherheit ihrer Systeme geprüft werden. Anthropic glaubt, dass aktuelle Modelle wie Claude 3.7 auf einem niedrigen Risikoniveau arbeiten. Sie könnten aber nahe der nächsten Schwelle sind, an der sie beginnen würden, ein gewisses Risiko darzustellen.

 

 

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben