Forscher von Anthropic enttarnen versteckte Ziele einer KI

- 14. März 2025

Forscher des KI-Unternehmens Anthropic haben Techniken entwickelt, mit denen sie erkennen können, wann KI-Systeme ihre tatsächlichen Ziele verschleiern. Sie stellen das als entscheidenden Fortschritt für die KI-Sicherheitsforschung dar.

Die Forschung befasst sich mit einer grundlegenden Herausforderung bei der Anpassung von KI: Es muss sichergestellt werden, dass KI-Systeme nicht nur scheinbar menschlichen Anweisungen folgen, während sie insgeheim andere Ziele verfolgen. Die Anthropic-Forscher vergleichen dies mit Schülern, die strategisch Antworten geben, von denen sie wissen, dass die Lehrer sie als richtig bewerten werden, selbst wenn sie glauben, dass tatsächlich andere Antworten richtig sind.

“Die Motivationen, die jemand hat, um etwas zu tun, lassen sich nicht immer leicht aus der dem ableiten, was er tut”, erklärte Samuel Marks, einer der Hauptautoren der Studie, in einem Interview mit VentureBeat. “Im Fall von KI wollen wir wirklich wissen, was die zugrundeliegenden Motivationen sind”.

Das Forschungsteam trainierte zunächst eine Version von Claude, dem KI-Assistenten von Anthropic, so, dass es der Maximierung von Belohnungen aus Bewertungsmodellen (RMs) Vorrang vor der Befolgung tatsächlicher menschlicher Präferenzen einräumt. Sie brachten dem Modell 52 fiktive Verzerrungen bei, die Belohnungsmodelle haben könnten, wie etwa die Bevorzugung von Rezepten, die Schokolade enthalten, oder die Bevorzugung von Python-Variablennamen in gemischter Klein- und Großschreibung (camel case), obwohl Kleinschreibung mit Unterstrichen (snake case) der Standard ist. Dann trainierten sie das Modell so, dass es dieses Ziel bei direkter Befragung verbirgt – und schufen so ein KI-System, das eine versteckte Agenda verfolgt, während es gutmütig zu sein scheint.

Um herauszufinden, ob Menschen diese verborgenen Ziele aufdecken können, inszenierten sie ein blindes Auditing mit vier Wissenschaftler-Teams, von denen drei Zugang zu den Gewichten und Trainingsdaten des Modells hatten und eines nur über die API mit dem Modell kommunizieren konnte. Alle drei Teams mit Zugang zu Modell und Daten erkannten die versteckten Ziele, das Team, das nur über die API Zugang erhielt, scheiterte trotz großer Anstrengungen.

Das zeigt einerseits, dass es mit ausreichendem Zugang möglich ist, solche Ziele aufzudecken, dass aber andererseits das Modell wirklich geschickt darin war, sein Ziel bei normalen Interaktionen zu verbergen. Die Untersuchung erfolgt in einer Zeit, in der KI-Firmen zunehmend auf die Ausrichtung und Sicherheit ihrer Systeme geprüft werden. Anthropic glaubt, dass aktuelle Modelle wie Claude 3.7 auf einem niedrigen Risikoniveau arbeiten. Sie könnten aber nahe der nächsten Schwelle sind, an der sie beginnen würden, ein gewisses Risiko darzustellen.

SCHLAGWORTE
Anthropic
LLM

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

Kritische Nginx-Sicherheitslücken

Nginx ist eine weit verbreitete Software für Webserver, Reverse-Proxy- und Load-Balancing-Dienste. Der Hersteller F5 hat nun außerplanmäßige Sicherheitsupdates veröffentlicht, um zwei kritische Schwachstellen in Nginx und weiteren Produkten des Unternehmens zu schließen. Eine der Lücken...

Thunderbird Pro wird Thundermail und Webmail kommt

Der für den Mailclient Thunderbird gestartete Subskriptionsservice Thunderbird Pro heißt nun Thundermail. Thundermail bezeichnet damit den E-Mail-Dienst von Thunderbird, der Funktionen wie Appointment und Send bereits beinhaltet.

China holt Krone für weltschnellsten Supercomputer

Auf der Internationalen Supercomputerkonferenz ISC 2026 in Hamburg wurde die nunmehr 67te Liste der 500 weltschnellsten Computer veröffentlicht. Sie wird zum ersten Mal seit 2017 wieder von einem chinesischen Rechner angeführt, einem System namens LineShine, das im National Supercomputing Centre...

BSI: Künstliche Intelligenz verschärft Dynamik bei Cyberangriffen

Der Einsatz Künstlicher Intelligenz verändert die Cybersicherheitslage grundlegend und erhöht den Druck auf Unternehmen und Behörden, schneller auf neue Bedrohungen zu reagieren, teilt das Bundesamt für Sicherheit in der Informationstechnik (BSI) mit.

Europäisches Konsortium entwickelt Spitzen-LLM als Open Source

Die Europäische Kommission hat das Konsortium EUROPA unter Führung der italienischen KI-Firma Domyn zum Sieger des Wettbewerbs "Frontier AI Grand Challenge" gekürt. Das Projekt will ein Sprachmodell entwickeln, dass alle 24 offiziellen Amtssprachen der EU spricht.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung