Warum sich Chatbots mitunter überlisten lassen

- 26. Mai 2025

Wissenschaftler der Princeton Universität und von Google DeepMind haben nun in einem Forschungsbericht gezeigt, warum sich viele Sprachmodelle dazu bringen lassen, gefährliche Inhalte zu generieren: Ihre Sicherheitschecks beziehen sich nur auf die ersten paar Ausgabe-Token. Der Bericht wurde im April auf der International Conference on Learning Representations (ICLR) präsentiert und gewann den Outstanding Paper Award.

Vor der Veröffentlichung eines Sprachmodells durchläuft es ein Training, Safety Alignment genannt, in dem es lernt, schädliche Prompts abzulehnen. Auf Anfragen zum Beispiel zum Bombenbau sollte der Chatbot mit so etwas antworten wie: “Entschuldigung, aber in dieser Sache kann ich nicht helfen.” Diese einleitenden Worte setzen den Ton für die gesamte Antwort. Sind sie ablehnend, wird die Ablehnung durchgehalten, gehen sie aber in die falsche Richtung, kann die gesamte Antwort gefährlich ausfallen. Entsprechend kann eine Technik zum Überlisten des Chatbots darin bestehen, ihm am Anfang der Antwort zu zustimmenden Worten zu bewegen.

Weil dafür nur wenige, erste Ausgabetoken (grob übersetzt: Worte) ausschlaggebend sind, bezeichnen die Forscher das Phänomen als oberflächliche Sicherheitsanpassung (shallow safety alignment). Sie konnten außerdem zeigen, dass das Gegenteil, die Anwendung von Sicherheitseinschränkungen auf mehrere Token während der gesamten Chatbot-Antwort, die sie als Deep Safety Alignment bezeichnen, möglich und wünschenswert ist. Damit wäre es dem Chatbot auch möglich, einen anfänglichen Fehler noch zu korrigieren. Ein entsprechend tiefgreifender Sicherheitsabgleich ist während des anfänglichen Sicherheitstrainings mit sorgfältig zusammengestellten Datensätzen möglich.

Bei KI-Modellen gibt es jedoch einen Kompromiss zwischen Sicherheit und Nutzen, was den Einsatz von Deep Safety Alignment verkompliziert. Die Einschränkung des Sicherheitsabgleichs auf die der ersten paar Token ermöglicht die Flexibilität, die KI-Chatbots so nützlich macht. Eine Verschärfung der Einschränkungen ginge zu Lasten einiger ihrer anderen Fähigkeiten.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung