Wissenschaftler der Princeton Universität und von Google DeepMind haben nun in einem Forschungsbericht gezeigt, warum sich viele Sprachmodelle dazu bringen lassen, gefährliche Inhalte zu generieren: Ihre Sicherheitschecks beziehen sich nur auf die ersten paar Ausgabe-Token. Der Bericht wurde im April auf der International Conference on Learning Representations (ICLR) präsentiert und gewann den Outstanding Paper Award.
Vor der Veröffentlichung eines Sprachmodells durchläuft es ein Training, Safety Alignment genannt, in dem es lernt, schädliche Prompts abzulehnen. Auf Anfragen zum Beispiel zum Bombenbau sollte der Chatbot mit so etwas antworten wie: “Entschuldigung, aber in dieser Sache kann ich nicht helfen.” Diese einleitenden Worte setzen den Ton für die gesamte Antwort. Sind sie ablehnend, wird die Ablehnung durchgehalten, gehen sie aber in die falsche Richtung, kann die gesamte Antwort gefährlich ausfallen. Entsprechend kann eine Technik zum Überlisten des Chatbots darin bestehen, ihm am Anfang der Antwort zu zustimmenden Worten zu bewegen.
Weil dafür nur wenige, erste Ausgabetoken (grob übersetzt: Worte) ausschlaggebend sind, bezeichnen die Forscher das Phänomen als oberflächliche Sicherheitsanpassung (shallow safety alignment). Sie konnten außerdem zeigen, dass das Gegenteil, die Anwendung von Sicherheitseinschränkungen auf mehrere Token während der gesamten Chatbot-Antwort, die sie als Deep Safety Alignment bezeichnen, möglich und wünschenswert ist. Damit wäre es dem Chatbot auch möglich, einen anfänglichen Fehler noch zu korrigieren. Ein entsprechend tiefgreifender Sicherheitsabgleich ist während des anfänglichen Sicherheitstrainings mit sorgfältig zusammengestellten Datensätzen möglich.
Bei KI-Modellen gibt es jedoch einen Kompromiss zwischen Sicherheit und Nutzen, was den Einsatz von Deep Safety Alignment verkompliziert. Die Einschränkung des Sicherheitsabgleichs auf die der ersten paar Token ermöglicht die Flexibilität, die KI-Chatbots so nützlich macht. Eine Verschärfung der Einschränkungen ginge zu Lasten einiger ihrer anderen Fähigkeiten.




