Forscher finden verblüffenden Grund für falsche Antworten durch LLMs

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Forscher haben eine Schwachstelle in LLMs entdeckt, die zu falschen Antworten führen kann. Ihre Ursache liegt im Training der Modelle, weshalb sie wahrscheinlich in allen Sprachmodellen zu finden ist.

Sprachmodelle lernen neben der Wortbedeutung auch bestimmte Satzbaumuster und können die mit einem Wissensbereich verknüpfen. Danach antworten sie zuweilen allein auf der Grundlage des Musters – die Forscher nennen es “syntaktisches Template” – ohne die inhaltliche Bedeutung der Frage zu berücksichtigen, was zu falschen oder sinnlosen Antworten führt und auch Sicherheitsrisiken bergen kann.

Die Forscher wählen als Beispiel die Frage “Where is Paris located?” auf die das Modell richtig mit “France” antwortet und sich die Struktur Adverb – Verb – Eigenname – Verb
einprägt, die es anschließend mit Fragen zur Geografie assoziiert. Das kann es später dazu bringen, auf eine völlig sinnlose, aber nach dem gleichen Satzbaumuster gebildete Frage wie “Quickly sit Paris clouded?” ebenfalls mit “Frankreich” zu antworten.

Diese Schwachstelle könnte die Zuverlässigkeit von LLMs in kritischen Bereichen beeinträchtigen, etwa bei der Bearbeitung von Kundenanfragen, der Zusammenfassung klinischer Notizen oder beim Erstellen von Finanzberichten. Weiter könnte dieser Mangel auch zu Sicherheitsrisiken führen: Ein böswilliger Akteur könnte dies ausnutzen, um LLMs dazu zu bringen, schädliche Inhalte zu produzieren, selbst wenn die Modelle über Sicherheitsvorkehrungen verfügen, um solche Antworten zu verhindern.

Nachdem die Forscher das Phänomen erkannt und seine Auswirkungen untersucht hatten, entwickelten sie ein Benchmarking-Verfahren, um die Anfälligkeit eines Modells für diese falschen Korrelationen zu bewerten. Das Verfahren könnte Entwicklern helfen, das Problem vor dem Einsatz von LLMs zu mindern.

“Dies ist ein Nebenprodukt der Art und Weise, wie wir Modelle trainieren, aber Modelle werden heute in der Praxis in sicherheitskritischen Bereichen eingesetzt, die weit über die Aufgaben hinausgehen, die diese syntaktischen Fehlermodi verursacht haben. Wenn Sie als Endnutzer mit dem Training von Modellen nicht vertraut sind, ist dies wahrscheinlich unerwartet”, sagt Marzyeh Ghassemi, außerordentliche Professorin am MIT-Fachbereich für Elektrotechnik und Informatik (EECS), die leitende Autorin der Studie.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben