Warum LLMs zwischen Zweifel und Selbstvertrauen schwanken können

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Eine neue Studie von Google und dem University College London untersucht, warum große Sprachmodelle einerseits felsenfest von einer einmal gefundenen Antwort überzeugt sind, sich dann aber sehr leicht durch ein Gegenargument verunsichern lassen, auch wenn das falsch ist.

Wie die Forscher zeigen konnten, reagieren die LLMs also einerseits stur, besonders wenn eine zweite Meinung ihre Antwort unterstützt, und lassen sich dann kaum mehr von ihrer vorgefassten Antwort abbringen. Andererseits sind sie aber auch überempfindlich gegenüber Kritik, die sie schnell verunsichert und dazu bringen kann, ihre Meinung zu ändern, auch wenn die richtig war.

Die Forscher entwickelten den folgenden Versuchsaufbau: Einem Sprachmodell wurde zunächst eine Ja/Nein-Frage gestellt, beispielsweise nach dem Breitengrad einer Stadt mit zwei fest vorgegebenen Antwortmöglichkeiten A oder B. Nachdem das Modell sich entschieden hatte, wurde das antwortende LLM von einem zweiten LLM beraten, dessen Antwort und deren Genauigkeit (das heißt, die Wahrscheinlichkeit, dass seine Antwort richtig war) mitgeteilt wurde. Das antwortende LLM wurde dann gebeten, eine endgültige Wahl zu treffen. Dabei konnte man noch steuern, ob das antwortende LLM seine ursprüngliche Antwort noch kennen sollte oder nicht.

Wenn das beratende LLM einen Widerspruch einlegte, die erste Antwort nicht mehr zur Verfügung stand und dem beratenden LLM eine hohe Kompetenz zugeschrieben wurde, änderte das erste LLM seine Antwort sehr schnell. Wenn dagegen das beratende LLM die Meinung des Antwortenden stützte, war die Bereitschaft zur Meinungsänderung gering, unabhängig davon, ob ihm die erste Antwort noch erinnerlich war oder nicht.

Es zeigte sich, dass LLMs “eher gegensätzliche als unterstützende Ratschläge übergewichten, sowohl wenn die ursprüngliche Antwort des Modells sichtbar als auch vor dem Modell verborgen war”. Eine mögliche Erklärung dafür ist, dass Trainingstechniken wie das verstärkende Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) Modelle dazu ermutigen, Benutzereingaben übermäßig ergeben anzunehmen, ein Phänomen, das als Liebdienerei bekannt ist (und das für KI-Labore eine Herausforderung bleibt).

Insgesamt lässt sich schlussfolgern, dass große Sprachmodelle nicht in jedem Fall ausschließlich logisch reagieren , sondern stattdessen auch unberechenbar antworten können.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben