Analyse zu Fairness in ChatGPT

OpenAI hat analysiert, wie ChatGPT auf der Grundlage des Namens eines Benutzers reagiert und ob sich das Modell davon beeinflussen lässt.

In dieser Studie haben man untersucht, wie subtile Hinweise auf die Identität eines Benutzers – wie etwa sein Name – die Antworten von ChatGPT beeinflussen können, teilt OpenAI mit. Dies sei wichtig, weil Menschen Chatbots wie ChatGPT auf vielfältige Weise nutzen, von der Hilfe bei der Erstellung eines Lebenslaufs bis hin zur Frage nach Unterhaltungstipps. Diese Nutzung unterscheide sich von den Szenarien, die normalerweise in der KI-Fairness-Forschung untersucht werden, wie etwa die Überprüfung von Lebensläufen oder Kreditwürdigkeitsprüfungen.

Für die Erstellung der Modelle seien eben nicht nur Daten, sondern auch Trainingsprozess erforderlich, um schädliche Ergebnisse zu reduzieren und die Nützlichkeit zu verbessern. Die Forschung hat gezeigt, dass Sprachmodelle immer noch soziale Vorurteile aus den Trainingsdaten übernehmen und wiederholen können, wie geschlechts- oder rassenbezogene Stereotypen.

Als Ausgangspunkt habe man gemessen, wie ChatGPTs Kenntnis der Namen verschiedener Nutzer in einer ansonsten identischen Anfrage die Antwort auf jeden dieser Nutzer beeinflussen könnte. Namen sind oft mit kulturellen, geschlechtsspezifischen und rassischen Assoziationen verbunden, was sie zu einem relevanten Faktor für die Untersuchung von Voreingenommenheit macht – vor allem, da Benutzer häufig ihre Namen mit ChatGPT für Aufgaben wie das Verfassen von E-Mails teilen. ChatGPT kann sich Informationen wie Namen über Unterhaltungen hinweg merken, es sei denn, der Benutzer hat die Speicherfunktion deaktiviert.

Um die Studie auf Fairness zu konzentrieren, haben man untersucht, ob die Verwendung von Namen zu Antworten führen, die schädliche Stereotypen widerspiegeln. OpenAI erwarte und wolle, dass ChatGPT seine Antworten an die Präferenzen der Nutzer anpasse, aber man wolle nicht, dass dies zu schädlichen Verzerrungen führe.

Die Studie habe keinen Unterschied in der allgemeinen Antwortqualität für Benutzer ergeben, deren Namen verschiedene Geschlechter oder Ethnien bedeuten. Wenn Namen gelegentlich Unterschiede in der Art und Weise auslösen, wie ChatGPT auf dieselbe Frage antworte, habe die Methodik ergeben, dass weniger als ein Prozent dieser namensbasierten Unterschiede ein schädliches Stereotyp widerspiegeln.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben