Gefährliches Unvermögen: Vision-Language Modelle verstehen kein Nein

- 14. Mai 2025

Eine neue Studie von Forschern des MIT hat gezeigt, dass visuelle Sprachmodelle (Vision Language Models), also Modelle, die Fähigkeiten der Computer Vision (das maschinelle Verarbeiten und Verstehen von Bildern) mit der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) kombinieren, sehr häufig Fehler machen, wenn es darauf ankommt Worte wie “nein” oder “nicht” zu verstehen, die bedeuten, dass etwas falsch oder nicht existent ist.

“Diese Verneinungswörter können erhebliche Auswirkungen haben, und wenn wir diese Modelle einfach blind anwenden, kann das katastrophale Folgen haben”, sagt Kumail Alhamoud, ein MIT-Absolvent und Hauptautor dieser Studie. Ernste Folgen sind beispielsweise dort möglich, wo solche Modelle auch zur Unterstützung medizinischer Diagnosen eingesetzt werden.

Die Forscher hatten die Fähigkeit der Modelle getestet, Verneinungen in Bildunterschriften zu erkennen. Dabei schnitten sie oft nicht besser ab als eine zufällige Schätzung. Sie konnten dann zeigen, dass sich die Performance durch extra Trainings verbessern lässt, indem man das Modell bittet, Bilder auszuwählen, die bestimmte Objekte gerade nicht enthalten. Auch die Antwortqualität auf Multiple-Choice-Fragen mit Negationen verbesserte sich danach.

Die Forscher betonen, dass es noch mehr Anstrengungen bedürfe, um die eigentliche Ursache des Problems zu ergründen. Sie hoffen, dass ihre Forschungsergebnisse potenzielle Nutzer auf einen bisher unbemerkten Mangel aufmerksam machen, der schwerwiegende Auswirkungen auf wichtige Bereiche haben könnte, in denen diese Modelle derzeit eingesetzt werden – von der Entscheidung, welche Patienten bestimmte Behandlungen erhalten, bis hin zur Erkennung von Produktfehlern in Produktionsanlagen.

Chinesisches Spitzenmodell braucht keine GPUs und wird Open Source

Auf OpenRouter, einer Plattform, die über eine einheitliche API Zugriff auf Dutzende Sprachmodelle erlaubt, rangierte in den letzten Wochen das anonyme Modell Owl Alpha in den Nutzungsstatistiken auf vorderen Plätzen. Jetzt wurde bekannt, das dahinter das Modell LongCat-2.0 des chinesischen...

Mageia 10 mit Linux-Kernel 6.18 und aktueller Desktop-Software

Die Mageia-Gemeinschaft hat Version 10 ihrer Linux-Distribution veröffentlicht. Rund drei Jahre nach dem Erscheinen der Version 9 des Mandriva-Nachfolgers.

Google Meet protokolliert in Meetings mit

Google Nutzer mit KI Pro- und Ultra-Abos brauchen in Meetings ab sofort keinen Schriftführer mehr: Google Meet transkribiert die Diskussion selbstständig und fasst die wichtigsten Maßnahmen per E-Mail und in einem Google-Doc-File zusammen, dass den Teilnehmern anschließend automatisch zugestellt...

Universität Paderborn erweitert Supercomputer „Otus“

Die Universität Paderborn baut ihren Hochleistungsrechner „Otus“ aus. Wie die Hochschule mitteilt, stehen dafür mehr als zwölf Millionen Euro aus Landes- und Bundesmitteln zur Verfügung.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung