Eine neue Studie von Forschern des MIT hat gezeigt, dass visuelle Sprachmodelle (Vision Language Models), also Modelle, die Fähigkeiten der Computer Vision (das maschinelle Verarbeiten und Verstehen von Bildern) mit der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) kombinieren, sehr häufig Fehler machen, wenn es darauf ankommt Worte wie “nein” oder “nicht” zu verstehen, die bedeuten, dass etwas falsch oder nicht existent ist.
“Diese Verneinungswörter können erhebliche Auswirkungen haben, und wenn wir diese Modelle einfach blind anwenden, kann das katastrophale Folgen haben”, sagt Kumail Alhamoud, ein MIT-Absolvent und Hauptautor dieser Studie. Ernste Folgen sind beispielsweise dort möglich, wo solche Modelle auch zur Unterstützung medizinischer Diagnosen eingesetzt werden.
Die Forscher hatten die Fähigkeit der Modelle getestet, Verneinungen in Bildunterschriften zu erkennen. Dabei schnitten sie oft nicht besser ab als eine zufällige Schätzung. Sie konnten dann zeigen, dass sich die Performance durch extra Trainings verbessern lässt, indem man das Modell bittet, Bilder auszuwählen, die bestimmte Objekte gerade nicht enthalten. Auch die Antwortqualität auf Multiple-Choice-Fragen mit Negationen verbesserte sich danach.
Die Forscher betonen, dass es noch mehr Anstrengungen bedürfe, um die eigentliche Ursache des Problems zu ergründen. Sie hoffen, dass ihre Forschungsergebnisse potenzielle Nutzer auf einen bisher unbemerkten Mangel aufmerksam machen, der schwerwiegende Auswirkungen auf wichtige Bereiche haben könnte, in denen diese Modelle derzeit eingesetzt werden – von der Entscheidung, welche Patienten bestimmte Behandlungen erhalten, bis hin zur Erkennung von Produktfehlern in Produktionsanlagen.





