Jahrelang hatte man angenommen, das sich Convolutional Neural Networks (CNNs), wie sie in der Bildverarbeitung eingesetzt werden, beim Erkennen von Dingen oder Lebewesen hauptsächlich auf die Textur der Oberfläche verlassen, während Menschen mehr von der äußeren Form geleitet werden. Nun stellt sich heraus: Das ist nicht wahr.
Die Annahme ging auf Experimente im Jahr 2019 zurück, bei dem man der KI beispielsweise das synthetische Bild einer Katze mit der Haut eines Elefanten präsentiert hatte. Die KI erkannte einen Elefanten und man schloss daraus, dass die Oberflächenbeschaffenheit ausschlaggebend gewesen sein musste. Jetzt haben Forscher des Berlin Institute for the Foundations of Learning and Data (BIFOLD) ähnliche Experimente wiederholt, dabei aber systematisch die Erkennung der Textur, der Form und der Farbe unterdrückt und dabei herausgefunden: CNNs präferieren gar nicht immer die Textur.
Die Ergebnisse deuten vielmehr darauf hin, dass die Merkmalsabhängigkeit in KI-Bildverarbeitungsmodellen nicht von Natur aus texturlastig ist, sondern eine stärkere Abhängigkeit von lokalen Formen aufweist. Dennoch kann diese Abhängigkeit von lokalen Formen durch Architektur und Trainingsverfahren gemildert werden. Die Forscher waren mit dem Ziel angetreten, Modelle, die mit Alltagsfotos trainiert wurden, besser mit denen zu vergleichen, die mit Satellitenbildern trainiert wurden. Die älteren Experimente beschränkten dagegen die Modellbewertung auf Alltagsfotos.
Bei der Anwendung in verschiedenen Bereichen zeigte das Framework auffällige Unterschiede:
- Computervisionsmodelle (trainiert anhand von Alltagsfotos) stützen sich in erster Linie auf Formen.
- Medizinische Bildgebungsmodelle legen den Schwerpunkt auf Farbinformationen, die diagnostische Hinweise wie die Farbe von Gewebe widerspiegeln.
- Fernerkundungsmodelle (trainiert anhand von Satellitenbildern) stützen sich stärker auf Texturen und Übereinstimmungen.
Zusammengenommen deuten die Ergebnisse darauf hin, dass die Abhängigkeit von Merkmalen keine feste Eigenschaft des Modells ist, sondern je nach Architektur, Trainingsverfahren und Datendomäne variiert. Zu wissen, ob ein Modell auf Textur, Form oder Farbe basiert, hilft Forschern dabei, Systeme zu entwickeln, die besser interpretierbar und robuster sind und besser mit der menschlichen Wahrnehmung übereinstimmen. Dies ist besonders wichtig in sicherheitskritischen Bereichen wie der medizinischen Diagnostik oder der Satellitenüberwachung, wo Modellfehler reale Konsequenzen haben können.




