Sehen ist auch für maschinelle Assistenten des Menschen sehr wichtig. Autonome Drohnen oder selbstfahrende Autos brauchen ein Bild von der Welt, in der sie agieren, ganz ähnlich dem, das auch ein Mensch sich machen würde.
Linux-Magazin: Der Mensch nimmt bis zu 80 Prozent aller Informationen über den Sehsinn auf, aber für Computer müsste das ja nicht gelten — sie können auch Sensoren nutzen, für die der Mensch kein äquivalentes Sinnesorgan hat. Ist das Sehen für den Roboter trotzdem genauso wichtig wie für Menschen?
Daniel Cremers: In der Tat kann man Roboter und autonome Systeme mit einer Vielzahl von Sensoren ausstatten – neben Kameras werden beispielsweise gerne Laser/Lidar, Ultraschall, Radar, GPS und Inertialsensorik (beispielsweise Beschleunigungssensoren) eingesetzt. Dennoch halte ich auch bei Robotern die Kamera für den wichtigsten Sensor, denn zum einen ist es in der Mensch-Maschine-Interaktion enorm wichtig, dass die Maschine gerade die Information erfassen kann, die auch der Mensch erhalten würde. Beispielsweise kann ich mit einem Laserscanner keine Straßenschilder lesen. Und zweitens bieten Kameras eine enorm hohe Informationsdichte pro Euro oder Gramm Gewicht.
Selbstfahrende Autos sollten – ausgestattet mit ähnlichen Sensoren wie der Mensch – mittelfristig auch ähnliche Fahrleistungen zeigen. Ausgestattet mit zusätzlichen Sensoren (Kameras in verschiedene Richtungen, Lidar, Radar, Ultraschall und so weiter) und den entsprechenden Algorithmen sollte es möglich sein, die Fahrleistungen menschlicher Fahrer deutlich zu übertreffen.
Linux-Magazin: Eines der größten Wunder beim Sehen ist bestimmt, wie der Mensch vom Lichtreiz zu dessen Bedeutung gelangt, wie er Dinge erkennt, selbst wenn er eine bestimmte Ausprägung noch nie zuvor gesehen hat. Wie nahe kommen Computer dem menschlichen Gehirn, wenn es um die Interpretation visueller Eindrücke geht? Wie gut vermögen sie den Sensordaten einen Sinn zu geben? Ist künstliche Intelligenz dafür zwingende Voraussetzung?
Daniel Cremers: Die größte Herausforderung im Forschungsgebiet “Computer Vision” ist es sicherlich, aus Kamera-Aufnahmen die umgebende Welt zu erfassen und zu verstehen. Der Begriff “künstliche Intelligenz” hat im Laufe der Jahre seine Bedeutung gewandelt und umschließt heute diese und ähnliche Herausforderungen. Hier wird eine Vielzahl von Methoden eingesetzt – manche von denen (beispielsweise tiefe neuronale Netze) sind von der menschlichen Datenverarbeitung inspiriert, andere wiederum – etwa konvexe Optimierungsverfahren oder graphentheoretische Algorithmen – eher nicht. Entsprechend ist zu erwarten, dass technische Systeme mittelfristig sowohl die menschlichen Sehfähigkeiten reproduzieren als auch diese in manchen Aspekten übertreffen können.
Linux-Magazin: Menschen können Dinge erkennen, für die es in der Realität kein exaktes Vorbild gibt. Jeder würde in einer Kinderzeichnung etwa ein Auto erfassen, obwohl es in der Realität keine Autos mit zum Beispiel ovalen Reifen gibt. Können Rechner das auch?
Daniel Cremers: Gerade mit den vor einigen Jahren wieder belebten neuronalen Netzen ist es heute möglich, dass Computer aus einer Vielzahl von Beispielen lernen. Liefert man dem Rechner nur genug Handzeichnungen und ihre Bedeutung, so wird er ähnliche Erkennungsleistungen vollbringen. Beispielsweise ist das Problem der Erkennung handgeschriebener Postleitzahlen inzwischen gelöst. Und auch beim Lesen von Handschrift, dem Verstehen gesprochener Sprache oder von Gesichtsausdrücken zeigt sich ein rasanter Fortschritt.
Linux-Magazin: Der menschliche Sehsinn lässt sich in die Irre führen, man denke an optische Täuschungen. Gibt es etwas Analoges beim maschinellen Sehen?
Daniel Cremers: Ja, gerade mit lernbasierten Verfahren kann man optische Täuschungen auch in Maschinen reproduzieren. Optische Täuschungen sind aber auch sehr gut geeignet nachzuweisen, dass Mensch und Maschine Sensordaten unterschiedlich interpretieren. Beispielsweise gibt es so genannte Kippbilder, darunter beispielsweise eines, welches man wahlweise als alte oder als junge Frau interpretieren kann. Während die maschinelle Interpretation solcher Bilder heutzutage meist eine favorisierte Interpretation liefert (und dann reproduzierbar immer dieselbe), kippt die menschliche Interpretation üblicherweise zwischen beiden Interpretationen hin und her.
Linux-Magazin: Denkt man an Fahrzeuge, Drohnen oder Roboter, denen maschinelles Sehen bei der Orientierung helfen soll, ist klar, dass auch die Geschwindigkeit eine große Rolle spielt, mit der Objekte indentifiziert werden können. Welche Herausforderung stellt der Faktor Zeit in diesem Zusammenhang dar und was sind da die Perspektiven?
Daniel Cremers: Eine Vielzahl technischer Systeme von selbstfliegenden Drohnen bis zu selbstfahrenden Autos (Abbildung 1) erfordert Echtzeitfähigkeit entsprechender Verfahren. Erfreulicherweise haben wir in den letzten Jahren auch in diesem Punkt enorme Fortschritte erzielt. Während die Berechnung eines Bewegungsfelds aus Videos Anfang der 90er Jahre beispielsweise zwölf Stunden mit zwei kleinen Bildern gedauert hat, können wir heute deutlich bessere Fliessfelder bei deutlich höherer Auflösung mit 60 Bildern pro Sekunde berechnen.

Abbildung 1: Kostet in diesem Fall keine Punkte in Flensburg: Das Auto hat die Straße selber im Blick und erkennt auch Verkehrszeichen. Quelle: Andriy Popov, 123RF
Dies liegt sowohl an der Entwicklung besserer Rechnerhardware – beispielsweise von schnellen Grafikkarten – als auch an der Entwicklung schnellerer Algorithmen, die wir über die letzten Jahre vorangetrieben haben.
Linux-Magazin: Dem menschlichen Auge entspricht beim Maschinen-Sehen die Kamera. Können da noch Reserven erschlossen werden — etwa durch neue Sensoren — oder ist die Kameratechnik heute ausgereizt?
Daniel Cremers: Die Kameratechnik schreitet in vielen Bereichen weiter – teilweise auch inspiriert von biologischen Sehsystemen. Über die letzten Jahre wurden beispielsweise Tiefenkameras, Lichtfeldkameras oder Event-Kameras entwickelt, neben einer Vielzahl von Spezialentwicklungen für bestimmte Anwendungen. Auch dadurch eröffnen sich völlig neue Möglichkeiten und Anwendungen. Praktischerweise lässt sich eine Vielzahl unserer Bildverarbeitungsalgorithmen relativ direkt auf neue Sensoren erweitern.
Linux-Magazin: Bildverarbeitung ist auch wesentlich für ein Gebiet wie die Augmented Reality. VR-Brillen sind inzwischen im Massenmarkt angekommen. Was werden wir da in näherer Zukunft noch zu erwarten haben?
Daniel Cremers: Inzwischen ist eine Reihe VR/XR Brillen auf den Markt gekommen, die eine beachtliche Qualität und Reife haben. Mit der zunehmenden Verbreitung dieser Systeme werden sich hier viele spannende Anwendungen eröffnen – von der Unterstützung chirurgischer Eingriffe, bei denen ich dem Arzt tiefer liegende Organstrukturen sichtbar machen kann, bis hin zu 3-D-Videokonferenzen und Spielen.
Linux-Magazin: Kamerabilder aus dem öffentlichen Raum können gewollt oder ungewollt sensible Informationen beinhalten. Wenn in Zukunft jedes Auto unablässig seine Umgebung filmt, wie kann da einerseits der Datenschutz für unbeteiligte Dritte gewährleistet und andererseits auch der Fahrer selbst davor geschützt werden, dass zum Beispiel seine Versicherung seinen Fahrstil anhand der Aufzeichnungen bewertet?
Daniel Cremers: Während meine Forschung sich darauf konzentriert, wie man mit Kamera-basierten Algorithmen das Leben der Menschen verbessern kann, müssen natürlich parallel umfassende Konzepte des Datenschutzes entwickelt und dann auch gewährleistet werden. Dabei sind manche Entwicklungen wahrscheinlich nur schwer zu vermeiden – zum Beispiel werden Versicherungen möglicherweise günstigere Tarife anbieten für Kunden, die bereit sind, ihren Fahrstil von einem technischen System bewerten zu lassen. Letztlich müssen wir es als Gesellschaft versuchen, für alle Menschen und Belange sinnvolle Kompromisse zu finden, die sowohl den Datenschutz jedes einzelnen gewährleisten als auch das Leben der Menschen verbessern.
Linux-Magazin: Es existieren ein paar Open-Source-Frameworks für Computer Vision wie Open CV oder Simple CV und andererseits viele Patente auf spezielle Techniken und Erfindungen. Ist die proprietäre oder die offene Entwicklung der vielversprechendere Ansatz? Und welche Rolle spielen in Ihrer Arbeit Linux und Open Source?
Daniel Cremers: Der rasante Fortschritt der Computer-Vision-Forschung in den letzten Jahren lässt sich in der Tat zu einem guten Teil gerade auf die Verfügbarkeit von Open-Source-Lösungen zurückführen. Und hier spielt auch Linux eine ganz enorme Rolle – fast alle meine Mitarbeiter arbeiten unter Linux.
Im Laufe der Jahre haben wir zudem Wege gefunden, wie man Technologie einerseits als Open Source der Fachwelt verfügbar machen kann und andererseits auch die Kommerzialisierung im Rahmen von Startups oder Industriekooperationen vorantreiben kann.
Unser Gesprächspartner
Prof. Dr. Daniel Cremers ist Inhaber des Lehrstuhls für Bildverarbeitung und künstliche Intelligenz an der Fakultät für Informatik der TU München. Er studierte von 1992 bis 1997 Physik und Mathematik an der Universität Heidelberg. 2002 promovierte er in Informatik an der Universität Mannheim. Von 2002 bis 2005 verbrachte er zwei Jahre als Postdoc an der University of California in Los Angeles und ein Jahr als Forscher bei Siemens Corporate Research in Princeton. Im Herbst 2005 nahm er einen Ruf auf eine Professur für Informatik an der Universität Bonn an. Von dort wechselte er 2009 auf den Lehrstuhl an der TU München.
Prof. Cremers hat über 300 wissenschaftliche Publikationen verfasst und sich als Mitherausgeber der wichtigsten Zeitschriften seiner Community (“Int. J. of Computer Vision”, “IEEE Trans. on PAMI”, “SIAM J. for Imaging Sciences”) engagiert.
Für seine Arbeiten erhielt er eine Vielzahl von Preisen und Auszeichnungen. Im Dezember 2010 wurde er von der Zeitschrift “Capital” in die Liste “Deutschlands 40 Top Wissenschaftler unter 40” aufgenommen. 2016 erhielt er den Gottfried-Wilhelm-Leibniz-Preis, die höchste akademische Auszeichnung in Deutschland.






