Generative Adversarial Networks und ihre Möglichkeiten

In Auktionshäusern kommen KI-Kunstwerke unter den Hammer, die aussehen, als stammten sie von großen Meistern. Im Internet finden sich Fotos von Menschen, die es nicht gibt, und die Filmindustrie träumt davon, tote Stars wieder auferstehen zu lassen. Generative Adversarial Networks machen es möglich.

Von Machine-Learning-Modellen, die nicht nur Objekte auf Bildern erkennen, sondern ganz neue Bilder erschaffen, konnte man lange Zeit nur träumen. Zwar diskutierte die KI-Welt über diverse Strategien, der Durchbruch blieb aber aus. Dann kam Ian Goodfellow 2014 nach einer angeregten Diskussion in einer Bar in Montreal die zündende Idee in den Sinn.

Auf der Doktor-Party eines Kommilitonen diskutierte er mit seinen Forscherkollegen über ein Projekt, bei dem es darum ging, alles, was ein Foto ausmacht, mathematisch zu bestimmen. Anschließend wollte man diese Statistiken in eine Maschine einspeisen, damit diese selbstständig Bilder erstellen könnte. Etwas beschwipst erklärte Goodfellow, dass das niemals funktionieren würde: Schließlich gäbe es zu viele Statistiken zu berücksichtigen, die sich doch kaum alle erfassen ließen – eine bekannte Hürde. Wieder zu Hause, ließ das Problem Goodfellow jedoch nicht los, und er fand noch in derselben Nacht die Lösung: Neuronale Netze könnten der Maschine beibringen, wie sie realistische Fotos erstellt.

Dafür braucht es zwei Netze, den Generator und den Diskriminator, die als Gegenspieler interagieren. Wie das funktioniert, lässt sich mithilfe einer Analogie erklären. Auf der einen Seite steht ein Kunstfälscher (Generator). Er will beispielsweise ein Gemälde im Stil von Vincent van Gogh malen, um es als Original an ein Auktionshaus zu verkaufen. Auf der anderen Seite versuchen ein Kunstdetektiv und echter Van-Gogh-Kenner beim Auktionshaus, dem Fälscher auf die Schliche zu kommen. Anfangs ist der Kunstexperte noch recht unerfahren, doch der Detektiv erkennt auf Anhieb, dass es sich um keinen echten van Gogh handelt. Dennoch denkt der Fälscher keineswegs ans Aufgeben. Er übt und will dem Detektiv immer wieder neue, bessere Gemälde unterjubeln. Mit jeder Runde ähnelt das Bild mehr einem Original eines berühmten Malers, bis der Detektiv es schließlich als echt einstuft.

Die Geschichte beschreibt die Idee hinter GANs deutlich: Zwei neuronale Netze – Generator und Diskriminator – spielen gegeneinander und lernen dabei voneinander. Initial bekommt der Generator ein zufälliges Signal und erzeugt daraus ein Bild. Kombiniert mit Instanzen des Trainingsdatensatzes (echte Bilder), bildet dieser Output den Input des zweiten Netzes, des Diskriminators. Anschließend ordnet der Diskriminator das Bild entweder dem Trainingsdatensatz oder dem Generator zu und erhält die Information, ob er richtig lag oder nicht. Durch Backpropagation liefert die Klassifizierung des Diskriminators dann ein Signal an den Generator zurück, der dieses Feedback nutzt, um seinen Output entsprechend anzupassen.

Das Spiel wiederholt sich in genauso vielen Iterationen, wie beide Netze benötigen, um genug voneinander gelernt zu haben, damit der Diskriminator nicht mehr erkennt, woher das finale Bild stammt. Der Generatorteil eines GAN lernt also, gefälschte Daten zu erzeugen, indem er das Feedback des Diskriminators beherzigt. Dadurch bringt er den Diskriminator dazu, seine Ausgabe als echt zu klassifizieren.

Von der KI zur Kunst

Zu den bekanntesten Beispielen dafür, wozu GANs praktisch in der Lage sind, gehört das Gemälde “Portrait of Edmond Belamy” [1] aus der Sammlung “La Famille de Belamy” (Abbildung 1). Für 432 500 US-Dollar 2018 bei Christie’s versteigert, trägt das Kunstwerk als Signatur den Algorithmus, der es selbst erschaffen hat. Hier zeigt sich, was mathematisch und spieltheoretisch hinter GANs steckt: die Minimax-Strategie. Der entsprechende Algorithmus dient dazu, die optimale Spielstrategie für endliche Zwei-Personen-Nullsummenspiele wie Dame, Mühle oder Schach zu ermitteln. Mit seiner Hilfe und einem Trainingsdatensatz von 15 000 klassischen Porträts erzeugte das Pariser Künstlerkollektiv Obvious das Bildnis Edmond Belamys sowie die seiner Verwandten [2].

Abbildung 1: Hinter dem Gemälde steht das Pariser Kollektiv Obvious, bestehend aus KI-Experten und Künstlern, die das kreative Potenzial der künstlichen Intelligenz erforschen (Quelle: Obvious).

Inzwischen existiert eine ganze Flut von KI-Kunstwerken inklusive der fürs Internet typischen, einschlägigen Szene. Daneben gibt es eine ganze Reihe von Webseiten und Apps, über die sich jedermann via Schlagwort oder hochgeladenem Bild eigene künstliche Werke in zahlreichen Stilrichtungen generieren lassen kann. Der Aufmacher dieses Artikels stammt beispielsweise von Night Café [3] und demonstriert, was KI dort nach drei Trainingsdurchläufen aus dem Schlagwort “time machine” macht. Mit recht wenigen Einstellungen kommen Benutzer in kurzer Zeit zu schon ganz ansehnlichen Ergebnissen, wie Abbildung 2 verrät. Wer sein Bild allerdings bis ins kleinste Detail verfeinern möchte, der muss Kreditpunkte kaufen.

Abbildung 2: Ein Schlagwort und Stilparameter genügen, um eine Szene mit Zeitmaschine im Cyberpunk zu generieren.

GANs ahmen jedoch nicht nur Pinselstriche täuschend echt nach. Sie erschaffen unter anderem extrem authentische Fotos von Menschen. Auf der Webseite Thispersondoesnotexist.com [4] finden sich eindrucksvolle Beispiele. Dahinter stehen der KI-Entwickler Phillip Wang und Nividias StyleGAN [5]. Pro Refresh erzeugt StyleGAN für den Besucher jeweils eine neue, fast beängstigend realistische Aufnahme einer Person, die vollkommen fiktiv ist (Abbildung 3). Auf Anhieb fällt es sehr schwer, das Bild als Fälschung zu entlarven – vor allem für menschliche Augen.

Abbildung 3: Nividias StyleGAN liefert derart gute Ergebnisse, dass Betrachter oft nicht sagen können, ob es sich um eine echte Person handelt oder nicht. (Quelle: Tthispersondoesnotexist.com)

Jevin West and Carl Bergstrom von der University of Washington geben im Rahmen des Calling Bullshit Project auf ihrer Webseite Wichfaceisreal.com immerhin ein paar Hinweise, die beim Unterscheiden helfen können [6]. Da sind etwa wie Wasserflecken wirkende Bildfehler, die ein Foto eindeutig als StyleGAN-generiert kennzeichnen, oder nicht wirklich zueinander passende Details am Haaransatz oder den Ohrläppchen. Mitunter tauchen auch Unregelmäßigkeiten beim Hintergrund auf: Um ihn kümmert sich die KI vergleichsweise wenig, da sie auf das Erzeugen von Gesichtern trainiert ist.

GANs und Bewegtbilder

Um Gesichter geht es auch bei einem anderen, noch recht wenig erschlossenen Einsatzgebiet für GANs, der Filmindustrie. Hier wittert man längst, welches Potenzial in der Technik schlummert. Sie dient etwa dazu, einen durchaus problematischen Schönheitsfehler bei synchronisierten Serien oder Filmen zu korrigieren. Der Gesichtsausdruck und die Lippenbewegung der Schauspieler passen häufig nicht zum in einer anderen Sprache gesprochenen Dialog, und das Publikum empfindet diese Dissonanz als störend.

GANs und Deepfakes lösen das Problem. Letztere ersetzen die Mimik und Lippenbewegungen aus der Originalaufnahme. Um passende Deepfakes zu erzeugen, müssen die Anwendungsentwickler Filme oder Serien in einer bestimmten Sprache in Trainingsdatensätze einspeisen. Das GAN kann anschließend auf den Gesichtern der Schauspieler neue Bewegungen mimen, die zur synchronisierten Sprache passen.

Das ist allerdings nur ein kleiner Vorgeschmack auf das, was GANs im Zusammenhang mit Filmen ermöglichen könnten. In diversen Projekten arbeiten Forscher daran, Verstorbene durch KI wieder auferstehen zu lassen. Entwickler am MIT erweckten 2020 beispielsweise Richard Nixon zu neuem Leben, um ihn eine gescheiterte Mondmission in einer Fake-Rede an die Nation bedauern zu lassen [7]. Die gleiche Methode ließe sich theoretisch bei längst dahingeschiedenen Hollywood-Größen anwenden. Damit rücken neue Streifen mit James Dean und Co. in den Bereich des Möglichen.

GANTheftAuto

Die herkömmliche Art und Weise, Computerspiele zu entwickeln, besteht darin, sie in unzählige Zeilen Code zu gießen. Das Programmieren simpler Varianten stellt KI kaum vor besondere Herausforderungen. Ein Set aus Trainingsdaten und Nvidias Generator GameGAN [8] beispielsweise genügt, damit am Ende eine vollständig interaktive Spielewelt herauskommt. Die Pacman-Version einer KI von Nvidia oder ein Intel-Modell, mit dessen Hilfe sich deutlich realistischere Szenen in Videospielen umsetzen lassen, demonstrieren, wie weit die Technik derzeit ist.

Allerdings markiert das keineswegs die Grenze des Möglichen. 2021 erreichten die KI-Entwickler Harrison Kinsley und Daniel Kukiela mit GANTheftAuto [9] das nächste Level (Abbildung 4). Mithilfe von GameGAN gelang es den beiden, eine spielbare Demoversion des 3D-Spiels GTA V zu generieren. Dafür muss die KI – wie bei Nividias Pacman-Projekt – genau eines tun: spielen, spielen und wieder spielen.

Abbildung 4: Indem sie einen bestimmten Abschnitt in GTA V immer wieder abfährt, generiert die KI den Trainingsdatensatz selbst (Quelle: YouTube).

Freilich ist der Action-Adventure-Spieleklassiker mit Rennspiel- und Third-Person-Shooter-Einflüssen weit komplexer. Entsprechend erhöht sich der Trainingsaufwand immens, weswegen sich Kinsley und Kukiela zunächst auf einen einzelnen Straßenzug konzentrierten. Sie ließen ihre KI die Strecke in zahlreichen Iteration wieder und wieder abfahren und so das Trainingsmaterial selbst sammeln. GameGAN lernte währenddessen, Auto und Umgebung voneinander zu unterscheiden.

Das Endergebnis: GANTheftAuto bleibt von der grafischen Präzision ausgewachsener Videospiele zwar noch weit entfernt, kann sich aber trotzdem sehen lassen und dürfte richtungsweisend sein. Immerhin gelang es der KI, sich Details wie die Reflexion des Sonnenlichts in der Heckscheibe oder den Schattenwurf des Wagens aus GTA V korrekt abzuschauen und richtig nachzubilden, wie Kinsley in einem Demovideo auf Youtube erklärt [10].

Fluch, Segen oder beides?

In den fast zwei Dekaden seit Ian Goodfellow den Stein ins Rollen brachte, haben GANs unterschiedliche Bereiche im Sturm erobert und entwickeln sich noch immer rasant weiter. Angesichts der stetig wachsenden Rechenleistung ist das Ende der Fahnenstange noch lange nicht erreicht.

Während die generative KI gerade im Kontext von Bild und Video schon heute beeindruckende Ergebnisse liefert, steckt sie zum Beispiel in der Medizin bei bildgebenden Verfahren wie Röntgen-, CT- oder MRT-Aufnahmen vergleichsweise in den Kinderschuhen. Hier könnten GANs dazu dienen, die Diagnostik und Therapie von Krankheiten erheblich zu verbessern. Mithilfe eines KI-modellierten Krankheitsverlaufs könnten Ärzte frühzeitig ihre Behandlung anpassen und präventiv vorgehen.

Doch bei allem Licht rund um GANs weist die Technik auch ihre Schattenseiten auf: Sie vereinfacht das Erstellen von gefälschten Inhalten drastisch. Das Internet tut in Sachen Publizieren und Verbreiten bekanntlich längst sein Übriges. Regelmäßig tauchen gefälschte Videos von Politikern auf, denen jemand zum Teil verhängnisvolle Worte in den Mund legt – sie zu schlicht lächerlich zu machen, ist dabei noch der harmloseste Zweck. (csi/jlu)

Infos

Portrait of Edmond de Belamy: https://en.wikipedia.org/wiki/Edmond_de_Belamy
Obvious: https://obvious-art.com/page-projects/
Night Café: https://creator.nightcafe.studio/my-creations
Thispersondoesnotexist.com: https://thispersondoesnotexist.com/
StyleGAN: https://github.com/NVlabs/stylegan
Wichfaceisreal.com: https://www.whichfaceisreal.com/
Nixon Deepfake: https://www.scientificamerican.com/article/a-nixon-deepfake-a-moon-disaster-speech-and-an-information-ecosystem-at-risk1/
GameGAN: https://nv-tlabs.github.io/gameGAN/
GANTheftAuto auf Github: https://github.com/Sentdex/GANTheftAuto
GANTheftAuto auf Youtube: https://www.youtube.com/watch?v=udPY5rQVoW0

SCHLAGWORTE
Foto
Internet
KI
Network

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF	Umfang: 3 Heftseiten	Preis €0,99 (inkl. 19% MwSt.)	Kasse

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE	Print-Ausgaben	Digitale Ausgaben
ABONNEMENTS	Print-Abos	Digitales Abo
TABLET & SMARTPHONE APPS

Generative Adversarial Networks und ihre Möglichkeiten

Von der KI zur Kunst

GANs und Bewegtbilder

GANTheftAuto

Fluch, Segen oder beides?

Verwandte Artikel

Editorial

Linux 7.0

Künstliche Intelligenz in der Ausbildung sinnvoll einsetzen

Der freie Einstieg in digitale Kompetenz

Linux-Distributionen für Vor- und Grundschulkinder

Linux für junge Gamer: Spielen, lernen, entdecken

LMP004 Von Nebraska nach Brüssel