Nur die grundlegenden Regeln des Spiels kennend, hat Googles KI-Algorithmus Alpha Zero innerhalb von vier Stunden Schach gelernt, um dann das weltbeste Schachprogramm Stockfish zu schlagen.
100 Partien spielten die beiden Programme gegeneinander, 28 gewann Alpha Zero, 72 Mal gab es ein Remis und Alpha Zero verlor kein einziges Spiel. Ein Paper auf Arxiv.org erklärt die Hintergründe. Das Besondere ist in diesem Fall, dass der Alpha-Zero-Algorithmus, der auf dem Alpha-Go-Zero-Algorithmus basiert, nur die Regeln des Spiels kannte und sich dieses dann innerhalb kürzester Zeit selbst beibrachte. Entworfen hat ihn die britische Firma Deepmind, die mittlerweile zu Google gehört.
Der Algorithmus nutzt ein vielschichtiges neurales Netz (Deep Neural Network), und verwendet anders als sein Vorgänger keine speziell angepassten Evaluationsfunktionen, sondern so genanntes Tabula-Rasa-Reinforcement-Learning. Auch verzichtet er auf domainspezifische Verbesserungen und stützt sich stattdessen auf eine Monte-Carlo-Tree-Suche.
Alpha-Go-Zero spielte beim Trainieren gegen sich selbst, und nutzte bei jedem Durchlauf als neuen Gegner die besten Spieler aus dem vorherigen Durchlauf. Gewann ein neuer Spieler mit einem Abstand von 55 Prozent, ersetzte er den bisherigen Champion. Alpha Zero schätzt und optimiert den zu erwartenden Ausgang und zieht dabei auch Unentschieden und andere Ausgänge mit ein. Dann verwendet es allerdings stets die letzten Parameter für das nächste Spiel, der Auswertungs-Schritt und die Auswahl des besten Spielers fallen also weg. Und während Alpha-Go-Zero die so genannten Hyper-Parameter jeweils anpasste, verzichtet Alpha Zero auf spielspezifische Anpassungen. Damit folgt die neue KI einem Modell, dass Claude E. Shannon 1949 entwarf, nutzte weniger Evaluationen und konzentrierte sich mehr auf die vielversprechendsten Variationen.
Laut dem Paper gelang es Alpha Zero das führende Schachpogramm Stockfish nach nur vier Stunden und nach 300 000 Durchläufen zu schlagen. Gegen die Shogi-Software Elmo (Shogi ist die japanische Schach-Variante) gewann die KI bereits nach zwei Stunden und in 110 000 Schritten. Gegen die jüngste Alpha-Go-Variante gewann Alpha Zero in 8 Stunden und nach 165 000 Schritten. Dabei kam sowohl für Alpha Zero als auch für Alpha Go Zero ein Einzelrechner mit vier TPUs (Tensorflow Processing Unit) zum Einsatz.




