Alpha Zero: Sieg nach nur vier Stunden Training

- 14. Dezember 2017

Nur die grundlegenden Regeln des Spiels kennend, hat Googles KI-Algorithmus Alpha Zero innerhalb von vier Stunden Schach gelernt, um dann das weltbeste Schachprogramm Stockfish zu schlagen.

100 Partien spielten die beiden Programme gegeneinander, 28 gewann Alpha Zero, 72 Mal gab es ein Remis und Alpha Zero verlor kein einziges Spiel. Ein Paper auf Arxiv.org erklärt die Hintergründe. Das Besondere ist in diesem Fall, dass der Alpha-Zero-Algorithmus, der auf dem Alpha-Go-Zero-Algorithmus basiert, nur die Regeln des Spiels kannte und sich dieses dann innerhalb kürzester Zeit selbst beibrachte. Entworfen hat ihn die britische Firma Deepmind, die mittlerweile zu Google gehört.

Der Algorithmus nutzt ein vielschichtiges neurales Netz (Deep Neural Network), und verwendet anders als sein Vorgänger keine speziell angepassten Evaluationsfunktionen, sondern so genanntes Tabula-Rasa-Reinforcement-Learning. Auch verzichtet er auf domainspezifische Verbesserungen und stützt sich stattdessen auf eine Monte-Carlo-Tree-Suche.

Alpha-Go-Zero spielte beim Trainieren gegen sich selbst, und nutzte bei jedem Durchlauf als neuen Gegner die besten Spieler aus dem vorherigen Durchlauf. Gewann ein neuer Spieler mit einem Abstand von 55 Prozent, ersetzte er den bisherigen Champion. Alpha Zero schätzt und optimiert den zu erwartenden Ausgang und zieht dabei auch Unentschieden und andere Ausgänge mit ein. Dann verwendet es allerdings stets die letzten Parameter für das nächste Spiel, der Auswertungs-Schritt und die Auswahl des besten Spielers fallen also weg. Und während Alpha-Go-Zero die so genannten Hyper-Parameter jeweils anpasste, verzichtet Alpha Zero auf spielspezifische Anpassungen. Damit folgt die neue KI einem Modell, dass Claude E. Shannon 1949 entwarf, nutzte weniger Evaluationen und konzentrierte sich mehr auf die vielversprechendsten Variationen.

Laut dem Paper gelang es Alpha Zero das führende Schachpogramm Stockfish nach nur vier Stunden und nach 300 000 Durchläufen zu schlagen. Gegen die Shogi-Software Elmo (Shogi ist die japanische Schach-Variante) gewann die KI bereits nach zwei Stunden und in 110 000 Schritten. Gegen die jüngste Alpha-Go-Variante gewann Alpha Zero in 8 Stunden und nach 165 000 Schritten. Dabei kam sowohl für Alpha Zero als auch für Alpha Go Zero ein Einzelrechner mit vier TPUs (Tensorflow Processing Unit) zum Einsatz.

SCHLAGWORTE
Deep Learning
Google

Weltklassemodell aus China vorgestellt

Das chinesische Start-up Moonshot hat mit Kimi K3 ein neues Modell mit 2,8 Billionen Parametern vorgestellt, das auch in unabhängigen Tests mit den besten Modellen von OpenAI oder Anthropic mithalten kann. Damit schließt das Modell die Lücke, die bisher noch zwischen den amerikanischen...

Forgejo 16.0 ist da

Die neue Version 16.0 des leichtgewichtigen Tools für Code-Hosting und -Kollaboration ist am 16. Juli 2026 erschienen.

Klarstellung: Linus Torvalds erlaubt KI bei Kernel-Entwicklung

Der Einsatz von Künstlicher Intelligenz ist bei der Kernel-Entwicklung explizit erlaubt – das Linus Torvalds im Rahmen einer Diskussion noch einmal klargestellt. Für KI-Kritiker findet er darin zudem drastische Worte.

frame: vollständig in Assembler geschriebener X-Server

Der Norweger Geir Isene hat einen X-Server komplett in Assembler geschrieben. Der soll nicht nur deutlich ressourcenschonender arbeiten als das Pendant von X.org, er besteht derzeit auch nur aus rund 20.000 Zeilen Code. Es gibt aber auch ein paar Haken.

OpenShift 4.22 bringt Updates für Sicherheit, Virtualisierung und KI

Red Hat hat die Version 4.22 seiner Plattform OpenShift veröffentlicht. Das Update bringt Neuerungen für die Sicherheit, die Verwaltung virtueller Maschinen, die Automatisierung von Cloud-Infrastrukturen und den Betrieb von Anwendungen mit Künstlicher Intelligenz.

FrOSCon 2026: Programm steht fest

Die diesjährige FrOSCon findet am 15. und 16. August statt.

Die Free and Open Source Software Conference findet am 15. und 16. August 2026 an der Hochschule Bonn-Rhein-Sieg in Sankt Augustin statt. Der Eintritt ist frei.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Was ist die beliebteste Linux-Distro? Zum Einstieg nehmen wir das DistroWatch-Ranking auseinander und erklären, warum Seitenaufrufe keine Popularität messen. Im Hauptthema geht es um Open Source Funding: Wie im XKCD 2347 ruht unsere digitale Infrastruktur auf Komponenten, die oft von Einzelnen...