Allgemein 07.12.2017 | 11:19von Colin McGourty

Schachrevolution durch AlphaZero

20 Jahre nach Garry Kasparovs Niederlage gegen DeepBlue wurde die Schachwelt erneut revolutioniert. Der von Google und DeepMind entwickelte AlphaZero-Algorithmus musste nur vier Stunden gegen sich selbst spielen, um sich das Schachwissen von anderthalb Jahrtausenden anzueignen und ein Niveau zu erreichen, das nicht nur für die besten Menschen, sondern auch den amtierenden Computerschach-Weltmeister ausreicht. In einem auf 100 Partien angesetzten Match schlug das Programm Stockfish mit 28 zu 0 Siegen.

Nachdem DeepMind AlphaZero entwickelt hat, wird die Schach(computer)welt nicht mehr dieselbe sein

Erst vor fünf Tagen meinte Ian Nepomniachtchi vor der 1. Runde der London Chess Classic in der Firmenzentrale von Google:

Ich hoffe, dass es eine große gemeinsame Zukunft von Google und dem Schachspiel gibt. Damit meine ich nicht Erfindungen wie AlphaGo oder AlphaChess, die das Schach kaputtmachen, sondern eine freundlichere Kooperation.

Die Vorzeichen war jedoch alarmierend, denn AlphaGo, das Programm, das den Go-Weltmeister schlug, wurde mittlerweile von AlphaGoZero abgelöst, das sich das Spiel selbst beibringt. 

Einer der Gründer von DeepMind, Demis Hassabis, galt früher selbst als Schachwunderkind, und als seine Mitarbeiter sich der Herausforderung angenommen hatten, den Menschen beim Go schlagen, war es natürlich verlockend, dieselbe Technik auf Schach anzuwenden. Wir haben längst eingesehen, dass der Mensch unterlegen ist, doch konnten wir uns damit trösten, dass die Schachcomputer, die uns schlagen, immerhin das Werk menschlicher Genialität sind. Das hat sich geändert.  

Jetzt wissen wir, warum Demis Hassabis (neben Magnus Carlsen) zu Beginn der London Chess Classic so gut gelaunt war | Foto: Lennart Ootes, Grand Chess Tour

Die Bombe platzte am 5. Dezember 2017 in Form einer Dokumentation, die ohne großes Aufsehen veröffentlicht wurde: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm


Ihr könnt sie hier herunterladen:

Der Inhalt ist beeindruckend. Das Team von DeepMind kann nachweisen, dass eine generische Version seines Algorithmus ohne Kenntnisse, die über die Regeln hinausgehen, sich selbst vier Stunden beim Schach, zwei Stunden beim Shogi (Japanisches Schach) oder acht Stunden beim Go trainieren und anschließend den amtierenden Computerweltmeister – sprich den stärksten Spieler der Welt - schlagen kann! Beim Schach kam dabei nicht nur ein Sieg heraus, sondern eine Vernichtung.  

Stockfish ist der amtierende TCEC-Computerschach-Weltmeister, der dieses Jahr zwar nicht dasWM- Finale erreichte, aber davor in 51 Partien ungeschlagen geblieben war. In einem Match mit AlphaZero verlor er 28 Partien und blieb bei 72 Remis ohne Sieg. Als Weißer erzielte AlphaZero phänomenale 25 Siege bei 25 Remis, während er als Schwarzer „nur“ drei Siege und 47 Remis erreichte. Wie man sieht, ist es durchaus wichtig, wer die Partie beginnt!

In dem Papier publiziert DeepMind zehn Gewinnpartien gegen Stockfish, die ihr hier mit klassischer Computeranalyse nachspielen könnt (einfach auf das Ergebnis klicken):

Die Partien sind faszinierend und wurden bereits von Schachkennern hochgelobt. In der ersten Partie etwa strebte AlphaZero eine Stellung mit dem Läuferpaar an, obwohl Weiß vier Bauern für einen Läufer hat: 


Natürlich setzte sich das Läuferpaar durch! In der letzten Partie ließ AlphaGo den Springer auf h6 nach 18...g5 einfach hängen:


Stattdessen kam 19.Te1!?, was nur die Vorbereitung für weitere Opfer war. Für jeden Geschmack war etwas dabei:

"Wir alle mussten, dass Computer taktische Monster sind - mich haben die positionellen Siege beeindruckt. Die Partien 7 bis 9 sind genial!"

Wie funktioniert das?

Zunächst ist festzuhalten, was nicht gemacht wurde:

"Heißt das, dass der Computer kein Eröffnungsbuch hat? Kann man sich die ersten Partien ansehen? Es wäre interessant, sich die Lernkurve anzuschauen."

"Kein Eröffnungsbuch, keine Endspiel-Tablebases, keine Heuristiken, nichts. Die komplette Dokumentation kommt bald heraus, darin sind auch die ersten Partien enthalten." 

Stattdessen wird der Algorithmus seinem Namen gerecht und beginnt, die Regeln ausgenommen, bei  Null. Danach spielte er mit dem sogenannten Monte-Carlo-Algorithmus, bei dem zunächst zufällig ausgewählte Züge ausprobiert werden und ein neuronales Netzwerk lernt, welche Möglichkeiten vielversprechender sind. Dies scheint der richtige Ansatz zu sein, allerdings ist der ausschlaggebende Faktor womöglich die phänomenale Hardware.

Früher dachte man, man bräuchte 10.000 Stunden...

Während des Trainings hatte AlphaGo Zugang zu “5.000 TPUs, um Partien gegen sich selbst zu generieren, und 64 TPUs, um die neuronalen Netzwerke zu trainieren“.

TPUs, tensor processing units bzw. Tensorprozessoren , sind im freien Handel nicht erhältlich, da sie von Google speziell dafür entwickelt wurden, die Berechnungen durchzuführen, die beim maschinellen Lernen benötigt werden. Der bereits trainierte Algorithmus lief derweil auf einem Computer mit vier TPUs und war dabei sehr effizient: Statt 70 Millionen Stellungen pro Sekunde wie Stockfish berechnet er nur 80.000. Warum aber ist er so effizient?

AlphaZero kompensiert die deutlich niedrigere Anzahl von Berechnungen durch sein tiefgründiges neuronales Netzwerk, das sich stärker auf die vielversprechendsten Varianten konzentriert und dadurch einen „menschlicheren“ Ansatz verfolgt. Abbildung 2 zeigt die Skalierbarkeit jedes Spielers im Hinblick auf die Bedenkzeit, gemessen auf einer Elo-Skala und bezogen auf Stockfish bzw. Elmo mit 40 Minuten Bedenkzeit. Damit wird der weit verbreitete Glaube infrage gestellt, dass die Alpha-Beta-Suche in diesen Belangen die überlegene Technik sei. 


Nimmt die Bedenkzeit im Vergleich zu der einen Minute pro Zug der oben genannten Partien zu, kann man davon ausgehen, dass AlphaZero sich noch mehr verbessert als die bisherigen „Holzhammermethoden“, wobei die Autoren auch anmerken, dass es keinen Grund gebe, nicht auch auf einige traditionelle Tricks der Schachcomputertechnologie zurückzugreifen:

Wahrscheinlich werden diese Techniken die Spielstärke von AlphaZero weiter verbessern; bisher haben wir uns aber ausschließlich auf den Lernprozess durch Spiel gegen sich selbst konzentriert und werden diese Erweiterungen erst bei der zukünftigen Forschung berücksichtigen.


Was lernen wir daraus?

Algorithmen, die sich maschinell etwas beibringen, verändern nicht nur Spiele wie Schach, sondern die Welt um uns herum. Gelingt es uns, eine sehr grundlegende Form von Bewusstsein und Intelligenz – also die wahre Bedeutung von Künstlicher Intelligenz - zu kreieren, kann es sein, dass dabei am selben Tag oder wenig später das intelligenteste Wesen des Universums herauskommt. Immerhin ist es erfreulich zu sehen, dass der Computer die Entwicklung des Schachs der letzten 100 Jahre anerkennt, denn das Programm hat sich ausschließlich selbst einige der bekanntesten menschlichen Eröffnungen zu Eigen gemacht:


Die Graphiken sind faszinierend, da man nachvollziehen kann, wie bestimmte Eröffnungen - wie Französisch oder Caro-Kann - im Verlauf des Trainings populär und dann mit zunehmender Spielstärke wieder unbeliebter wurden. Außerdem sieht es so aus, als gäbe es einen Grund für die Popularität des Damengambits, das auch auf höchstem Niveau immer wieder zur Anwendung kommt... 

"Kaum überraschend, dass AlphaZero die Berliner Verteidigung spielt"

Wie geht es weiter?

Was nun passiert, hängt stark davon ab, wie sehr DeepMind seinen Algorithmus „am Leben erhält“. Wird er wie DeepBlue „verschrottet“ oder kostenlos bzw. kostenpflichtig für Schachspieler verfügbar sein? Man kann sich vorstellen, dass die Schachelite, die begierig nach jedem noch so kleinen Vorteil sucht, sich darum reißen wird. Kann es sein, dass dieses Programm neben der bisherigen Software zur Stellungseinschätzung und zum Finden potentieller Züge genutzt wird?   

Was machen außerdem die klassischen Schachprogrammierer? Können sie in DeepMinds Fußstapfen treten oder bleiben ihnen die Techniken verwehrt, die sie selbst nicht so einfach entwickeln können?

Viele offene Fragen, aber die Schachwelt ist erschüttert!

"Auch die Ära der Schachcomputerprogramme scheint vorbei zu sein. AlphaZero brauchte nur vier Stunden Training mit sich selbst, um Stockfish 64:36 zu schlagen."

Warten wir die weiteren Ereignisse der nächsten Wochen und Monate ab.

Weitere Links:


Sortieren nach Datum (absteigend) Datum (absteigend) Datum (aufsteigend) meiste Likes Benachrichtigung bei neuen Kommentaren

Kommentare 29

Guest
Guest 4697984111
 
chess24 beitreten
  • Kostenlos, Schnell & Einfach

  • Sei der Erste, der kommentiert!

Registrieren
oder

registriere dich und leg los!

Ich bin älter als 16 Jahre.

Mit einem Klick auf 'Registrieren' stimmst du unseren Nutzungsbedingungen zu und bestätigst, dass du unsere Datenschutzrichtlinie und den Abschnitt über die Verwendung von Cookies gelesen hast.

Lost your password? We'll send you a link to reset it!

Nach der Übermittlung deiner E-Mail-Adresse erhältst du von uns eine E-Mail mit einem Link zum Zurücksetzen des Passworts. Wenn du dann weiterhin nicht auf deinen Account zugreifen kannst, melde dich bitte beim Kundendienst.

Einwilligung Datenverarbeitung Details

Wir respektieren Deine Privatsphäre und Datenschutzbestimmungen.

Die Nutzung von chess24 erfordert die Verarbeitung und Speicherung von persönlichen Daten, die im folgen beschrieben werden. Du findest weitere Details unter Cookie-Richtlinie, Datenschutzrichtlinie, Impressum und Nutzungsbedingungen. Du kannst Deine Einstellungen jederzeit durch einen Klick auf Einwilligung Datenverarbeitung am unteren Rand der Seite ändern.

Details

Essentielle Daten

Einige Daten werden grundsätzlich benötigt, um die Webseite zu benutzen. Die Daten werden in einem s.g. Cookie (also einer kleinen Textdatei auf Deinem Computer) abgelegt. Die Daten beinhalten eine Session-ID, eine eindeutige und anonyme Nutzerkennung kombiniert mit einem Schlüssel, um individuelle anfragen von Dir technisch zu beantworten (user_data). Ein weiterer Sicherheitsschlüssel (csrf) wird ebenfalls gespeichert, um übliche online Angriffe zu verhindern. Diese Felder bestehen aus alphanumerischen Zeichenketten, die keinen Hinweis auf Dich als Peron beinhalten. Eine Ausnahme ist, dass wir zu vielen anfragen an unser System die IP-Adresse speichern, so dass wir eine bösartige Nutzung und Fehler erkennen können. Zusätzlich wird ein technisches Feld gespeichert (singletab), um sicherzustellen, dass einige Aktionen nur in dem aktiven Browser-Tab ausgeführt werden (z.B. das Öffnen eines Spiels). Wir benutzen die lokale Speicherung, um den Unterschied zwischen Deiner Systemzeit und der Serverzeit festzuhalten, so dass wir Dir korrekte Zeitangaben anzeigen können. Du kannst weitere Funktionen der Datenverarbeitung aktivieren. Deine persönliche Auswahl wird ebenfalls lokal gespeichert.

Einstellungsdaten

Wir bieten eine ganze Reihe persönlicher Einstellungen für mehr Komfort auf unserer Webseite an. Die Optionen beinhalten z.B. gegen wen Du gern online spielen möchtest, Deine bevorzugten Schachbrett- und Figuren-Designs, die bevorzugte Größe des Brettes, die Lautstärke des Video-Players, Deine bevorzugte Sprache, ob Du lieber den Chat oder die Schachnotation benutzt und vieles mehr. Du kannst diese Seite benutzen ohne Einstellungen vorzunehmen bzw. zu speichern, aber wenn Du möchtest, dass wir uns Merken welche Einstellungen Du vornimmst, dann empfehlen wir Dir dringend diese Funktion zu aktivieren. Für registrierte eingeloggte Nutzer ist diese Funktion essentiell, um auch Daten zu Deinen Privatspähre-Einstellungen, geblockte Nutzer und auch Deine Freundschaften auf chess24 zu sichern.

Daten zu Sozialen Medien

Wir bieten einen Twitter-Feed an, der Dir live die Aktivität zu unserem Hashtag #c24live anzeigt. Darüber hinaus erlauben wir Dir Inhalte in Sozialen Netzwerken zu teilen. Wenn Du diese Funktion aktivierst, dann findet ein technischer Datenaustausch mit Sozialen Netzwerken statt und diese können Daten auf Deinem Computer ablegen.

Statistik-Daten

Wir möchten gern messen wie unsere Webseite benutzt wird, so dass wir besser entscheiden können, welche Funktionen wir als nächstes entwickeln und wie wir die Nutzererfahrung weiter verbessern können. Wenn Du diese Funktion aktivierst, dann schicken wir Statistiken zu Seitenaufrufen und Aktionen zu Google Analytics. Die Daten haben keinen direkten Bezug zu Deinem Nutzer oder Deiner Person außer der IP-Adresse und Deiner Identifikatoren von Google Analytics.

Marketing-Daten

Um uns zu ermöglichen kostenlose Dienste anzubieten, möchten wir Dich bitten personalisierte Werbung von unseren Werbe-Partnern zu akzeptieren. Wenn Du diese Funktion aktivierst, werden ggf. Daten von den Werbenden erhoben und gespeichert, dafür erhältst Du relevantere Werbeinhalte und wir können mehr in kostenlose Funktionen und Inhalte investieren.

Andere Daten

Für registrierte Nutzer speichern wir mehr Informationen wie z.B. Dein Profil, das Du jederzeit einsehen und verändern kannst, Deine Schachspiele, Deine Analysen, Foren-Inhalte, Chats und Nachrichten, Deine Freunde und geblockte Nutzer und Inhalte oder Abos, die Du abgeschlossen hast. Du findest alle Daten in Deinem persönlichen Profil. Eine kostenlose Registrierung ist nicht erforderlich, um diese Webseite zu nutzen. Wenn Du unser Support-Team kontaktierst, dann wird ein Ticket mit Deinem Namen und Deiner Emailadresse erstellt, so dass wir Dir antworten können. Diese Daten werden beim Dienstleister Zendesk verarbeitet. Hast Du einen Newsletter abonniert oder bist Du ein registriertes Mitglied, dann schicken wir Dir gern von Zeit zu Zeit aktuelle Neuigkeiten. Du kannst ein Newsletter Abonnement jederzeit abbestellen und als registriertes Mitglied feinere Einstellungen zu den Emails, die wir verschicken im Profil vornehmen. Für Newsletter übertragen wir Deine Email-Adresse und den Nutzernamen zeitweise zu dem Dienstleister Mailchimp. Wenn Du Inhalte oder Abonnements erwribst, dann arbeiten wir mit dem Zahlungsanbieter Adyen zusammen, der Deine Zahlungsdaten und Daten über den Zahlungsprozess (z.B. um Betrug vorzubeugen) erfasst und auswertet.