General 07/12/2017 | 07:00por Colin McGourty

El nuevo amo del ajedrez: AlphaZero

Veinte años después de que DeepBlue venciera a Garry Kasparov, los ajedrecistas han despertado ante una nueva revolución. El algoritmo AlphaZero desarrollado por Google y DeepMind necesitó solo de cuatro horas de jugar contra sí mismo para sintetizar el conocimiento ajedrecístico de un milenio y medio y alcanzar un nivel en el que no solo superó a los humanos sino también al campeón mundial de módulos de análisis, Stockfish, por 28 victorias a 0 en un match a 100 partidas. Todas las estratagemas brillantes y los refinamientos de los programadores humanos han sido superados, y al igual que los jugadores de Go solo podemos maravillarnos ante este nuevo paradigma.

Con la llegada de AlphaZero el mundo del ajedrez nunca volverá a ser el mismo

Hace solo cinco días, en un mundo más inocente, Ian Nepomniachtchi declaró después de la primera ronda del London Chess Classic en las oficinas de Google:

Espero que se cree una gran historia de cooperación entre Google y el ajedrez. Que no se trate de crear un AlphaGo, un AlphaChess, lo que matará el ajedrez, sino una colaboración amistosa.

Ya se veían signos preocupantes, sin embargo, pues AlphaGo, el programa que superó al campeón del mundo de los humanos, había sido superado por AlphaGoZero, que aprendió todo simplemente jugando contra sí mismo.

El cofundador de DeepMind, Demis Hassabis, es un ex-prodigio del ajedrez, y mientras que su equipo se había establecido el desafío de vencer al Go, un juego en el que los humanos todavía están aprendiendo, él estaba obviamente tentado por la idea de aplicar las mismas técnicas al ajedrez. Hace mucho hemos reconocido nuestra inferioridad como humanos, pero podíamos orgullecernos del hecho de que las máquinas de ajedrez que nos vencen también fueron producto del ingenio humano. Eso estaba a punto de cambiar.

Ahora sabemos por qué Demis Hassabis, aquí al lado de Magnus Carlsen, estaba de tan buen humor | foto: Lennart Ootes, Grand Chess Tour

La sorpresa llegó en un paper académico lanzado sin mayores pomposidades el 5 de diciembre de 2017: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm


El trabajo está disponible en la red:

El contenido es impresionante. El equipo de DeepMind logró demostrar que una versión genérica de su algoritmo, sin ningún conocimiento específico más que las reglas del juego, puede entrenarse durante cuatro horas en el ajedrez, dos horas en el shogi (ajedrez japonés) u ocho horas en Go y luego vencer a los campeones reinantes de entre los módulos computacionales, es decir, los más fuertes competidores de cada disciplina. En el caso del ajedrez, no fue solo una paliza, sino que una gran demolición.

Stockfish es el campeón reinante del torneo TCEC de módulos y, si bien no pudo llegar a la final este año, quedó invicto en 51 partidas. En un match contra AlphaZero, sin embargo, perdió 28 partidas y no ganó ninguna, sumando 71 empates. Con blancas, AlphaZero obtuvo unas impresionantes 25 victorias y 25 empates, mientras que con negras "apenas" consiguió 3 victorias y 47 empates. ¡Resulta que tener el primer movimiento es realmente importante después de todo!

En su trabajo, DeepMind compartió 10 de las victorias que obtuvo contra Stockfish, las cuales hemos añadido a nuestra plataforma. Pueden reproducirlas con un análisis de computadoras (algo inferior):

Las partidas son fascinantes y ya han llamado muchísimo la atención de los ajedrecistas. Por ejemplo, en la primera AlphaZero, con negras, decidió quedarse con la pareja de alfiles a pesar de que Stockfish tiene cuatro peones por un alfil:


¡Y la pareja de alfiles ganó! En la última partida AlphaZero decidió no defender al caballo de h6 tras 18...g5:


En cambio, optó por 19.Te1!? con más sacrificios complejos luego. Hay algo para todos:

Jon Ludvig Hammer: "Ya sabíamos que las computadoras eran bestias tácticas, son las victorias posicionales las que me sorprenden. La partidas 7-9 son excepcionales".

¡Pronto volveremos al ajedrez!

¿Cómo lo hicieron?

Primero, tal vez, lo más destacado es cómo no lo hicieron:

Dan Smith: "¿Esto significa que la computadora no fue construida con un libro de aperturas incluido? ¿Es posible ver sus partidas iniciales? Sería interesante ver su curva de aprendizaje".

Demis Hassabis: "Ningún libro de apertura, ninguna base de datos de finales, nada heurístico, ¡nada de nada! Un paper más completo será presentado pronto, incluirá cosas como las partidas iniciales".

En cambio, el algoritmo fue fiel a su nombre y comenzó de cero, solo con las reglas del juego. Luego comenzó a jugar usando un algoritmo de Monte-Carlo, que usa jugadas aleatorias en un principio hasta que una red neuronal comienza a aprender cuáles son las opciones más prometedoras. Hace solo un par de meses, Alexander Morozevich comentó:

Hasta 2015, era el único juego intelectual en el que los profesionales eran más fuertes que las máquinas, y recién el año pasado o hace un año y medio, aparecieron los primeros presagios de que efectivamente el final del go estaba llegando. Por ahora, no está del todo formalizado, pero gradualmente, me parece, seguirán el mismo camino que seguimos en el ajedrez. Las máquinas, por supuesto, alcanzarán una posición absolutamente dominante, a pesar de que el cálculo y la evaluación de algoritmos es bastante diferente. Hasta donde entiendo, el algoritmo usado por AlphaGo, el programa más exitoso, es un algoritmo de Montecarlo. Ese también fue uno de los principales enfoques computacionales en el ajedrez, pero no ganó mucha popularidad. Las máquinas alcanzaron un Elo máximo de 2400 con eso. Después de todo, nuestro juego tiene más que ver con una selección directa, mientras que en el go fue posible incluso usar ese algoritmo, algo que es muy interesante.

Resulta que el enfoque funcionó después de todo, aunque el factor clave tal vez haya sido un hardware fenomenal.

Solían decir que se necesitan 10.000 horas de práctica deliberada para aprender algo...

Durante su entrenamiento, AlphaGo tenía acceso a "5.000 TPUs de primera generación para generar partidas contra sí mismo y 64 TPUs de segunda generación para entrenar las redes neuronales". Las TPUs, o unidades de procesamiento de tensor, ni siquiera están disponibles al público, pues fueron desarrolladas por Google específicamente para manejar el tipo de cálculos necesarios para el aprendizaje de las máquinas. El algoritmo entrenado, por su parte, corrió en una sola máquina con cuatro TPUs, y DeepMind enfatiza la eficiencia de su enfoque, pues AlphaZero genera 80.000 posiciones comparadas con las 70 millones de Stockfish. ¿Cómo alcanza tanta eficiencia?

AlphaZero compensa la baja cantidad de evaluaciones con el uso de su red neuronal, que se enfoca de forma mucho más selectiva en las variantes más prometedoras, es decir, usa un enfoque más "humano", como lo propuso originalmente Shannon. La figura 2 muestra la escalabilidad de cada jugador respecto a su tiempo de procesamiento. El MCTS de AlphaZero escaló con más efectividad que Stockfish o Elmo, creando el cuestionamiento de si la búsqueda alfa-beta es inherentemente superior en estos dominios.


Entonces, si se le da más de un minuto por jugada (como en las partidas antes mostradas), podemos esperar que AlphaZero gane más fuerza que los enfoques tradicionales que usan "fuerza bruta". Por otra parte, los autores también mencionan que no hay nada que les impida implementar algunos de los trucos tradicionales de los módulos de ajedrez:

Es probable que algunas de estas técnicas podrían mejorar el desempeño de AlphaZero; sin embargo, nos hemos enfocado en un enfoque puramente de autoaprendizaje y hemos dejado estas extensiones para una investigación futura.


¿Qué hemos aprendido?

Los algoritmos genéricos de aprendizaje automático cambian toda la perspectiva, y no solo para el ajedrez sino también para el mundo que nos rodea. Si llegamos a crear algún tipo de consciencia e inteligencia muy básicas —el significado real de la Inteligencia Artificial—, es posible que este enfoque de aprendizaje se transforme en la entidad más inteligente del universo conocido. Entretanto, sin embargo, no complace ver que la computadora ha justificado cientos de años de desarrollo ajedrecístico, pues el programa, completamente por su cuenta, ha terminado usando algunas de las aperturas mejor conocidas por los humanos:


Los gráficos son fascinantes, pues se puede ver cómo algunas aperturas se volvieron populares en las partidas de aprendizaje del algoritmo —como la Defensa Francesa y la Caro-Kann— antes de perder popularidad con el aumento de su fuerza. Se ve también que la popularidad del Gambito de Dama en la élite está justificada, además de la obtenida por otra notoria apertura...

Jon Ludvig Hammer: "Previsiblemente, AlphaZero juega la Berlinesa".

¿Hacia dónde nos dirigimos ahora?

Lo que suceda después dependerá, en gran medida, del interés que tenga DeepMind en mantener activo su algoritmo. ¿Será "desmantelado" como DeepBlue? O, en cambio, ¿será puesto a disposición, gratis o no, de los ajedrecistas? Nos podemos imaginar que los grandes maestros de élite, desesperados por conseguir cualquier tipo de ventaja, estarán ansiosos por tener el programa. ¿Será posible usar este "módulo" con el software disponible para hacer evaluaciones de jugadas potenciales?

¿Y ahora qué harán los programadores tradicionales? ¿Tendrán que dejar de lado los refinamientos de las funciones de evaluaciones creadas por humanos? ¿O las redes neuronales todavía requieren de un poder de procesamiento y equipamiento todavía no disponibles para todos? ¿Podrán seguir los pasos de DeepMind o existirán técnicas que no pueden ser fácilmente copiadas?

Queda mucho por reflexionar, pero por ahora ¡el mundo del ajedrez ha sido sacudido!

Erwin L'Ami: "¡Frente a las ruinas de mi cosmovisión!"

Olimpiu G. Urcan: "Nos tomó 1.500 años estandarizar las reglas del ajedrez, avanzar su teoría y esperar que aparezcan genios humanos que nos compartan los misterios de sus partidas. A AlphaZero le tomó 24 horas aprender por sí mismo y destrozar a nuestras máquinas más fuertes".

Jon Ludvig Hammer: "Fui a dormir y desperté ante el Armagedón".

Lo que suceda luego es una historia que valdrá la pena seguir en los próximos días, semanas y meses.

Ver más:


Ordenado por Fecha descendente Fecha descendente Fecha ascendente Más popular Recibir actualizaciones

Comentarios 59

Invitado
Guest 3545918925
 
Únete a chess24
  • Gratis, rápido y sencillo

  • No hay comentarios para este artículo

Registro
o

¡Crea gratuitamente tu cuenta para empezar!

Haciendo clic en 'Regístrate' aceptas nuestros términos y condiciones y confirmas haber leído nuestra política de uso de datos, incluyendo la sección de uso de cookies.

¿Perdiste tu contraseña? No hay problema, ¡te enviamos un enlace para restaurarla!

Después de que nos envíes este formulario, recibirás un email con un enlace para restaurar la contraseña. Si sigue sin funcionar, contáctanos Servicio al cliente