El año pasado, AlphaGo, de Google DeepMind, tomó por asalto el mundo de la Inteligencia Artificial (IA), demostrando que un programa informático podía vencer a los mejores jugadores humanos de Go del mundo.
Pero en una demostración del febril ritmo de progreso de la IA moderna, esta semana se han publicado en Nature los detalles de un nuevo hito alcanzado por una versión mejorada llamada AlphaGo Zero.
Usando menos potencia de cálculo y sólo tres días de entrenamiento, AlphaGo Zero venció al AlphaGo original en una partida de 100 juegos por 100 a 0. Ni siquiera mereció la pena que aparecieran los humanos.
Aprendiendo a jugar al Go
El Go es un juego de estrategia entre dos jugadores que se turnan para colocar «piedras» en un tablero de 19×19. El objetivo es rodear un área mayor del tablero que tu oponente.
El Go ha demostrado ser mucho más difícil de dominar que el ajedrez para los ordenadores. Hay muchas más jugadas posibles en cada posición en el Go que en el ajedrez, y muchas más partidas posibles.
El AlphaGo original aprendió por primera vez estudiando 30 millones de jugadas de expertos humanos. Luego mejoró más allá de la experiencia humana jugando muchas partidas contra sí mismo, lo que le llevó varios meses de tiempo del ordenador.
Por el contrario, AlphaGo Zero nunca vio jugar a los humanos. En cambio, comenzó conociendo solo las reglas del juego. A partir de un número relativamente modesto de cinco millones de partidas de autojuego, que le llevó solo tres días en un ordenador más pequeño que el AlphaGo original, aprendió un rendimiento super-AlphaGo.
Fascinantemente, su aprendizaje imitó aproximadamente algunas de las etapas por las que los humanos progresan cuando dominan el Go. AlphaGo Zero aprendió rápidamente a rechazar los objetivos ingenuos a corto plazo y desarrolló un pensamiento más estratégico, generando muchos de los patrones de movimientos que suelen utilizar los expertos humanos de alto nivel.
Pero, sorprendentemente, empezó a rechazar algunos de estos patrones en favor de nuevas estrategias nunca vistas antes en el juego humano.
Más allá del juego humano
AlphaGo Zero logró esta hazaña al abordar el problema de forma diferente al AlphaGo original. Ambas versiones utilizan una combinación de dos de los algoritmos más potentes que actualmente alimentan la IA: el aprendizaje profundo y el aprendizaje por refuerzo.
Para jugar a un juego como el Go, hay dos cosas básicas que el programa necesita aprender. La primera es una política: la probabilidad de realizar cada uno de los movimientos posibles en una posición determinada. La segunda es un valor: la probabilidad de ganar a partir de una posición determinada.
En el enfoque de aprendizaje por refuerzo puro de AlphaGo Zero, la única información disponible para aprender las políticas y los valores era para predecir quién podría ganar finalmente. Para hacer esta predicción utilizaba su política y valores actuales, pero al principio estos eran aleatorios.
Este es claramente un enfoque más desafiante que el de AlphaGo original, que utilizaba movimientos humanos expertos para obtener una ventaja en el aprendizaje. Pero la versión anterior aprendía las políticas y los valores con redes neuronales separadas.
El avance algorítmico en AlphaGo Zero fue averiguar cómo se podían combinar en una sola red. Esto permitió simplificar en gran medida el proceso de entrenamiento por juego propio, e hizo factible empezar desde cero en lugar de aprender primero lo que harían los humanos expertos.
La clasificación Elo es una medida muy utilizada para medir el rendimiento de los jugadores en juegos como el Go y el ajedrez. El mejor jugador humano hasta el momento, Ke Jie, tiene actualmente una puntuación Elo de unos 3.700.
AlphaGo Zero se entrenó durante tres días y consiguió una puntuación Elo de más de 4.000, mientras que una versión ampliada del mismo algoritmo se entrenó durante 40 días y consiguió casi 5.200.
Este es un paso asombrosamente grande con respecto al mejor humano, mucho mayor que la diferencia actual entre el mejor ajedrecista humano Magnus Carlsen (unos 2.800) y el programa de ajedrez (unos 3.400).
El próximo reto
AlphaGo Zero es un importante paso adelante para la IA porque demuestra la viabilidad del aprendizaje por refuerzo puro, no corrompido por ninguna guía humana. Esto elimina la necesidad de muchos conocimientos humanos expertos para empezar, que en algunos dominios pueden ser difíciles de obtener.
También significa que el algoritmo es libre de desarrollar enfoques completamente nuevos que podrían haber sido mucho más difíciles de encontrar si se hubiera limitado inicialmente a «pensar dentro de la caja humana». Sorprendentemente, esta estrategia también resulta ser más eficiente desde el punto de vista computacional.
Pero el Go es un juego estrechamente restringido de información perfecta, sin el desorden de la mayoría de los problemas del mundo real. El entrenamiento de AlphaGo Zero requirió la simulación precisa de millones de partidas, siguiendo las reglas del Go.
Para muchos problemas prácticos tales simulaciones son computacionalmente inviables, o las propias reglas son menos claras.
Aún quedan muchos problemas por resolver para crear una IA de propósito general, una que pueda abordar una amplia gama de problemas prácticos sin la intervención humana de un dominio específico.
Pero aunque los humanos hayan perdido ya completamente la batalla con los algoritmos de Go, por suerte la IA (a diferencia del Go) no es un juego de suma cero. Muchas de las partidas de AlphaGo Zero ya han sido publicadas, proporcionando toda una vida de estudio inspirador para los jugadores de Go humanos.
Más importante aún, AlphaGo Zero representa un paso hacia un mundo en el que los humanos pueden aprovechar potentes IAs para ayudar a encontrar soluciones inimaginablemente (para los humanos) creativas a problemas difíciles. En el mundo de la IA, nunca ha habido un mejor momento para el Go.