Juste l’année dernière, AlphaGo de Google DeepMind a pris d’assaut le monde de l’intelligence artificielle (IA), en montrant qu’un programme informatique pouvait battre les meilleurs joueurs de Go humains du monde.
Mais dans une démonstration du rythme fiévreux des progrès de l’IA moderne, les détails d’une nouvelle étape franchie par une version améliorée appelée AlphaGo Zero ont été publiés cette semaine dans Nature.
Utilisant moins de puissance de calcul et seulement trois jours d’entraînement, AlphaGo Zero a battu l’AlphaGo original dans un match de 100 parties par 100 à 0. Cela ne valait même pas la peine que des humains se présentent.
Apprendre à jouer au Go
Le Go est un jeu de stratégie entre deux joueurs qui placent à tour de rôle des « pierres » sur un plateau de 19×19. Le but est d’entourer une plus grande surface du plateau que son adversaire.
Le go s’est révélé beaucoup plus difficile à maîtriser que les échecs pour les ordinateurs. Il y a beaucoup plus de mouvements possibles dans chaque position au Go que dans les échecs, et beaucoup plus de parties possibles.
L’AlphaGo original a d’abord appris en étudiant 30 millions de mouvements de jeu humain expert. Il s’est ensuite amélioré au-delà de l’expertise humaine en jouant de nombreuses parties contre lui-même, ce qui a nécessité plusieurs mois de temps informatique.
En revanche, AlphaGo Zero n’a jamais vu des humains jouer. Au lieu de cela, il a commencé par ne connaître que les règles du jeu. À partir d’un nombre relativement modeste de cinq millions de parties jouées par lui-même, qui n’a pris que trois jours sur un ordinateur plus petit que l’AlphaGo original, il a ensuite appris des performances super-AlphaGo.
Fascinant, son apprentissage a grosso modo imité certaines des étapes par lesquelles les humains progressent lorsqu’ils maîtrisent le Go. AlphaGo Zero a rapidement appris à rejeter les objectifs naïvement à court terme et a développé une pensée plus stratégique, générant de nombreux modèles de mouvements souvent utilisés par les experts humains de haut niveau.
Mais remarquablement, il a ensuite commencé à rejeter certains de ces schémas en faveur de nouvelles stratégies jamais vues auparavant dans le jeu humain.
Au delà du jeu humain
AlphaGo Zero a réalisé cet exploit en abordant le problème différemment de l’AlphaGo original. Les deux versions utilisent une combinaison de deux des algorithmes les plus puissants qui alimentent actuellement l’IA : l’apprentissage profond et l’apprentissage par renforcement.
Pour jouer à un jeu comme le Go, il y a deux choses fondamentales que le programme doit apprendre. La première est une politique : la probabilité d’effectuer chacun des mouvements possibles dans une position donnée. La seconde est une valeur : la probabilité de gagner à partir d’une position donnée.
Dans l’approche d’apprentissage par renforcement pur d’AlphaGo Zero, la seule information disponible pour apprendre les politiques et les valeurs était pour lui de prédire qui pourrait finalement gagner. Pour faire cette prédiction, il a utilisé sa politique et ses valeurs actuelles, mais au départ, celles-ci étaient aléatoires.
C’est clairement une approche plus difficile que celle de l’AlphaGo original, qui utilisait des coups humains experts pour avoir une longueur d’avance sur l’apprentissage. Mais la version précédente apprenait les politiques et les valeurs avec des réseaux neuronaux distincts.
La percée algorithmique d’AlphaGo Zero a été de comprendre comment ceux-ci pouvaient être combinés en un seul réseau. Cela a permis de simplifier grandement le processus d’entraînement par le jeu autonome, et a rendu faisable le fait de partir de zéro plutôt que d’apprendre d’abord ce que les humains experts feraient.
Un classement Elo est une mesure largement utilisée de la performance des joueurs dans des jeux tels que le Go et les échecs. Le meilleur joueur humain à ce jour, Ke Jie, a actuellement une cote Elo d’environ 3 700.
AlphaGo Zero s’est entraîné pendant trois jours et a atteint une cote Elo de plus de 4 000, tandis qu’une version étendue du même algorithme s’est entraînée pendant 40 jours et a atteint près de 5 200.
C’est une progression étonnamment importante par rapport au meilleur humain – bien plus importante que l’écart actuel entre le meilleur joueur d’échecs humain Magnus Carlsen (environ 2 800) et le programme d’échecs (environ 3 400).
Le prochain défi
AlphaGo Zero est une avancée importante pour l’IA car il démontre la faisabilité d’un apprentissage par renforcement pur, non corrompu par une quelconque orientation humaine. Cela supprime le besoin de beaucoup de connaissances humaines expertes pour démarrer, ce qui, dans certains domaines, peut être difficile à obtenir.
Cela signifie également que l’algorithme est libre de développer des approches complètement nouvelles qui auraient pu être beaucoup plus difficiles à trouver s’il avait été initialement contraint de « penser à l’intérieur de la boîte humaine ». De façon remarquable, cette stratégie s’avère également plus efficace sur le plan informatique.
Mais le Go est un jeu étroitement contraint d’information parfaite, sans le désordre de la plupart des problèmes du monde réel. L’entraînement d’AlphaGo Zero a nécessité la simulation précise de millions de parties, en suivant les règles du Go.
Pour de nombreux problèmes pratiques, de telles simulations sont irréalisables sur le plan informatique, ou les règles elles-mêmes sont moins claires.
Il reste encore de nombreux autres problèmes à résoudre pour créer une IA polyvalente, capable de s’attaquer à un large éventail de problèmes pratiques sans intervention humaine spécifique à un domaine.
Mais même si les humains ont maintenant complètement perdu la bataille avec les algorithmes de Go, heureusement l’IA (contrairement au Go) n’est pas un jeu à somme nulle. De nombreuses parties d’AlphaGo Zero ont maintenant été publiées, fournissant une vie entière d’étude inspirante pour les joueurs de Go humains.
Plus important encore, AlphaGo Zero représente un pas vers un monde où les humains peuvent exploiter de puissantes IA pour aider à trouver des solutions inimaginablement (pour les humains) créatives à des problèmes difficiles. Dans le monde de l’IA, il n’y a jamais eu de meilleur moment pour se lancer dans le Go.