En mars 2016, DeepMind, la filiale d’intelligence artificielle de Google, stupéfiait avec la victoire 4-1 de son logiciel AlphaGo sur Lee Sedol, champion du monde en titre du jeu de Go.

Après la victoire de Deep Blue contre le champion du monde Gary Kasparov en 1997, on s’attendait certes à ce qu’un ordinateur finisse par battre l’homme au jeu de Go, mais pas si tôt, au vu de sa complexité éminemment supérieure à celle des échecs.

En mai 2017, AlphaGo confirmait sa supériorité sur l’homme en battant le nouveau champion du monde Ke Jie 3-0.

Aujourd’hui, DeepMind fait le point sur la dernière version de son programme dans une étude publiée dans le journal Nature, AlphaGo Zero : les progrès donnent le vertige.

  • En 3 heures, AlphaGo Zero joue comme un humain débutant, cherchant à gagner le plus de pierres adverses possibles ;
  • En 19 heures, il apprend les fondements des stratégies avancés, comme la vie et la mort, les territoires et l’influence ;
  • En 3 jours, il bat AlphaGo Lee, la version qui avait battu Lee Sedol, quatre fois sur cinq ;
  • En 21 jours, il bat AlphaGo Master, la version qui avait battu le champion du monde Ke Jie en mai 2017 ainsi que 60 des meilleurs joueurs mondiaux ;
  • En 40 jours, il bat toutes les versions existantes d’AlphaGo, et la meilleure 9 fois sur 10.

Selon toute vraisemblance, AlphaGo Zero est le meilleur joueur ayant jamais existé et la situation est inversée : les maîtres de Go vont apprendre de nouvelles stratégies en étudiant les parties jouées par le programme.

Plus étonnant encore que la puissance d’AlphaGo Zero, et que la vitesse incroyable d’apprentissage, c’est le mode d’apprentissage qui surprend.

Les versions précédentes d’AlphaGo ont toutes appris à jouer au Go en jouant de milliers de parties d’abord contre des amateurs, puis des grands maîtres, et avec un certain nombre de constructions logicielles supplémentaires.

AlphaGo Zero, en revanche, part de zéro avec un réseau neuronal qui ne connait rien au jeu de Go, en ne jouant que contre lui-même, d’abord avec des parties complètement aléatoires, puis en s’améliorant.

AlphaGo Zero n’utilise que les pierres noires et blanches du jeu comme données d’entrées, et aucune autre construction logicielle artificielle de l’équipe de programmeurs pour l’aider.

Le programme utilise une nouvelle technique d’apprentissage par renforcement, devenant son propre enseignant, combinant l’entrainement du réseau neuronal et un algorithme puissant de recherche, pour prédire de mieux en mieux les mouvements de son adversaire et découvrir les meilleurs moyens de gagner.

L’amélioration du système, combiné à l’amélioration du matériel, permet de passer d’une configuration de 176 accélérateurs graphiques à 4 TPU (unités de traitement tensor), avec une économie d’énergie de presque deux ordres de magnitude.

Ces progrès de l’intelligence artificielle sont applicables à d’autres problématiques structurées. Pour Demis Hassabis, fondateur et CEO de DeepMind, des techniques similaires pourront être appliquées au repliement des protéines, à la baisse de la consommation de l’énergie ou la recherche de nouveaux matériaux.