Google développe un ordinateur qui apprend à jouer et gagner

Google vient de publier un article de recherche dans le journal Nature, « Human-level control through deep reinforcement learning » qui détaille un nouvel algorithme d’apprentissage, le Deep Q-network (DQN).

DQN incorpore des fonctionnalités qui permettent de combiner de façon évolutive les réseaux neuronaux profonds avec l’apprentissage par renforcement, un système d’apprentissage automatique qui prescrit aux agents comment maximiser les futures récompenses cumulatives.

Cet algorithme s’inspire d’un mécanisme de la neurobiologie appelé ‘experience replay’, un processus physique dans une partie du cerveau, l’hippocampe, qui rejoue à vive allure des expériences récentes pendant les périodes de repos, comme le sommeil.

Pour tester DQN, l’équipe de chercheur a confronté un ordinateur à 49 jeux classiques d’une vieille console Atari 2600, commercialisée en 1977 : Shoot ’em up, course de voiture, boxe, etc.

Le système n’avait à disposition que l’affichage, les actions utilisables et le score. Il a dû apprendre à jouer, puis à gagner. En 1997, le superordinateur Deep Blue d’IBM battait le champion du monde Garay Kasparov, une étape historique du développement de l’intelligence artificielle. Mais à la différence de Deep Blue, à qui on avait appris des stratégies liées aux échecs, l’agorithme DQN est plus général et plus ouvert.

Les résultats sont impressionnants puisque dans 43 jeux sur 49, l’algorithme a battu les méthodes les plus performantes connues d’apprentissage statistique. Dans la moitié des cas, le système arrivait à 75 % du niveau d’un joueur professionnel. Dans certains cas, DQN a même découvert des stratégies parfois surprenantes qui lui ont permis d’atteindre le score maximal.

Ce projet a été dirigé par Demis Hassabis, le fondateur de DeepMind, une entreprise spécialisée dans l’intelligence artificielle, qui a été rachetée par Google en janvier 2014 pour un montant estimé à 400 millions de dollars.

Son équipe veut désormais préparer DQN pour affronter des jeux plus récents et plus complexes.

À terme, ce type d’algorithme d’intelligence artificielle pourrait permettre de mieux comprendre des problèmes complexes dans des domaines comme la météorologie, la physique ou la médecine, et de créer des services complexes, comme l’organisation d’un voyage avec sac à dos à travers l’Europe.

Comparaison de DQN avec les meilleurs algorithmes connus  d'apprentissage renforcé