Knowledge Mapping and Management

La lenteur d’apprentissage d’AlphaZero

Nous avons tous été récemment déconcertés par l’algorithme AlphaZero, qui apprend à maîtriser les jeux de plateau stratégiques -Go, échecs, Shogi, …) en quelques jours et bien mieux que les meilleurs joueurs et programmes du monde. Quelle est la part de la puissance de calcul et de l’efficacité de l’apprentissage?

Alphazero (la dernière version d’alphago) a appris le jeu de go par lui-même en simulant 21 millions de jeux, avec 700 000 lots d’apprentissage. La progression est représentée dans les graphiques suivants:

En utilisant les TPU de Google, AlphaZero a atteint le niveau de champion du monde en échecs en 4 heures.

Un joueur humain, qui jouerait 2 parties de go par jour (ce n’est pas mal), pourrait jouer ~ 700 parties par an.

En quelques jours, AlphaZero résume 30 000 ans d’expérience de jeu à l’échelle humaine, ce qui est un facteur d’accélération de 1 million environ pour la technologie, mais qui ne surprend pas de la comparaison habituelle entre notre capacité de calculer avec des nombres et celle de l’ordinateur. On peut considérer d’un coté que ce sont des années très utiles, car en suivant la courbe d’apprentissage (AlphaZero atteint le niveau champion du monde du monde humain en 150K étapes), il passe le plus clair de son temps (550 000/700 000 ~ 80%) au meilleur niveau pour améliorer la connaissance du jeu.

Si nous revenons aux années humaines, le niveau de champion du monde est atteint (ligne rouge) dans environ 20% * 30 000 = 6000 h-années, alors que Lee Sedol a maîtrisé le jeu en environ 15 ans.

Ainsi, la machine semble apprendre très lentement par rapport aux meilleurs humains, qui sont environ 500 fois plus rapides pour atteindre le même niveau, tout en jouant aussi beaucoup moins de parties.

Si nous considérons maintenant le jeu d’échecs, l’apprentissage apparaît plus rapide, avec un niveau de grand maître atteint à environ 120K jeux (ELO ~ 2800), qui sont également dans les milliers d’années de jeu humain, et la conclusion est similaire. Si AlphaZero apprenait aussi vite que les humains, il atteindrait le niveau de la classe mondiale en 30 secondes!

Discussion

Le niveau final atteint par AlphaZero, beaucoup plus élevé que le niveau humain, montre que le niveau de jeu réel est nettement plus élevé que ce que les meilleurs humains peuvent atteindre. Mais cela pose de nouvelles questions:

  • Pourquoi les humains ne peuvent-ils pas jouer au-delà de leur niveau actuel, étant donné leur taux d’apprentissage élevé?
  • Atteignons-nous une limite biologique, ou est-ce que notre cerveau est incapable de générer des concepts de niveau supérieur?
  • Est-ce que tous les joueurs sont coincés dans une ligne de jeu qui est une «culture», mais qui n’a pas visité tous les nœuds du jeu (il y a des millions d’humains jouant au go / chess, …) ?