En seulement 3 jours la nouvelle version d’AlphaGo est parvenue à battre celle qui avait écrasé le champion du monde de jeu de Go. Plus fort encore, AlphaGo Zero a découvert seul des principes de jeux que nous humains avons mis des milliers d’années à trouver.
Pourquoi c’est important ? Parce que la version originale a appris en ingérant les données de centaines de milliers de parties joués par des experts humains, tandis qu’AlphaGo Zero n’a débuté son apprentissage qu’avec un tableau blanc et les règles du jeu. Il a appris en jouant des millions de parties contre lui-même, en utilisant ce qu’il a appris à chaque partie pour s’améliorer. Cette nouvelle version du programme constitue un pas en avant dans la quête aux machines « intelligentes ». Les machines devront trouver des solutions aux problèmes complexes même quand elles disposent de peu de données d’apprentissage sur lesquelles s’appuyer. L’apprentissage par renforcement est également prometteur pour automatiser la programmation des machines dans de nombreux autres contextes, y compris ceux où il serait impossible de les programmer à la main. Cette technique est déjà testée pour apprendre aux robots à saisir des objets, ou pour économiser l’énergie utilisée par les centres de données en reconfigurant à la volée le hardware.