L'industrialisation de l'apprentissage par renforcement pour que les robots gagnent en autonomie - Paris Singularity : deeptech, startups et prospective

Comment les robots peuvent-ils acquérir des compétences généralisables à divers objets et situations du monde réel ? Concevoir des robots qui observent leur environnement pour décider du meilleur plan d’action tout en réagissant à des résultats inattendus est exceptionnellement difficile. Il existe actuellement 2 outils qui permettent aux robots d’apprendre en expérimentant : l’apprentissage profond (excellent pour gérer des scénarios non structurés du monde réel), et l’apprentissage par renforcement (permet un raisonnement à plus long terme). La combinaison de ces deux techniques pourrait permettre aux robots d’apprendre de leurs expériences en continu, ce qui leur permettrait de maîtriser les compétences sensorimotrices de base au travers des données collectées plutôt que via l’ingénierie manuelle.

Néanmoins, la conception d’algorithmes d’apprentissage par renforcement présente ses propres défis : les objets du monde réel couvrent une grande variété de propriétés visuelles et physiques, les différences subtiles dans les forces de contact peuvent rendre difficile la prédiction du mouvement des objets et les objets d’intérêt peuvent être cachés aux robots. De plus, les capteurs robotiques sont intrinsèquement bruyants, ce qui ajoute à la complexité. Tous ces facteurs rendent incroyablement difficile l’apprentissage général, à moins que les données d’apprentissage soient suffisamment variées, mais ce qui prend du temps à collecter. Les chercheurs explorent d’autres solutions comme des algorithmes d’apprentissage qui pourraient réutiliser efficacement l’expérience passée.

Pour gagner en efficacité, les chercheurs veulent pouvoir alimenter les algorithmes d’apprentissage de renforcement via des données recueillies il y a des heures, des jours ou des semaines. Pour concevoir un tel algorithme ont combiné l’optimisation distribuée à grande échelle avec un nouvel algorithme d’apprentissage profond optimisé appelé QT-Opt.

La suite ici (Alex Irpan&Peter Pastor)

(Visited 227 times, 1 visits today)