L. Bardon . – Comment les robots peuvent-ils acquérir des compétences généralisables à divers objets et situations du monde réel ? Concevoir des robots qui observent leur environnement pour décider du meilleur plan d’action tout en réagissant à des résultats inattendus est exceptionnellement difficile. La conception d’algorithmes d’apprentissage par renforcement présente ses propres défis : les objets du monde réel couvrent une grande variété de propriétés visuelles et physiques, les différences subtiles dans les forces de contact peuvent rendre difficile la prédiction du mouvement des objets et les objets d’intérêt peuvent être cachés aux robots. De plus, les capteurs robotiques sont intrinsèquement bruyants, ce qui ajoute à la complexité. Tous ces facteurs rendent incroyablement difficile l’apprentissage général, à moins que les données d’apprentissage soient suffisamment variées, mais ce qui prend du temps à collecter. Les chercheurs explorent d’autres solutions comme des algorithmes d’apprentissage qui pourraient réutiliser efficacement l’expérience passée.
L’apprentissage par renforcement profond connaît son heure de gloire. Il alimente des robots plus intelligents. Il simule les réseaux neuronaux humains. Il surpasse les médecins en matière de diagnostic médical et écrase les meilleurs joueurs de l’humanité au Go et à Atari. Bien qu’elle soit loin d’atteindre la souplesse et la rapidité de réflexion qui sont naturelles chez l’homme, cette idée puissante d’apprentissage automatique semble inarrêtable en tant que signe avant-coureur de machines plus intelligentes.
Sauf qu’il y a un obstacle de taille : leur exécution prend une éternité. Le concept qui sous-tend ces algorithmes étant basé sur les essais et les erreurs, un « agent » d’IA à apprentissage par renforcement n’apprend qu’après avoir été récompensé pour ses bonnes décisions. Pour les problèmes complexes, le temps nécessaire à un agent d’IA pour essayer et échouer à apprendre une solution peut rapidement devenir intenable.
Mais que se passerait-il si vous pouviez essayer plusieurs solutions à la fois ?
Cette semaine, une collaboration internationale dirigée par le Dr Philip Walther de l’université de Vienne a repris le concept « classique » de l’apprentissage par renforcement et lui a donné une tournure quantique. Ils ont conçu une IA hybride qui s’appuie à la fois sur l’informatique quantique et sur l’informatique classique ordinaire, et ont montré que, grâce à la bizarrerie quantique, elle pouvait examiner simultanément une poignée de façons différentes de résoudre un problème.
Le résultat est une IA d’apprentissage par renforcement qui a appris plus de 60 % plus vite que ses homologues non quantiques. Il s’agit de l’un des premiers tests qui montre que l’ajout de l’informatique quantique peut accélérer le processus d’apprentissage réel d’un agent d’IA, expliquent les auteurs.