La collaboration entre les chercheurs d’OpenAI et de l’Université d’Oxford a débouché sur la création d’agents numériques qui bénéficient de l’apprentissage des autres à chaque mise à jour. Chaque agent LOLA (Learning with Opponent-Learning Awareness ) s’adapte pour que ses modifications bénéficient à l’apprentissage des autres agents. L’apprentissage de ces derniers dépend d’un système de récompenses et d’observations effectuées au sein d’un environnement, qui en retour peut être influencé par l’agent. L’agent LOLA « Alice » ne se contente pas de s’améliorer seul dans son coin. « Alice » s’améliore en ayant pour objectif de rendre l’apprentissage de l’autre agent « Bob » bénéfique. Contrairement aux résultats obtenus via les méthodes d’apprentissage en profondeur renforcé, les agents LOLA adoptent donc des stratégies efficaces et réciproques au fil des jeux. L’approche LOLA laisse les agents agir selon leur intérêt personnel, simplement en intégrant les objectifs des autres, sans imposer d’autres contraintes.
Open AI : quand l’apprentissage d’1 IA modèle l’apprentissage d’autres
(Visited 82 times, 1 visits today)