L. Bardon . – L’apprentissage par renforcement connaît son heure de gloire. Cette technique alimente des algorithmes à destination de robots plus intelligents, qui surpassent les médecins en matière de diagnostic médical et écrasent les meilleurs joueurs humains au jeu de Go. L’idée même d’apprentissage automatique semble autant puissante qu’inarrêtable et nous entraîne vers des machines de plus en plus « intelligentes ». Il reste néanmoins un obstacle de taille : leur exécution prend une éternité. Le concept qui sous-tend ces algorithmes étant basé sur les essais et les erreurs, un “agent” d’IA entraîné de cette façon apprend à mesure qu’il est récompensé pour ses bonnes décisions. Or, pour les problèmes complexes, le temps d’entraînement nécessaire peut rapidement devenir intenable.
Dans un nouvel article soumis à la revue Artificial Intelligence, des scientifiques du laboratoire d’IA DeepMind, basé au Royaume-Uni, affirment que l’intelligence et les capacités qui lui sont associées n’émergeront pas de la formulation et de la résolution de problèmes compliqués, mais du respect d’un principe simple mais puissant : la maximisation de la récompense. Intitulé « Reward is Enough » (la récompense est suffisante), le document, qui n’a pas encore fait l’objet d’une épreuve préliminaire, s’inspire de l’étude de l’évolution de l’intelligence naturelle et tire les leçons des récentes réalisations en matière d’IA. Les auteurs suggèrent que maximiser la récompense et l’expérience par essais et erreurs est suffisant pour développer un « comportement » présentant le type de capacités associées à l’intelligence. Ils en concluent que l’apprentissage par renforcement, une branche de l’IA basée sur la maximisation de la récompense, pourrait conduire au développement de l’IA générale.
C’est en gros la façon dont la nature fonctionne. Des milliards d’années de sélection naturelle et de variation aléatoire ont filtré les formes de vie en fonction de leur aptitude à survivre et à se reproduire. Les êtres vivants les mieux équipés pour faire face aux défis et aux situations de leur environnement ont réussi à survivre et à se reproduire. Les autres ont été éliminés. Ce mécanisme simple mais efficace a conduit à l’évolution d’êtres vivants dotés de toutes sortes de compétences et de capacités pour percevoir, naviguer, modifier leur environnement et communiquer entre eux.
Dans l’article, les chercheurs en IA fournissent quelques exemples de la manière dont « l’intelligence et les capacités associées apparaissent implicitement au service de la maximisation d’un des nombreux signaux de récompense possibles, correspondant aux nombreux objectifs pragmatiques vers lesquels l’intelligence naturelle ou artificielle peut être dirigée ».
Par exemple, les compétences sensorielles répondent à la nécessité de survivre dans des environnements complexes. Reconnaitre des objets permet aux animaux de détecter la nourriture, les proies, les amis et les menaces, ou de trouver des chemins, des abris et des perchoirs. Découper des images leur permet de faire la différence et distinguer différents objets et donc d’éviter des erreurs fatales telles que sauter d’une falaise. Quant à l’ouïe, elle permet de détecter les menaces là où l’animal ne peut pas voir ou de trouver des proies lorsqu’elles sont camouflées. Le toucher, le goût et l’odorat donnent également à l’animal l’avantage d’avoir une expérience sensorielle plus riche de l’habitat et de meilleures chances de survie dans les environnements dangereux. Les récompenses et les environnements façonnent également les connaissances innées et acquises des animaux. Par exemple, les habitats hostiles où règnent les prédateurs, tels que les lions et les guépards, récompensent les espèces de ruminants qui, depuis leur naissance, ont la capacité innée de fuir les menaces. Dans le même temps, les animaux sont également récompensés pour leur capacité à acquérir des connaissances spécifiques sur leur habitat, comme l’endroit où trouver de la nourriture et un abri.
Patricia Churchland, neuroscientifique, philosophe et professeur émérite à l’université de Californie à San Diego, a décrit les idées contenues dans le document comme étant « très soigneusement et judicieusement élaborées ». Toutefois, Mme Churchland a attiré l’attention sur d’éventuelles failles dans le raisonnement dévoilé dans le document sur la prise de décision sociale. Les chercheurs de DeepMind se concentrent sur les gains personnels dans les interactions sociales. M. Churchland, qui a récemment écrit un livre sur les origines biologiques des intuitions morales, affirme que l’attachement et les liens affectifs sont un facteur puissant dans la prise de décision sociale des mammifères et des oiseaux, ce qui explique pourquoi les animaux se mettent en grand danger pour protéger leurs enfants.