Selon 1 étude de DeepMind, le cerveau prédirait la récompense comme 1 IA

Nous apprenons tous inconsciemment des comportements complexes en réponse à des réactions positives et négatives, mais la façon dont cela fonctionne dans le cerveau reste un mystère qui dure depuis un siècle. En examinant une puissante variante de l’apprentissage par renforcement, appelée apprentissage par renforcement distributionnel, qui surpasse les méthodes originales, une équipe de DeepMind suggère que le cerveau peut représenter simultanément plusieurs futurs prédits en parallèle. Chaque avenir se voit attribuer une probabilité différente, ou une chance de se produire réellement, en fonction de la récompense.

Le hic, c’est que l’équipe n’en a pas fait une hypothèse inspirée par l’IA. En collaboration avec un laboratoire de l’université de Harvard, les chercheurs ont enregistré directement à partir du cerveau d’une souris et ont trouvé des signes de leur idée encodés dans ses neurones de traitement des récompenses.

Vous avez peut-être entendu parler de “l’apprentissage basé sur la récompense”. Prenez les chiens de Pavlov, une expérience célèbre du début des années 1900. Le physiologiste russe Ivan Pavlov faisait sonner à plusieurs reprises une cloche avant de nourrir ses chiens. Il a constaté que les chiens salivaient instinctivement dès qu’ils entendaient la cloche, sans que de la nourriture ne leur soit montrée. Ils ont appris que la cloche (un object sans rapport avec de la nourriture) prédisait l’arrivée de nourriture, soit la récompense.

Les neuroscientifiques ont finalement découvert que la dopamine, un messager chimique actif dans les circuits de récompense du cerveau, était impliquée dans le traitement des signaux liés à la récompense. Bien que les neurones dopaminergiques qui libèrent de la dopamine soient souvent associés à un “rush” ou à un “high”, cela ne veut pas dire qu’ils nous rendent “heureux” ou nous font sentir “bien” en soi.

Les neurones dopaminergiques sont plutôt des joueurs de haut niveau à un jeu où ils prennent des paris. Ils font constamment des prédictions sur les chances de recevoir une récompense, et ne modifient la quantité de dopamine qu’ils libèrent que si la prédiction est fausse.

Alors que les neuroscientifiques s’affairent à examiner des cerveaux vivants, les chercheurs en IA testent directement leurs idées de haut niveau dans des machines. C’est le domaine de l’apprentissage par renforcement. Lorsqu’il est confronté à une tâche, un algorithme d’IA commence par effectuer des prédictions aléatoires. Il entreprend ensuite une action, observe s’il obtient une récompense et ajuste ses prédictions en fonction de la réalité. Après des millions d’essais, l’IA espère minimiser ses erreurs de prédiction, ce qui signifie qu’elle sait exactement comment résoudre la tâche. Étape par étape, elle peut alors s’attaquer à des problèmes extrêmement complexes, comme par exemple battre un champion humain au Go.

Mais lorsque les chercheurs en IA ont commencé à creuser l’idée, ils se sont immédiatement retrouvés face à un casse-tête : comment modéliser la probabilité liée à une récompense ? L’approche traditionnelle consiste à lui donner un nombre moyen (une “intuition” générale) basée sur la théorie classique de la récompense en neurosciences. Mais dans le monde réel, la chance d’obtenir une récompense n’est jamais parfaitement moyennée au travers d’un nombre fixe.

En 2017, les chercheurs de DeepMind ont décidé d’encoder ce caractère aléatoire dans l’apprentissage par renforcement. Plutôt que de fixer un nombre unique correspondant à l’erreur de prédiction, ils l’ont modélisé via une distribution sophistiquée de probabilités. Dans l’apprentissage par renforcement distributionnel, l’algorithme d’IA prédit un spectre complet de récompenses futures : certains sont plus optimistes et amplifient leurs signaux de récompense lorsque la récompense est plus importante que prévue ; d’autres sont plus pessimistes et abaissent leurs signaux de récompense lorsqu’elle est plus faible que prévue.

La suite ici (Shelly Fan)

(Visited 47 times, 1 visits today)