Comment DeepMind réinvente le robot

deep tech innovation IA — Image by Comfreak

L. Bardon . – Le terme “intelligence artificielle” ne désigne pas des avancées technologiques spécifiques, mesurables et objectives mais des tâches que nous classons comme “intelligentes”. Plutôt que de considérer uniquement les capacités de ces systèmes, il faudrait se concentrer davantage sur les humains impliqués dans la conception de ces systèmes. Si un programme est capable de distinguer les chats des chiens, certes la machine apprend à “voir, mais grâce à des humains ayant fourni des exemples pour définir les caractéristiques visuelles qui distinguent les “chats” des “chiens” de manière rigoureuse. Pourquoi c’est important ? Parce que notre perception actuelle de l’IA nous détourne en grande partie de l’attention que nous devrions aussi porter à la responsabilité des humains. Par exemple, le besoin insatiable qu’ont les algorithmes d’apprentissage en profondeur de s’entraîner à partir de quantités massives de données étiquetées a donné naissance à toute une industrie artisanale d’étiqueteurs humains. Le New York Times et GQ China ont couvert l’émergence d’usines de données en Chine, où les travailleurs passent des heures et des heures à déterminer manuellement le contenu des images ou des passages de texte pour de très bas salaires. La startup Vainu a trouvé une nouvelle source de main-d’œuvre bon marché : les détenus en prison.

Pour passer au niveau supérieur, les chercheurs tentent de fusionner l’IA et la robotique pour créer un système capable de prendre des décisions et de contrôler un corps physique dans le monde réel, désordonné, imprévisible et impitoyable. Si cet objectif potentiellement révolutionnaire a attiré l’attention de certains des organismes de recherche technologique les plus puissants de la planète, les défis restants sont de taille. Certains semblent simples mais s’avèrent très complexes dans les faits : pour la plupart des applications robotiques, il est difficile de collecter les énormes ensembles de données qui ont permis de réaliser des progrès dans d’autres domaines de l’IA. D’autres problèmes sont plus profonds et renvoient à des énigmes de longue date en matière d’IA telles que : comment apprendre une nouvelle tâche sans oublier l’ancienne ? Ou comment créer une IA capable d’appliquer les compétences acquises via une tâche pour les appliquer à d’autres ?

Commençons par le problème prosaïque. La qualité d’un réseau neuronal dépend de la qualité et de la quantité des données utilisées pour le former. Or, pour entraîner un robot, on ne dispose pas d’ensembles de données aussi volumineux. Mais cela n’empêche pas DeepMind de rassembler tout ce qu’il peut, avec des robots qui tournent en permanence dans ses laboratoires. Dans tous les domaines, les chercheurs en robotique tentent de contourner cette pénurie de données grâce à une technique appelée sim-to-real. Malgré des succès, cette technique présente des limites importantes. Les simulations restent trop parfaites, trop éloignées des complexités du monde réel.

Qui du problème plus profond de l’oubli catastrophique ? Lorsqu’une IA apprend une nouvelle tâche, elle a une fâcheuse tendance à oublier toutes les anciennes. C’est quelque chose d’inhérent à la façon dont la plupart des IA modernes apprennent. Si l’on montre à un réseau neuronal l’image d’un chien et qu’il l’identifie comme un “chien”, les connexions qui se sont activées seront renforcées, et les autres seront affaiblies. S’il identifie de façon incorrecte “chat”, c’est l’inverse qui se produit : les connexions qui se sont activées seront affaiblies, celles qui ne se sont pas activées seront renforcées. Mais imaginez que vous preniez ce réseau neuronal de classification des chiens et des chats et que vous commenciez à l’entraîner pour distinguer un bus d’une voiture. Toute sa formation antérieure sera inutile. Ses sorties en réponse aux images de véhicules seront d’abord aléatoires. Mais au fur et à mesure de l’entraînement, le réseau va repondérer ses connexions et devenir progressivement efficace. Il sera finalement capable de classer les bus et les voitures avec une grande précision. À ce stade, cependant, si vous lui montrez à nouveau la photo d’un chien, tous les nœuds auront été repondérés et il aura “oublié” tout ce qu’il a appris auparavant.

Il existe des moyens de contourner le problème.

La plus évidente consiste à cloisonner chaque compétence. Entraînez votre réseau neuronal sur une tâche, enregistrez et stockez les poids du réseau, puis entraînez-le sur une nouvelle tâche, en enregistrant ces poids ailleurs. Il suffit alors au système de reconnaître le type de défi au départ et d’appliquer le jeu de poids approprié. Mais cette stratégie est limitée. D’une part, elle n’est pas évolutive. Si l’environnement n’est pas structuré, vous ne saurez même pas à l’avance quelles seront certaines de ces tâches. D’autre part cette stratégie ne permet pas au robot de transférer les compétences qu’il a acquises en résolvant la tâche A pour résoudre la tâche B. L’approche préférée de Hadsell est ce qu’on appelle la “consolidation élastique du poids”. Après avoir appris une tâche, un réseau neuronal évalue quelles connexions synaptiques entre les nœuds neuronaux sont les plus importantes pour cette tâche, et il “gèle” partiellement leurs poids. Ce qui engendre un effet secondaire : chaque fois que le réseau neuronal apprend une tâche, un plus grand nombre de ses neurones deviennent inélastiques. Ce qui rappelle finalement l’apprentissage humain. En vieillissant, nous nous améliorons dans les domaines que nous avons appris, mais nous avons plus de mal à acquérir de nouvelles compétences.

Les réseaux neuronaux progressifs semblent être un moyen simple d’éviter l’oubli catastrophique. Un réseau neuronal s’entraîne à une seule tâche. Et lorsque chaque nouveau réseau neuronal est créé, il reprend les connexions des parties précédentes sur lesquelles il s’est entraîné, de sorte qu’il peut transférer les compétences des anciennes tâches aux nouvelles ; alors que l’inverse reste impossible.

C’est là qu’intervient la distillation des connaissances, mise au point par l’informaticien britanno-canadien Geoffrey Hinton. Elle consiste à prendre de nombreux réseaux neuronaux différents formés à une tâche et à les comprimer en un seul, en faisant la moyenne de leurs prédictions. Ce qui fait réapparaître…le problème de l’oubli catastrophique. En modifiant tous les poids des connexions, les entraînements précédents deviennent obsolètes.

D’autres chercheurs utilisent différentes stratégies pour s’attaquer au problème de l’oubli catastrophique ; il existe une demi-douzaine de pistes de recherche.

La technique de la relecture interne, par exemple, permet entre deux tâches d’apprentissage, que le réseau neuronal recrée des modèles de connexions et de poids, imitant ainsi plus ou moins le cycle veille-sommeil de l’activité neuronale humaine. Cette technique s’est avérée très efficace pour éviter les oublis catastrophiques.

La suite ici (Tom Chivers)

(Visited 103 times, 1 visits today)