« Si vous voulez blâmer quelqu’un pour son enthousiasme à propos de l’intelligence artificielle (IA), Geoff Hinton, un chercheur de 69 ans travaillant chez Google est un bon candidat. Aujourd’hui, les réseaux neuronaux transcrivent la parole, reconnaissent nos animaux de compagnie et combattent les « trolls » sur Internet. Pourtant Hinton « dénigre » la technologie qu’il a contribué à apporter au monde. « Je pense que la façon dont nous avons conçu la vision par ordinateur est fausse », dit-il. « Cela fonctionne mieux que n’importe quoi d’autre à l’heure actuelle, mais cela ne signifie pas pour autant que c’est juste ». Le chercheur a dévoilé une autre idée « ancienne » qui pourrait transformer la façon dont les ordinateurs voient et ainsi remodeler l’IA. Pourquoi c’est important ? Parce que la vision par ordinateur est clé pour que des idées comme les voitures autonomes et les logiciels médecins prennent corps.
Il y a quelques jours, Hinton a publié deux documents de recherche qui, dit-il, prouvent une intuition vieille de 40 ans. « Ça m’a semblé très intuitif pendant très longtemps, ça n’a pas bien fonctionné, » explique Hinton. « Nous avons enfin quelque chose qui fonctionne bien. » Les réseaux de capsules visent à remédier à une faiblesse des systèmes d’apprentissage automatique actuels qui limite leur efficacité. Le logiciel de reconnaissance d’images utilisé aujourd’hui par Google et d’autres utilisateurs a besoin d’un grand nombre de photos pour apprendre à reconnaître les objets de manière fiable dans toutes sortes de situations. C’est parce que le logiciel n’est pas très bon pour généraliser ce qu’il apprend à de nouveaux scénarios, par exemple comprendre qu’un objet est le même lorsqu’il est vu depuis un nouveau point de vue.
L’idée d’Hinton, pour réduire le fossé entre les meilleurs systèmes d’IA et les capacités du cerveau humain des nourrissons, consiste à transcrire un peu plus de connaissance sur le monde en logiciel de vision par ordinateur. Les capsules, ou petits groupes de neurones virtuels bruts, sont conçues pour suivre différentes parties d’un objet, comme le nez et les oreilles d’un chat, et leurs positions relatives dans l’espace. Un réseau de plusieurs capsules peut utiliser cette conscience pour comprendre quand une nouvelle scène est en fait une vue différente de quelque chose qu’elle a vu auparavant.