L. Bardon . – Le raisonnement par relation ou par analogie est une condition nécessaire mais pas suffisante pour développer le même niveau d’intelligence que l’humain. Le raisonnement par relation correspond à la capacité de considérer les relations entre différentes représentations mentales, telles que des objets, des mots ou des idées. Ce genre de raisonnement est à la fois crucial pour le développement cognitif humain et essentiel pour résoudre n’importe quel problème. La plupart des systèmes d’apprentissage machine existants n’essaient même pas de comprendre la relation entre les concepts. Un système de vision peut par exemple identifier un chien ou un chat dans une image, mais il ne comprend pas que le chien poursuit le chat. Deux systèmes développés par les chercheurs de DeepMind en sont capables.
De tous les modèles d’IA dans le monde, le GPT-3 d’OpenAI est celui qui a le plus captivé l’imagination du public. Il est capable de cracher des poèmes, des nouvelles et des chansons sans trop d’effort, et il a été démontré qu’il peut tromper les gens en leur faisant croire que ses productions ont été écrites par un humain. Mais son éloquence est plutôt un tour de passe-passe, à ne pas confondre avec la véritable intelligence. Néanmoins, les chercheurs pensent que les techniques utilisées pour créer le GPT-3 pourraient faciliter l’émergence d’une intelligence artificielle plus avancée. Le GPT-3 s’est entraîné sur une énorme quantité de données textuelles. Et si les mêmes méthodes étaient utilisées sur des images ?
De nouvelles recherches de l’Institut Allen pour l’IA, AI2, ont permis de faire passer cette idée au niveau supérieur. Les chercheurs ont mis au point un nouveau modèle de texte et d’image, également connu sous le nom de modèle de langage visuel, qui peut générer des images accompagnées d’une légende. Les images semblent troublantes et effrayantes – rien à voir avec les deepfakes hyperréalistes générés par les réseaux antagonistes génératifs – mais elles pourraient montrer une nouvelle direction prometteuse pour obtenir une intelligence plus généralisable, et peut-être aussi des robots plus intelligents.
La capacité des modèles de langage visuel à générer ce type d’images représente une avancée importante dans la recherche sur l’IA. Elle suggère que le modèle est en fait capable d’un certain niveau d’abstraction, une compétence fondamentale pour comprendre le monde.