L. Bardon . – Diverses organisations s’efforcent d’enseigner aux machines à naviguer dans le monde en faisant appel au bon sens pour comprendre les objets et les actions de notre quotidien, communiquer naturellement, gérer les situations imprévues et tirer des leçons des expériences. AI2 développe un portefeuille de tâches sous-jacentes au “bon sens artificiel” dont les progrès peuvent être mesurés. La DARPA investit 2 milliards de dollars dans la recherche sur l’IA. Dans son programme Machine Common Sense (MCS), les chercheurs créeront des modèles qui imitent les domaines fondamentaux de la cognition humaine. Les humains trient régulièrement, et souvent sans effort, les probabilités et agissent selon les probabilités les plus probables, même avec relativement peu d’expérience préalable. On enseigne maintenant aux machines à imiter ce raisonnement par l’application de processus gaussiens ; des modèles probabilistes qui peuvent faire face à une grande incertitude, agir sur des données rares et apprendre de l’expérience. De tels processus gaussiens sont très prometteurs. Ils n’ont pas besoin de quantités massives de données pour reconnaître les modèles ; les calculs nécessaires à l’inférence et à l’apprentissage sont relativement faciles, et si quelque chose tourne mal, on peut en retracer la cause, contrairement aux boîtes noires des réseaux neuronaux.
Vous nous avez sans doute entendu le dire d’innombrables fois : GPT-3, l’IA gargantuesque qui parle un langage étrangement humain, est une merveille. C’est aussi en grande partie un mirage. Le problème des modèles linguistiques, comme ils ne sont formés que sur le texte, c’est qu’ils manquent de bon sens. Des chercheurs de l’université de Caroline du Nord, à Chapel Hill, ont conçu une nouvelle technique pour changer cela. Ils l’appellent « vokénisation » et elle donne aux modèles linguistiques comme le GPT-3 la capacité de « voir ». Les mots utilisés pour former les modèles de langue sont appelés « tokens ». Les chercheurs de l’UNC ont donc décidé d’appeler voken l’image associée à chaque jeton de leur modèle de langage visuel. Vokenizer est ce qu’ils appellent l’algorithme qui trouve des jetons pour chaque jeton, et vokenization est ce qu’ils appellent le processus entier.
Ce n’est pas la première fois que l’on cherche à combiner les modèles linguistiques avec la vision par ordinateur. Il s’agit en fait d’un domaine de recherche sur l’IA en pleine expansion. L’idée est que les deux types d’IA ont des forces différentes. Les modèles de langage comme le GPT-3 sont formés via l’apprentissage non supervisé, qui ne nécessite pas l’étiquetage manuel des données, ce qui les rend faciles à mettre à l’échelle. Les modèles d’image comme les systèmes de reconnaissance d’objets, en revanche, apprennent plus directement à partir de la réalité. En d’autres termes, leur compréhension ne repose pas sur le type d’abstraction du monde qu’offre le texte. Ils peuvent « voir » à partir d’images de moutons qu’ils sont en fait blancs.
Mais combiner les deux types d’IA est plus facile à dire qu’à faire. Ce n’est pas aussi simple que d’agrafer un modèle de langage existant avec un système de reconnaissance d’objets existant. Il faut former un nouveau modèle à partir de zéro avec un ensemble de données qui comprend du texte et des images, autrement dit un ensemble de données en langage visuel.