L. Bardon . – Selon le fondateur de Google DeepMind Demis Hassabis lors de l’Economist Innovation Summit 2018 à Londres : « Le cerveau est un système intégré, où différentes parties du cerveau sont responsables de différentes compétences cognitives (l’hippocampe pour la mémoire épisodique, le cortex préfrontal pour votre contrôle, etc…). Vous pouvez considérer l’apprentissage en profondeur tel qu’il est aujourd’hui comme l’équivalent dans le cerveau de nos cortex sensoriels : notre cortex visuel ou cortex auditif. Or, la véritable intelligence va bien au-delà de ça. Il faut la recombiner en une pensée et un raisonnement symbolique de niveau supérieur, beaucoup de choses que l’IA classique a essayé de traiter dans les années 80. »
DeepMind a dévoilé un modèle d’apprentissage en profondeur de pointe appelé « Perceiver » dans un article récent. Il adapte le Transformer pour lui permettre de consommer tous les types d’entrée, de l’audio aux images, et d’effectuer différentes tâches, comme la reconnaissance d’images, pour lesquelles des types particuliers de réseaux neuronaux sont généralement développés. Il semble fonctionner de manière très similaire à la façon dont le cerveau humain perçoit les entrées multimodales.
Cependant, Perceiver présente plusieurs limites. Le système n’est pas toujours aussi performant que les programmes conçus pour une modalité particulière. Il ne semble pas améliorer l’efficacité des calculs et nécessiter moins de données que les systèmes existants. Enfin, Perceiver ne montre aucune synergie entre les différents inputs, de sorte que l’image, le son et les nuages de points existent toujours séparément les uns des autres.