L. Bardon . – Avant l’émergence d’Internet, lorsque quelqu’un posait une question délicate, nous demandions à nos proches, ou nous consultions une encyclopédie, voire nous allions effectuer des recherches à la bibliothèque. Depuis Internet et Google, nous dépendons moins de nos souvenirs. Pour autant, ne sommes-nous pas progressivement en train d’externaliser notre mémoire collective vers Internet? Le numérique et Internet semblent transformer nos cerveaux, pour le meilleur ou pour le pire, nous n’avons pas de certitudes à ce stade. L’Homme s’est toujours appuyé sur des technologies pour stocker la connaissance et en créer de nouvelles.
Google est conçu pour explorer et indexer efficacement le Web et produire des résultats de recherche beaucoup plus satisfaisants que les systèmes existants. La principale innovation réside dans un algorithme appelé PageRank, qui classe les résultats de recherche en calculant leur pertinence par rapport à la requête d’un utilisateur sur la base de leurs liens avec d’autres pages du Web. Grâce à PageRank, Google est devenu la porte d’entrée d’Internet.
Une équipe de chercheurs de Google a récemment publié une proposition de refonte radicale qui abandonne l’approche de classement et la remplace par un seul grand modèle linguistique d’IA, soit une future version de BERT ou GPT-3. Au lieu de rechercher des informations dans une vaste liste de pages Web, les utilisateurs poseraient des questions auxquelles un modèle linguistique formé sur ces pages répondrait directement. Cette approche pourrait changer non seulement le fonctionnement des moteurs de recherche, mais aussi la façon dont nous interagissons avec eux.
Les moteurs de recherche sont devenus plus rapides et plus précis, alors même que la taille du web a explosé. L’IA est désormais utilisée pour classer les résultats, et Google utilise BERT pour mieux comprendre les requêtes de recherche. Pourtant, malgré ces améliorations, tous les moteurs de recherche traditionnels fonctionnent de la même manière qu’il y a 20 ans : les pages web sont indexées par des crawlers (logiciels qui lisent le web en continu et tiennent une liste de tout ce qu’ils trouvent), les résultats qui correspondent à la requête d’un utilisateur sont rassemblés à partir de cet index et les résultats sont classés.
Le problème est que même les meilleurs moteurs de recherche actuels répondent toujours avec une liste de documents comprenant les informations demandées, et non avec les informations elles-mêmes. Les moteurs de recherche ne sont pas non plus très performants lorsqu’il s’agit de répondre à des requêtes dont les réponses proviennent de sources multiples. C’est comme si vous demandiez un conseil à votre médecin et que vous receviez une liste d’articles à lire au lieu d’une réponse directe. Metzler et ses collègues s’intéressent donc à un moteur de recherche qui se comporterait comme un expert humain. Il devrait produire des réponses en langage naturel, synthétisées à partir de plusieurs documents, et étayer ses réponses par des références à des preuves, comme le font les articles de Wikipédia.
Des décennies de progrès ont été accomplies dans différents domaines de la recherche, qu’il s’agisse de répondre à des requêtes, de résumer des documents ou de structurer des informations, explique Ziqi Zhang, de l’université de Sheffield (Royaume-Uni), qui étudie la recherche d’informations sur le web. Mais aucune de ces technologies n’a révolutionné la recherche, car chacune d’entre elles s’attaque à des problèmes spécifiques et n’est pas généralisable. Zhang note toutefois que les modèles de langage ne sont pas très performants pour les sujets techniques ou spécialisés, car le texte sur lequel ils sont entraînés contient moins d’exemples.
La suite ici (Will Douglas Heaven)