IA : les progrès de l'apprentissage en profondeur se heurtent à un mur - Paris Singularity : deeptech, startups et prospective

deep tech innovation IA — Image by Leohoho from Pixabay

Technologie sans conscience n’est que ruine de l’Homme.

Pourquoi cet article est intéressant ? L. Bardon . – Le terme “intelligence artificielle” ne désigne pas des avancées technologiques spécifiques, mesurables et objectives mais plutôt des tâches que nous classons comme “intelligentes”. Plutôt que de considérer uniquement les capacités de ces systèmes, il faudrait se concentrer davantage sur les humains impliqués dans la conception de ces systèmes. Si un programme est capable de distinguer les chats des chiens, certes la machine apprend à “voir”, mais grâce à des humains ayant fourni des exemples pour définir les caractéristiques visuelles qui distinguent les “chats” des “chiens” de manière rigoureuse. Pourquoi c’est important ? Parce que notre perception actuelle de l’IA nous détourne en grande partie de l’attention que nous devrions aussi porter à la responsabilité des humains. Concrètement, le besoin insatiable qu’ont les algorithmes d’apprentissage en profondeur de s’entraîner à partir de quantités massives de données étiquetées a donné naissance à toute une industrie artisanale d’étiqueteurs humains. Le New York Times et GQ China ont ainsi couvert l’émergence d’usines de données en Chine, où les travailleurs passent des heures et des heures à déterminer manuellement le contenu des images ou des passages de texte pour de très bas salaires. La startup Vainu a trouvé une nouvelle source de main-d’œuvre bon marché : les détenus en prison.

L’apprentissage en profondeur est gourmand, fragile, opaque et superficiel. Ces limitations induisent davantage de difficultés que ne l’imaginent les hyperbolistes de l’IA. En effet, en matière d’IA , l’agenda des entreprises s’est concentré sur les techniques ayant un potentiel commercial, plutôt que sur celles qui pourraient aider à relever des défis comme l’inégalité économique et le changement climatique. En fait, elles ont même aggravé ces problèmes. La volonté d’automatiser les tâches a entraîné la perte d’emplois et la multiplication de tâches fastidieuses comme le nettoyage des données et la modération de contenu. La volonté de créer des modèles toujours plus grands a fait exploser la consommation d’énergie liée à l’IA. L’apprentissage en profondeur a également induit l’émergence d’un modèle basé sur l’extraction constante de nos données, souvent sans notre consentement, pour entraîner des produits tels que les systèmes de reconnaissance faciale. Et les algorithmes de recommandation ont exacerbé la polarisation politique, tandis que les grands modèles linguistiques n’ont pas réussi à nettoyer la désinformation. C’est cette situation que Gebru et un mouvement croissant de chercheurs partageant les mêmes idées veulent changer.

L’apprentissage en profondeur n’est pas la seule technique dans ce domaine. Avant son essor, il existait une approche différente : l’IA symbolique. Alors que l’apprentissage en profondeur utilise des quantités massives de données pour enseigner aux algorithmes les relations significatives dans l’information, le raisonnement symbolique se concentre sur l’encodage explicite des connaissances et de la logique basée sur l’expertise humaine. Certains chercheurs pensent désormais que ces techniques devraient être combinées. L’approche hybride rendrait l’IA plus efficace dans son utilisation des données et de l’énergie, et lui donnerait les connaissances et les capacités de raisonnement d’un expert ainsi que la capacité de se mettre à jour avec de nouvelles informations. Mais les entreprises ne sont guère incitées à explorer d’autres approches lorsque le moyen le plus sûr de maximiser leurs profits est de construire des modèles toujours plus grands.

Le présent est la bêta version du futur.

Synthèse

2022, et pas un seul radiologue n’a été remplacé. Appliquer les systèmes d”apprentissage automatique à la radiologie reste plus difficile qu’il n’y paraît ; au moins pour l’instant.

Peu de domaines technologiques ont fait l’objet d’autant de buzz que l’intelligence artificielle. Les modes se sont enchaînées les unes après les autres, promettant toujours la lune, mais ne tenant qu’occasionnellement leurs promesses. On a parlé de systèmes experts, de réseaux bayésiens, puis de machines à vecteurs de support. En 2011, Watson d’IBM était présenté comme une révolution dans le domaine de la médecine. Aujourd’hui, en réalité depuis 2012, la crème de la crème c’est l’apprentissage en profondeur, la technique à plusieurs milliards de dollars à la base d’une grande partie de l’IA contemporaine et que M. Hinton a aidé à mettre au point : il a été cité un demi-million de fois et a remporté, avec Yoshua Bengio et Yann LeCun, le prix Turing 2018.

Comme les pionniers de l’IA avant lui, M. Hinton annonce fréquemment la grande révolution prochaine. La radiologie n’en est qu’une partie.

L’apprentissage en profondeur, qui est fondamentalement une technique de reconnaissance des modèles, est performante lorsque nous n’avons besoin que de résultats bruts, lorsque les enjeux sont faibles et que les résultats parfaits sont facultatifs. Comme pour l’étiquetage des photos par exemple. En revanche, lorsque les enjeux sont plus importants, comme dans le cas de la radiologie ou des voitures autonomes, la prudence est de mise. Lorsqu’une seule erreur peut coûter une vie, l’un peu près est insuffisant. Les systèmes d’apprentissage en profondeur sont particulièrement problématiques lorsqu’il s’agit de traiter des “valeurs aberrantes” qui diffèrent considérablement des éléments sur lesquels ils ont été entraînés. Il y a peu de temps, par exemple, une Tesla en mode “Full Self Driving” a rencontré une personne qui brandissait un panneau stop au milieu de la route. La voiture n’a pas reconnu la personne (partiellement masquée par le panneau stop) et le panneau stop (hors de son contexte habituel sur le bord de la route) ; le conducteur humain a dû prendre le relais. La scène était suffisamment éloignée de la base de données d’apprentissage pour que le système ne sache pas quoi faire. Les systèmes actuels d’apprentissage en profondeur succombent fréquemment à des erreurs stupides comme celle-ci.

Des systèmes apparemment impressionnants basés sur le langage tombent souvent dans le même piège. Prenez GPT-3, peut-être le système d’IA le plus connu à ce jour, célèbre pour sa capacité à prendre un texte en entrée et à produire des suites grammaticales fluides pour n’importe quel texte. Le Guardian l’a utilisé pour produire un article d’opinion ; le New York Times l’a présenté dans une critique de livre. C’est bien joli, mais ça nécessite invariablement une édition humaine. Malgré toute sa fluidité, GPT-3 n’est pas capable d’intégrer des informations provenant de recherches de base sur Internet ni de raisonner sur les phénomènes quotidiens les plus élémentaires. D’autres encore ont constaté que GPT-3 est enclin à produire un langage toxique et à diffuser des informations erronées. Comme l’ont dit les chercheurs en IA Emily Bender, Timnit Gebru et leurs collègues, les grands modèles de langage alimentés par l’apprentissage en profondeur sont comme des “perroquets stochastiques”, qui répètent beaucoup et comprennent peu.

Que devrions-nous faire à ce sujet ? Une option, actuellement à la mode, pourrait consister à recueillir davantage de données. Personne n’a plaidé en ce sens plus directement qu’OpenAI, la société de San Francisco (à l’origine à but non lucratif) qui a produit GPT-3. Peut-être, mais peut-être pas. L’argument de la mise à l’échelle présente de sérieuses lacunes.

Tout d’abord, les mesures qui ont été mises à l’échelle n’ont pas saisi ce que nous avons désespérément besoin d’améliorer : la compréhension réelle. Qui plus est, les prétendues lois d’échelonnement ne sont pas des lois universelles comme la gravité, mais plutôt de simples observations qui pourraient ne pas être valables éternellement. En effet, il se peut que nous soyons déjà confrontés à des limites d’échelle dans l’apprentissage en profondeur, et que nous approchions déjà d’un point de rendement décroissant. Au cours des derniers mois, des recherches menées par DeepMind et ailleurs sur des modèles encore plus grands que GPT-3 ont montré que la mise à l’échelle commence à faiblir sur certaines mesures, telles que la toxicité, la véracité, le raisonnement et le bon sens. Un article de Google datant de 2022 conclut que le fait d’agrandir les modèles de type GPT-3 les rend plus fluides, mais pas plus dignes de confiance.

De quoi d’autre aurions-nous besoin ? Entre autres choses, il est très probable que nous devions revoir une idée autrefois populaire que Hinton semble vouloir écraser avec dévotion : l’idée de manipuler des symboles – des codages internes à l’ordinateur, comme des chaînes de bits binaires, qui représentent des idées complexes. La manipulation de symboles est essentielle à l’informatique depuis le début, au moins depuis les articles pionniers d’Alan Turing et de John von Neumann, et reste la base fondamentale de pratiquement toute l’ingénierie logicielle – mais elle est traitée comme un gros mot dans le domaine de l’apprentissage en profondeur.

Que signifie réellement “manipuler des symboles” ? En fin de compte, cela signifie deux choses : disposer d’ensembles de symboles (essentiellement des motifs qui représentent des choses) pour représenter l’information, et traiter (manipuler) ces symboles d’une manière spécifique, en utilisant quelque chose comme l’algèbre (ou la logique, ou des programmes informatiques) pour opérer sur ces symboles. Une grande confusion dans ce domaine provient du fait que l’on ne voit pas la différence entre les deux : avoir des symboles et les traiter de manière algébrique. Pour comprendre comment l’IA s’est retrouvée dans le pétrin dans lequel elle se trouve, il est essentiel de voir la différence entre les deux.

Que sont les symboles ? En gros, ce ne sont que des codes. Les opérations symboliques sont également à la base des structures de données telles que les dictionnaires ou les bases de données qui peuvent conserver des enregistrements sur des individus particuliers et leurs propriétés. Ces techniques sont omniprésentes, elles constituent le pain et le beurre du monde du logiciel. Si les symboles sont si importants pour le génie logiciel, pourquoi ne pas les utiliser aussi en IA ?

Les premiers pionniers, comme John McCarthy et Marvin Minsky, pensaient que l’on pouvait construire des programmes d’IA précisément en étendant ces techniques, en représentant des entités individuelles et des idées abstraites avec des symboles qui pouvaient être combinés en structures complexes et en riches réserves de connaissances, tout comme ils sont aujourd’hui utilisés dans des choses comme les navigateurs web, les programmes de courrier électronique et les traitements de texte. Ils n’avaient pas tort – les extensions de ces techniques sont partout (dans les moteurs de recherche, les systèmes de navigation routière et l’IA des jeux). Mais les symboles en eux-mêmes ont connu des problèmes ; les systèmes purement symboliques sont parfois difficiles à utiliser et ont donné de mauvais résultats dans des tâches comme la reconnaissance d’images et la reconnaissance vocale. C’est là qu’interviennent les réseaux neuronaux.

Lorsque les réseaux neuronaux ont fait leur réapparition dans les années 1980, de nombreux défenseurs des réseaux neuronaux se sont efforcés de prendre leurs distances par rapport à la tradition de manipulation de symboles. Les leaders de cette approche ont clairement indiqué que, bien qu’il soit possible de construire des réseaux neuronaux compatibles avec la manipulation de symboles, ils n’étaient pas intéressés. Leur intérêt réel était plutôt de construire des modèles qui soient des alternatives à la manipulation de symboles.

Pour au moins quatre raisons, l’IA hybride, et non l’apprentissage en profondeur seul (ni les symboles seuls), semble la meilleure voie à suivre :

Une grande partie des connaissances du monde, des recettes à l’histoire en passant par la technologie, est actuellement disponible principalement ou uniquement sous forme de symboles. Essayer de construire une IA sans ces connaissances, en réapprenant absolument tout à partir de zéro, comme le vise l’apprentissage en profondeur, ressemble à un fardeau excessif et téméraire.
L’apprentissage en profondeur seul continue de se heurter à des difficultés, même dans des domaines aussi ordonnés que l’arithmétique. Un système hybride pourrait être plus puissant que l’un ou l’autre des systèmes pris séparément.
Les symboles dépassent encore de loin les réseaux neuronaux actuels dans de nombreux aspects fondamentaux du calcul. Ils sont bien mieux placés pour raisonner dans des scénarios complexes, peuvent effectuer des opérations de base comme l’arithmétique de manière plus systématique et plus fiable, et sont mieux à même de représenter avec précision les relations entre les parties et les ensembles. Les symboles sont également plus propices aux techniques de vérification formelle, qui sont essentielles pour certains aspects de la sécurité et omniprésentes dans la conception des microprocesseurs modernes. Abandonner ces vertus plutôt que de les exploiter dans une sorte d’architecture hybride n’aurait guère de sens.
Les systèmes d’apprentissage en profondeur sont des boîtes noires ; nous pouvons examiner leurs entrées et leurs sorties, mais nous avons beaucoup de mal à regarder à l’intérieur. Nous ne savons pas exactement pourquoi ils prennent les décisions qu’ils prennent et, souvent, nous ne savons pas quoi faire (sauf recueillir davantage de données) s’ils donnent de mauvaises réponses. Cela les rend intrinsèquement peu maniables et ininterprétables et, à bien des égards, inadaptés à la “cognition augmentée” en conjonction avec les humains. Les hybrides qui nous permettent de relier les prouesses d’apprentissage de l’apprentissage en profondeur à la richesse sémantique explicite des symboles pourraient changer cela.

La suite ici (Gary Marcus)

(Visited 1 times, 1 visits today)