L'IA est confrontée à une "crise de réplication" - Paris Singularity : deeptech, startups et prospective

deep tech innovation — Image par raphaelsilva de Pixabay

L. Bardon . – Le succès de l’apprentissage en profondeur est dû au bricolage : les meilleurs réseaux neuronaux sont modifiés et adaptés pour être optimisés de telle sorte que les résultats pratiques ont dépassé la compréhension théorique. Par conséquent, les détails du fonctionnement d’un modèle entraîné sont généralement inconnus. On en est venu à les considérer comme des boîtes noires. Si l’intelligence artificielle (IA) doit être utilisée pour faciliter la prise de décision en matière d’application de la loi, de diagnostic médical et pour les voitures autonomes, alors nous devons comprendre comment elle parvient à ces décisions et identifier quand elles sont mauvaises. Une solution consiste à construire des systèmes d’apprentissage machine qui montrent leur fonctionnement : ce qu’on appelle des “boîtes de verre”, par opposition aux “boîtes noires” de l’IA. Les modèles “glassbox” sont généralement des versions très simplifiées d’un réseau de neurones dans lequel il est plus facile de suivre la façon dont les différentes données affectent le modèle. En fin de compte, nous voulons que les IA s’expliquent non seulement auprès des spécialistes des données et des médecins, mais aussi des policiers qui utilisent la technologie de reconnaissance faciale, des enseignants qui utilisent des logiciels d’analyse dans leurs classes, des étudiants qui essaient de donner un sens à leurs flux de médias sociaux et à toute personne assise à l’arrière d’une voiture autonome.

La science repose sur un socle de confiance, ce qui implique généralement de partager suffisamment de détails sur la manière dont la recherche est menée pour permettre à d’autres de la reproduire, en vérifiant les résultats par eux-mêmes. C’est ainsi que la science s’autocorrige et élimine les résultats qui ne résistent pas. La reproduction permet également aux autres de s’appuyer sur ces résultats, ce qui contribue à faire progresser le domaine. La science qui ne peut pas être reproduite tombe dans l’oubli.

Du moins, en théorie. En pratique, peu d’études sont entièrement reproduites, car la plupart des chercheurs sont plus intéressés par la production de nouveaux résultats que par la reproduction d’anciens résultats. Mais dans des domaines comme la biologie et la physique – et l’informatique en général – les chercheurs sont généralement censés fournir les informations nécessaires à la répétition des expériences, même si ces répétitions sont rares.

Dans ce contexte, le domaine de l’IA se trouve sous le feu des projecteurs pour plusieurs raisons. Le problème n’est pas seulement académique. Un manque de transparence empêche les nouveaux modèles et techniques d’IA d’être correctement évalués en termes de robustesse, de partialité et de sécurité. L’IA passe rapidement des laboratoires de recherche aux applications du monde réel, avec un impact direct sur la vie des gens. Mais les modèles d’apprentissage machine qui fonctionnent bien en laboratoire peuvent échouer dans les conditions réelles, avec des conséquences potentiellement dangereuses. La reproduction par différents chercheurs dans différents contextes permettrait de mettre les problèmes en évidence plus rapidement, ce qui rendrait l’IA plus puissante pour tout le monde.

Ce qui empêche la réplication des résultats de l’IA de se produire comme elle le devrait, c’est le manque d’accès à trois choses : le code, les données et le matériel. Selon le rapport 2020 State of AI, une analyse annuelle bien documentée du domaine par les investisseurs Nathan Benaich et Ian Hogarth, seulement 15% des études relatives à l’IA partagent leur code. Les chercheurs de l’industrie sont de plus gros délinquants que ceux qui sont affiliés à des universités. Le rapport appelle notamment OpenAI et DeepMind à garder le code secret.

Et puis le fossé grandissant entre les “nantis” et les “démunis” en ce qui concerne les deux piliers de l’IA, les données et le matériel, grandit. Les données sont souvent propriétaires, comme les informations que Facebook recueille sur ses utilisateurs, ou sensibles, comme dans le cas des dossiers médicaux personnels. Et les géants technologiques mènent de plus en plus de recherches sur d’énormes et coûteux clusters d’ordinateurs auxquels peu d’universités ou de petites entreprises ont les moyens d’accéder.

La suite ici (Will Douglas Heaven)

(Visited 61 times, 1 visits today)