Le défi de Meta à OpenAI : donner accès à un "concurrent" de GPT-3 - Paris Singularity : deeptech, startups et prospective

deep tech innovation IA — Image par Gerd Altmann de Pixabay

Technologie sans conscience n’est que ruine de l’Homme.

Pourquoi cet article est intéressant ? L. Bardon . – Depuis 2015 je lis quotidiennement et publie des articles relatifs à l’IA et à ses promesses. 7 ans plus tard, un seul radiologue a-t-il été remplacé ? Cela semble confirmer cet adage commun de la Silicon Valley : nous surestimons toujours largement les impacts des technologies à court terme mais nous sousestimons les impacts à très long terme. Appliquer les systèmes d”apprentissage automatique à la radiologie reste plus difficile qu’il n’y paraît ; au moins pour l’instant. En sortie de l’hiver de l’IA, les modes se sont enchaînées les unes après les autres, promettant toujours la lune, mais ne tenant qu’occasionnellement leurs promesses. On a parlé de systèmes experts, de réseaux bayésiens… En 2011, Watson d’IBM était présenté comme une révolution dans le domaine de la médecine. Aujourd’hui, en réalité depuis 2012, la crème de la crème c’est l’apprentissage en profondeur, la technique à plusieurs milliards de dollars à la base d’une grande partie de l’IA contemporaine et que M. Hinton a aidé à mettre au point : il a été cité un demi-million de fois et a remporté, avec Yoshua Bengio et Yann LeCun, le prix Turing 2018. Comme les pionniers de l’IA avant lui, M. Hinton annonce fréquemment la grande révolution prochaine.

Il se peut que nous soyons déjà confrontés à des limites d’échelle dans l’apprentissage en profondeur, et que nous approchions déjà d’un point de rendement décroissant. Au cours des derniers mois, des recherches menées par DeepMind et ailleurs sur des modèles encore plus grands que GPT-3 ont montré que la mise à l’échelle commençait à faiblir sur certaines mesures, telles que la toxicité, la véracité, le raisonnement et le bon sens. Un article de Google datant de 2022 conclut ainsi que le fait d’agrandir les modèles de type GPT-3 les rend plus fluides, mais pas plus dignes de confiance.

L’apprentissage en profondeur, qui est fondamentalement une technique de reconnaissance des modèles, est performante lorsque nous n’avons besoin que de résultats bruts, lorsque les enjeux sont faibles et que les résultats parfaits sont facultatifs. Comme pour l’étiquetage des photos par exemple. En revanche, lorsque les enjeux sont plus importants, comme dans le cas de la radiologie ou des voitures autonomes, la prudence est toujours de mise.

Le présent est la bêta version du futur.

Synthèse

Dans un billet de blog sur le site de Meta AI, les chercheurs de l’entreprise ont annoncé avoir créé un système d’IA linguistique massif et puissant et qu’ils le mettaient gratuitement à la disposition de tous les chercheurs de la communauté de l’intelligence artificielle. Si Meta décrit cette initiative comme un effort pour démocratiser l’accès à un type d’IA puissant, certains affirment que peu de chercheurs bénéficieront réellement de cette largesse. Et même si ces modèles deviennent plus accessibles aux chercheurs, de nombreuses questions subsistent quant à leur utilisation commerciale.

Les grands modèles d’IA linguistiques constituent l’un des sujets les plus chauds de l’IA en ce moment. Des modèles comme GPT-3 d’OpenAI peuvent générer des textes remarquablement fluides et cohérents dans n’importe quel format ou style : Ils peuvent rédiger des articles d’actualité, des résumés juridiques, des poèmes et des textes publicitaires convaincants, ou encore tenir une conversation en tant que chatbots du service clientèle ou de personnages de jeux vidéo. GPT-3, avec ses 175 milliards de paramètres, n’est accessible aux entités universitaires et commerciales que par le biais du processus de demande et de vérification d’OpenAI.

Le Open Pretrained Transformer de Meta (connu sous le nom de OPT-175B) ets l’équivalent de GPT-3 avec 175 milliards de paramètres propres. Par ailleurs, Meta offre à la communauté des chercheurs non seulement le modèle lui-même, mais aussi sa base de code et des notes et journaux de bord détaillés sur le processus d’entraînement. Le modèle a été entraîné sur 800 gigaoctets de données provenant de cinq ensembles de données accessibles au public, qui sont décrits dans la “carte de données” qui accompagne un article technique publié par les chercheurs de Meta sur le serveur de préimpression en ligne ArXiv.

Les grands modèles de langage comme GPT-3 sont aussi connus pour leur capacité à générer un langage toxique rempli de stéréotypes et de préjugés nuisibles ; cette tendance troublante est le résultat de données d’entraînement qui incluent un langage haineux provenant de sources tels que des forums Reddit. Dans leur document technique, les chercheurs de Meta décrivent comment ils ont évalué le modèle sur des critères liés aux discours haineux, aux stéréotypes et à la génération de contenu toxique, mais Mme Pineau, directrice de Meta AI Research Labs, affirme qu'”il y a encore beaucoup à faire”. Elle ajoute que cette analyse devrait être effectué “par des chercheurs de la communauté, et non dans des laboratoires de recherche fermés”. Par ailleurs, elle indque aussi que “nous pensons toujours que cette technologie est prématurée pour un déploiement commercial” et précise qu’en publiant le modèle avec une licence non commerciale, Meta espère faciliter le développement de directives pour une utilisation responsable des grands modèles linguistiques “avant un déploiement commercial plus large”.

D’autres efforts ont été déployés pour créer un modèle de langue en libre accès, notamment par EleutherAI, une association qui a publié un modèle de 20 milliards de paramètres en février dernier. Connor Leahy, l’un des fondateurs d’EleutherAI et fondateur d’une startup d’IA appelée Conjecture, considère que l’initiative de Meta va dans le bon sens en favorisant l’open science.

La suite ici (Eliza Strickland)

(Visited 1 times, 1 visits today)