PANGU : la Chine forme ses propres GPT3

deep tech innovation IA
deep tech innovation IA
Image by Comfreak

L. Bardon . – Wen, professeur à l’université Renmin de Pékin, travaille à temps partiel à la Beijing Academy of Artificial Intelligence sur un algorithme qu’il espère encore plus intelligent que GPT-3 d’OpenAI. Il prévoit de combiner l’apprentissage machine avec des bases de données, et d’alimenter l’algorithme en images et en vidéos ainsi qu’en texte, dans l’espoir de créer une compréhension plus riche du monde physique. Les nombreuses recherches menées au BAAI pourraient peut-être servir d’outils de puissance douce, par le biais de l’élaboration de nouvelles normes techniques, par exemple, comme un moyen de favoriser les entreprises nationales et de façonner les perceptions et les normes d’une technologie.

Une équipe de chercheurs chinois a créé « PanGu », un modèle de langage pré-entraîné à grande échelle avec environ 200 milliards de paramètres, ce qui le rend équivalent à GPT3 (175 milliards de paramètres) en termes de complexité de paramètres. PanGu est entraîné sur 1,1 To de texte chinois (contre 570 Go de texte pour GPT-3). PanGu est le deuxième modèle similaire à GPT-3 à sortir de Chine, après le modèle linguistique chinois pré-entraîné (CPM, Import AI 226), qui a été entraîné sur 100 Go de texte et ne comptait que quelques milliards de paramètres.

PanGu est le fruit d’un effort conjoint des chercheurs de Huawei et de Recurrent AI (循环智能), un fournisseur de services d’IA pour entreprises. Recurrent AI prétend que PanGu est supérieur à GPT-3 sur trois points :

  1. Tout d’abord, il est censé « surpasser GPT-3 dans les tâches d’apprentissage à petite échelle, en répondant aux problèmes auxquels ce dernier est confronté dans le traitement de scénarios commerciaux complexes avec peu d’échantillons (de données de formation). Par exemple, dans les scénarios impliquant l’analyse de la voix des clients et l’analyse de la capacité des employés à effectuer des tâches, lorsque le grand modèle NLP de Pangu est utilisé pour produire une analyse sémantique, la taille de l’échantillon nécessaire pour obtenir le résultat cible n’est que d’un dixième de celle du modèle GPT-3. Autrement dit, l’efficacité de la production de l’IA peut être décuplée. »
  2. Deuxièmement, l’équipe de Pangu a ajouté des tâches basées sur des invites dans la phase de préformation, ce qui a considérablement réduit la difficulté du réglage fin. Des difficultés ont été rencontrées lors de l’affinage de grands modèles précédents pour différents scénarios industriels.
  3. PanGu pourrait reconnaître l’intention (des clients ?) grâce à l’apprentissage en quelques clics, et les transformer en requêtes de bases de connaissances et de bases de données, ce qui résout le problème des grands modèles difficiles à intégrer avec les connaissances et les données de l’industrie dans le passé.

La suite ici (Jack Clark)

(Visited 114 times, 1 visits today)
Avatar photo

Fondateur paris-singularity.fr👁️‍🗨️Entrepreneur social trackant les deep techs

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *