Ces faux humains effrayants annoncent une nouvelle ère pour l'IA - Paris Singularity : deeptech, startups et prospective

deep tech innovation — Image par Snag Eun Park de Pixabay

L. Bardon . – Les entreprises désireuses d’utiliser l’IA ont besoin de grandes quantités d’exemples historiques et étiquetés pour entraîner les systèmes. Cette demande a donné naissance une sous-industrie de sociétés spécialisées dans l’aide aux entreprises pour étiquetter leurs données. Parmi elles, Scale AI a été évaluée à 3,5 milliards de dollars lors d’un tour de table en décembre 2020. Citons également Hive, Sama, Labelbox, Cloudfactory et une division de la société d’IA Clarifai, entre autres. Mais il existe un autre moyen de produire suffisamment de données pour entraîner les systèmes d’IA : les fabriquer.

Des entreprises comme Datagen offrent une alternative intéressante au processus long et coûteux de collecte de données du monde réel. Elles les fabriquent pour vous : comme vous le voulez, quand vous le voulez et à un coût relativement faible. Pour générer ses humains synthétiques, Datagen scanne d’abord des humains réels. Elle s’associe à des fournisseurs qui paient les gens pour qu’ils entrent dans des scanners corporels géants qui capturent tous les détails, des iris à la texture de la peau en passant par la courbure des doigts. La société prend ensuite les données brutes et les fait passer par une série d’algorithmes, qui développent des représentations en 3D du corps, du visage, des yeux et des mains d’une personne.

La société, basée en Israël, affirme qu’elle travaille déjà avec quatre grands géants américains de la technologie, mais elle ne veut pas révéler lesquels. Son concurrent le plus proche, Synthesis AI, propose également des humains numériques à la demande. D’autres entreprises génèrent des données qui seront utilisées dans les domaines de la finance, de l’assurance et des soins de santé. Il y a à peu près autant de sociétés de données synthétiques qu’il y a de types de données.

Autrefois considérées comme moins souhaitables que les données réelles, les données synthétiques sont aujourd’hui considérées par certains comme la panacée. Mais les données synthétiques ont leurs limites. Si elles ne reflètent pas la réalité, elles pourraient finir par produire une IA encore pire que les données désordonnées et biaisées du monde réel – ou elles pourraient simplement hériter des mêmes problèmes. Pour garantir le réalisme de ses données, Datagen donne à ses fournisseurs des instructions détaillées sur le nombre de personnes à scanner dans chaque tranche d’âge, chaque fourchette d’IMC et chaque ethnie, ainsi qu’une liste d’actions à effectuer, comme marcher dans une pièce ou boire un soda. Les fournisseurs renvoient des images statiques haute-fidélité et des données de capture de mouvement de ces actions. Les algorithmes de Datagen développent ensuite ces données en des centaines de milliers de combinaisons. Les données synthétisées sont ensuite parfois vérifiées à nouveau. Les faux visages sont comparés à des visages réels, par exemple, pour voir s’ils semblent réalistes. Datagen génère actuellement des expressions faciales pour surveiller la vigilance des conducteurs dans les voitures intelligentes, des mouvements du corps pour suivre les clients dans les magasins sans caisse, et des mouvements de l’iris et de la main pour améliorer les capacités de suivi des yeux et des mains des casques de réalité virtuelle. L’entreprise affirme que ses données ont déjà été utilisées pour développer des systèmes de vision par ordinateur destinés à des dizaines de millions d’utilisateurs.

Mais les données synthétiques ne sont-elles pas surestimées ? La recherche suggère que combiner deux techniques de données synthétiques en particulier (la confidentialité différentielle et les réseaux antagonistes génératifs) peut renforcer la protection de la vie privée. En revanche, peu d’éléments indiquent que les données synthétiques peuvent atténuer efficacement la partialité des systèmes d’IA. Pour compliquer encore les choses, les premières recherches montrent que, dans certains cas, il n’est peut-être même pas possible d’obtenir une IA à la fois privée et équitable avec des données synthétiques.

La suite ici (Karen Hao)

(Visited 246 times, 1 visits today)