L. Bardon . – Le saviez-vous ? Des chercheurs de l’équipe d’apprentissage automatique d’Amazon en Inde ont publié un document sur eCommerceGAN, un système capable de produire un nombre illimité de commandes «plausibles». Ils ont également documenté un second système appelé ec2GAN, conçu pour créer des commandes possibles impliquant un produit spécifique. Les commandes réelles constituent seulement une infime fraction de tous les ordres possibles. Les systèmes d’intelligence artificielle fonctionnent mieux avec plus de données, et l’analyse de données synthétiques comme celle-ci pourrait aider Amazon à améliorer ses activités en découvrant de nouveaux modèles basés sur des facteurs tels que les préférences des clients, l’estimation des prix et la variance saisonnière affectent les choix de produits. Il pourrait également mieux prédire quels éléments pourraient être intéressants pour quel type de client.
Les entreprises désireuses d’utiliser l’IA se heurtent à un obstacle de taille : disposer d’une quantité suffisante du bon type de données pour entraîner leurs systèmes. Les entreprises ont besoin de grandes quantités d’exemples historiques étiquetés pour entraîner les systèmes d’IA, en particulier ceux qui travaillent avec des images et des vidéos. Cette demande a donné naissance à toute une sous-industrie de sociétés spécialisées dans l’aide aux entreprises pour étiquetter leurs données. Parmi elles, citons Scale AI, qui a été évaluée à 3,5 milliards de dollars lors d’un tour de table en décembre 2020, Hive, Sama, Labelbox, Cloudfactory et une division de la société d’IA Clarifai, entre autres. Mais il existe un autre moyen de produire suffisamment de données pour entraîner les systèmes d’IA : les fabriquer.
C’est essentiellement ce que fait une startup israélienne en plein essor appelée DataGen. L’entreprise utilise ses propres systèmes d’apprentissage automatique pour créer ce que l’on appelle des « données synthétiques » – dans ce cas, des images fixes et vidéo générées artificiellement – que les clients de DataGen utilisent ensuite pour entraîner leur propre IA. Les données synthétiques présentent d’autres avantages, outre la rapidité. Avec les données synthétiques, les entreprises n’ont pas à se soucier de la présence d’informations d’identification personnelle dans l’ensemble de données, ni de considérations éthiques sur la manière dont les données ont été collectées. Cependant, la partialité des données peut toujours poser problème. Un ensemble de données synthétiques peut, dans certains cas, simplement reproduire les mêmes biais que ceux trouvés dans un ensemble de données réel. Mais DataGen a des moyens de les éliminer. L’entreprise peut façonner l’ensemble de données qu’elle génère comme elle le souhaite, ce qui lui permet de créer beaucoup plus d’exemples de cas inhabituels ou rares afin de s’assurer qu’un système d’IA saura les traiter.