Vous connaissez ImageNet, une base de données contenant plus d’un million d’images taggées en fonction de leurs contenus. Il y a quelques années, une découverte capitale dans le machine learning a rendu les ordinateurs capables de reconnaître les objets dans des photos avec une précision jusque là jamais atteinte. Depuis, chaque année l’ImageNet Large Scale Visual Recognition Challenge teste la capacité des ordinateurs à reconnaître automatiquement le contenu des images. Une nouvelle base de données appelée Visual Genome pourrait maintenant apprendre aux ordinateurs à comprendre le sens de ce que les images montrent et donc mieux comprendre le monde réel, passer de la perception à la compréhension. C’est encore une fois Fei-Fei Li qui est à l’initiative de ce projet. Les images contenues dans Visual Genome sont taggées plus richement que celles d’ImageNet. Elles incluent les noms et les détails de tous les objets contenus au sein d’une image, les relations entre objets ainsi que des informations concernant les actions en train de se passer. C’est l’approche crowsourcée qui a permis de réaliser ce travail de titan. En 2017 le premier Visual Genome défi devrait être lancé.
L’intelligence artificielle passe de la perception à la compréhension
(Visited 94 times, 1 visits today)