Microsoft et le distributeur chinois Alibaba ont annoncé de manière indépendante qu’ils avaient fabriqué un logiciel qui égalait ou surpassait les humains lors d’un test de compréhension en lecture conçu à Stanford. Microsoft l’a qualifié de « jalon important ». La couverture médiatique a amplifié les affirmations, Newsweek estimant « des millions d’emplois à risque ». Les affirmations de Microsoft et Alibaba s’appuient sur les scores de performance humaine fournis par Stanford. Mais les chercheurs qui ont construit le test de Stanford, et d’autres experts dans le domaine, déclarent que le benchmark utilisé n’est pas une bonne référence du score que ferait un anglophone natif sur le test. En fait, le score a été calculé d’une façon qui favorise les machines vis-à-vis des humains.
Un chercheur de Microsoft impliqué dans le projet a déclaré que « les humains étaient toujours beaucoup plus performants que les machines » pour comprendre les nuances du langage. Les logiciels d’IA s’améliorent constamment, ce qui stimule l’investissement dans la recherche et la commercialisation. Mais les affirmations des entreprises technologiques selon lesquelles leurs solutions battent des êtres humains dans des domaines tels que la compréhension des photos ou de la parole devraient nous servir d’avertissements.
En 2015, Google et Microsoft ont toutes deux annoncé que leurs algorithmes avaient dépassé les humains dans la classification du contenu des images. Le test utilisé consistait à trier des photos dans 1000 catégories, dont 120 étaient des races de chien ; ce qui est bien adapté pour un ordinateur, mais difficile pour les humains. Plus généralement, les ordinateurs sont toujours moins performants ques les adultes et même les jeunes enfants dans l’interprétation d’images, en partie parce qu’ils ne comprennent pas le monde de manière sensée. Google censure toujours les recherches de « gorilles » dans son produit Photos pour éviter d’appliquer le terme aux photos de visages noirs, par exemple.
En 2016, Microsoft a annoncé que sa reconnaissance vocale était aussi bonne que celle des humains, la qualifiant de « une réussite historique ». Quelques mois plus tard, IBM a rapporté que les humains étaient en réalité meilleurs que ce que Microsoft avait initialement mesuré sur le même test. Microsoft a à nouveau revendiqué la même réussite en 2017. Jusqu’à présent, elle reste valable. Mais elle est basée sur des tests utilisant des centaines d’heures d’appels téléphoniques entre inconnus enregistrés dans les années 1990, un environnement relativement contrôlé. Le meilleur logiciel n’égale toujours pas les humains dans la compréhension de discours occasionnel dans des conditions bruyantes, ou quand les gens parlent de façon indistincte, ou avec des accents différents.