Comment nos données encodent le racisme ?

deep tech innovation — Image par succo de Pixabay

L. Bardon . – Dans le cadre d’un projet de la DARPA visant à renverser le cours de la guerre du Vietnam, Simulmatics a travaillé d’arrache-pied à la préparation d’une campagne massive de propagande contre le Vietcong. Le président Johnson était désireux de déployer la technologie d’influence comportementale de Simulmatics pour réprimer la menace intérieure de la nation, et pas seulement celle de ses ennemis étrangers. Sous le couvert de ce qu’ils appelaient une “étude médiatique”, Simulmatics a constitué une équipe pour ce qui équivalait à une campagne de surveillance à grande échelle. Ils ont recueilli des données sur l’utilisation des péages, les ventes des stations d’essence et les itinéraires des bus. Ils avaient pour objectif d’utiliser les informations recueillies par Simulmatics pour tracer le flux d’informations pendant les manifestations de l’été 1967 afin d’identifier les personnes influentes. Mais à la fin des années 1960, ce type d’informations a contribué à la création de ce que l’on a appelé les “systèmes d’information de la justice pénale”. Ils ont proliféré au fil des décennies, jetant les bases du profilage racial, de la police prédictive et de la surveillance ciblée sur les groupes raciaux.

Les résultats de la recherche Google Image pour « peau saine » ne montrent que les femmes à la peau claire, et une requête sur « Filles noires » renvoie toujours de la pornographie. Les données sur le visage des célébrités (CelebA) comportent des étiquettes « gros nez » et « grandes lèvres » qui sont attribuées de manière disproportionnée aux visages féminins à la peau foncée comme le mien. Les ensembles de données pour la détection du cancer de la peau sont des échantillons manquants de types de peau plus foncés. Lorsque ceux d’entre nous qui construisent des systèmes d’IA continuent à permettre que le mensonge flagrant de la suprématie blanche soit intégré dans tout, de la façon dont nous collectons les données à la façon dont nous définissons les ensembles de données et comment nous choisissons de les utiliser, cela signifie une tolérance inquiétante.

Dans un document de recherche intitulé « Dirty Data, Bad Predictions », l’auteur principal, Rashida Richardson, décrit un scénario alarmant : les commissariats de police soupçonnés ou confirmés d’être engagés dans des pratiques « corrompues, raciales ou illégales » continuent de fournir leurs données pour le développement de nouveaux systèmes automatisés destinés à aider les agents à prendre des décisions de police.

La technologie n’est pas indépendante de nous ; elle est créée par nous, et nous en avons le contrôle total. Les données ne sont pas seulement arbitrairement « politiques » – il existe des politiques spécifiques toxiques et mal informées que les scientifiques des données laissent imprudemment infiltrer dans nos ensembles de données.

Il n’y a pas de version future des données qui soit magiquement impartiale. Les données seront toujours une interprétation subjective de la réalité de quelqu’un, une présentation spécifique des objectifs et des perspectives que nous choisissons de privilégier en ce moment. C’est un pouvoir détenu par ceux d’entre nous qui sont responsables de l’approvisionnement, de la sélection et de la conception de ces données et du développement des modèles qui interprètent les informations.

La suite ici (Deborah Raji)

(Visited 104 times, 1 visits today)