Comment les données sont-elles devenus si importantes et volumineuses ?

Image parPete Linforth de Pixabay

Au cours des 150 dernières années, les idées ont radicalement changé quant à ce qui est considéré comme des données, quelles données sont fiables et à qui elles appartiennent. Autrefois considérées comme des objets stables dont l’importance était déterminée par une poignée d’eixperts, les données sont aujourd’hui des biens réutilisables. De plus en plus nombreuses, variées et précieuses, les données sont devenues le moteur du processus même de la découverte. Cette désignation explicite en tant qu’actif n’est devenue possible qu’au travers d’un réseau complexe de développements institutionnels, technologiques et économiques. L’histoire et les conséquences de la façon dont cette toile a été tissée ont transformé à plusieurs reprises la recherche et son rôle dans la société.

Jusqu’au début du XIXe siècle, les efforts de collecte de faits et d’objets d’étude étaient dirigés par des individus visionnaires, généralement soutenus par de riches mécènes. Les grandes quantités de données accumulées ont été systématisées et analysées au moyen de modèles simples et puissants (pensez aux lois de Kepler) et de systèmes de classification (comme celui développé par le botaniste Carl Linnaeus). Ainsi est né le mythe du théoricien héroïque s’appuyant essentiellement sur le chaos des observations. Cette vision individualiste était liée à une compréhension des données comme étant fondamentalement privées – leur valeur scientifique réside dans l’interprétation conceptuelle. Le XIXe siècle marque un tournant. Les données, telles que nous les reconnaissons maintenant, se sont institutionnalisées en tant que marchandises sociales. Leur valeur intellectuelle, financière et politique est le fruit d’investissements qui nécessitent une réglementation et une surveillance.

La centralisation des marchés alimentaires a donné naissance à des approches normalisées de l’évaluation et du commerce des organismes, comme les mesures des cultures élaborées par le Chicago Board of Trade de l’Illinois. Les épidémies de choléra en Europe ont stimulé la collecte à grande échelle d’informations sur la propagation et les cibles de la maladie. De nouvelles méthodes de visualisation et d’analyse sont apparues, comme les fameuses cartes du médecin John Snow sur la façon dont l’eau contaminée propageait le choléra dans le centre de Londres. Les services météorologiques nationaux ont commencé à établir des liens entre les données recueillies à l’échelle régionale.

Au tournant du XXe siècle, la montée des États-nations et les exigences croissantes du commerce international ont donné lieu à des initiatives visant à mesurer la nature et la société de manière plus systématique et objective. Les infrastructures nationales d’information ont aidé les régions à partager les données, marquant le début d’un nouveau mondialisme informationnel. Des entités internationales, telles que la Société des Nations et le Fonds monétaire international, souhaitaient mondialiser la collecte et l’analyse de données à des fins multiples et dans tous les domaines scientifiques. Tout cela a alimenté le développement d’approches sophistiquées de quantification. Les statistiques sont apparues comme une discipline distincte – la principale source d’information pour les nouvelles pratiques d’assurance et les systèmes de surveillance de la santé publique. Des techniques ont été mises au point pour tenir compte de la complexité d’exercices sociaux tels que le recensement.

À partir des années 1970, presque tous les domaines scientifiques ont construit des infrastructures globales et numérisées pour le partage des données. L’Organisation des Nations Unies a consolidé son système mondial de surveillance de l’environnement tout comme l’Organisation mondiale de la santé a systématisé ses efforts pour cartographier la propagation des maladies infectieuses. Le Saint-Graal est devenu le développement d’outils, tels que des modèles informatiques, qui permettaient de faire des calculs à une échelle jusque-là inimaginable. De plus en plus, les données étaient considérées comme des actifs partageables à des fins de réutilisation, dont la valeur pouvait changer en fonction de leur utilisation. Ce point de vue doit beaucoup au mouvement cybernétique, qui met l’accent sur la modularité et la complexité. Une fois de plus, l’évolution du rôle des données a également été influencée par la croissance du commerce international et la reconnaissance croissante de la recherche comme moteur de la croissance économique, du pouvoir militaire et des relations internationales.

Depuis les années 1980, les ordinateurs portables, la modélisation et les simulations ont façonné la collecte, la manipulation et l’archivage des données. Les climatologues ont mis au point des moyens d’utiliser les archives pour reconstituer l’histoire de l’atmosphère à l’échelle planétaire. Cet effort a conduit à la mise en commun des données internationales, qui a culminé en 1992 avec le Système mondial d’observation du climat.

Au fur et à mesure que les infrastructures mondiales de données et les institutions connexes ont pris de l’ampleur, les ressources nécessaires à leur entretien se sont multipliées, et ce, d’une manière qui ne correspond pas aux régimes actuels de financement, de crédit et de communication. Au cours des dernières décennies, le mouvement de la science ouverte a appelé à un partage généralisé des données, ce qui est fondamental pour améliorer la recherche. Cela a entraîné plusieurs changements. L’une est la naissance de revues consacrées en grande partie à la publication d’ensembles de données. Un autre exemple est l’investissement ambitieux dans les infrastructures de données, illustré par l’Open Science Cloud européen. Et les lignes directrices de FAIR ont été conçues pour indiquer comment les données devraient être étiquetées et gérées pour les rendre réutilisables. On a également demandé d’améliorer la rémunération des responsables de la gérance des données (comme les techniciens, les archivistes et les conservateurs), afin de rehausser leur statut professionnel de travailleurs de soutien à créateurs de connaissances.

A mesure que les algorithmes deviennent de plus en plus opaques, la transparence et la responsabilité des techniques et des outils utilisés pour interpréter les données diminuent. Alors que les curateurs de données demeurent les Cendrillons du monde universitaire, ceux qui comprennent et contrôlent la gestion des données ont gravi les échelons des entreprises. En outre, les droits de propriété des données sont de plus en plus préoccupants, en particulier à la suite de l’utilisation abusive des données personnelles par des entreprises comme Facebook et la société britannique Cambridge Analytica. De telles tensions entre des données telles que les biens publics et les produits de base privés ont longtemps façonné les pratiques et les technologies.

L’utilisation du big data comme données d’entrée pour les systèmes d’intelligence artificielle repose sur la promesse d’une richesse de données globale, complète et facilement accessible. En principe, le mariage de puissants outils d’analyse avec de grandes données biologiques peut soutenir la médecine personnalisée et l’agriculture de précision. De même, les données sociales recueillies sur les plateformes Internet et les services de médias sociaux peuvent éclairer les politiques, les stratégies commerciales et l’éducation fondées sur des données probantes. Pourtant, l’histoire montre qu’il n’est pas si simple d’exploiter les données de recherche. Les questions techniques sous-jacentes à l’intégration et à l’utilisation sont des questions sociales, éthiques et sémantiques épineuses.

Comment encourager différentes cultures de recherche à communiquer efficacement ? Quelle est la meilleure façon de recueillir, de partager et d’interpréter les données produites par l’État, l’industrie ou les médias sociaux ? Quels experts et parties prenantes devraient avoir leur mot à dire dans la gestion et l’analyse des données ? Qui devrait avoir accès à quoi, quand et comment ? Pour s’attaquer à ces problèmes, il faut une administration et une surveillance efficaces, ainsi qu’une vision à long terme du domaine de recherche en question. Elle exige également un répertoire de compétences, de méthodes et d’institutions axées sur l’étude d’objets de recherche spécifiques. En résumé, la génération, le traitement et l’analyse des données sont inévitablement chargés de valeur.

Le développement technologique, en particulier la numérisation, a révolutionné la production, les méthodes, la diffusion, les objectifs, les acteurs et le rôle de la science. Il est tout aussi important, cependant, de noter les grands changements dans les processus, les règles et les institutions qui ont déterminé qui fait quoi, dans quelles conditions et pourquoi. La gouvernance, en un mot. Les données émergent de cette lecture de l’histoire comme des objets relationnels, dont l’identité même en tant que sources de preuves – sans parler de leur signification et de leur interprétation – dépend des intérêts, des buts et des motivations des personnes impliquées, ainsi que de leur contexte institutionnel et financier. L’extraction de connaissances à partir de données n’est pas un acte neutre.

La suite ici (Sabina Leonelli)

(Visited 23 times, 1 visits today)
Avatar photo

Fondateur paris-singularity.fr👁️‍🗨️Entrepreneur social trackant les deep techs

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *