IA : l'apprentissage fédéré pour s'entraîner sur vos données de santé sans menacer votre vie privée - Paris Singularity : deeptech, startups et prospective

En 2017, Google publiait un billet sur une nouvelle approche de l’apprentissage automatique. Contrairement aux techniques utilisées auparavant, qui nécessitent que les données soient centralisées en un seul endroit, la nouvelle méthode saurait exploiter une série de sources de données distribuées sur plusieurs dispositifs. L’apprentissage fédéré a permis à Google d’entraîner son modèle de texte prédictif en utilisant les messages envoyés et reçus par les utilisateurs d’Android, sans jamais les lire ni les récupérer de leurs téléphones. Malgré son ingéniosité, l’apprentissage fédéré n’a guère gagné en popularité au sein de la communauté AI à l’époque. Cette situation pourrait changer. Son approche axée sur la protection de la vie privée pourrait très bien être la réponse au plus grand obstacle à l’adoption de l’IA dans les soins de santé aujourd’hui.

Les hôpitaux et les établissements de recherche doivent mutualiser leurs entrepôts de données s’ils veulent disposer d’un ensemble de données suffisamment vaste et diversifié pour être pertinent. L’apprentissage fédéré permet de former un modèle à partir de données stockées dans plusieurs hôpitaux différents sans qu’elles ne quittent les locaux d’un hôpital ou ne soient envoyées vers les serveurs d’une entreprise technologique. Pour ce faire, les chercheurs forment d’abord des modèles distincts, propres à chaque hôpital, à partir des données locales disponibles. Puis ces modèles sont envoyés à un serveur central pour être combinés et transformées en un modèle maître. Au fur et à mesure que chaque hôpital acquiert plus de données, il peut télécharger le dernier modèle maître, le mettre à jour grâce aux nouvelles données récupérées et renvoyer le tout au serveur central. Tout au long du processus, les données brutes ne sont jamais échangées ; seules les modèles le sont.

L’apprentissage fédéré fait encore face à plusieurs obstacles. D’une part, la combinaison de modèles distincts risque de créer un modèle maître moins performant que chacun des modèles pris unitairement. Les chercheurs travaillent actuellement à perfectionner les techniques existantes pour s’assurer que cela ne se produise pas. D’autre part, l’apprentissage fédéré exige que chaque hôpital dispose de l’infrastructure et des compétences nécessaires pour former des modèles d’apprentissage machine. Il reste également des divergences sur la normalisation de la collecte de données dans tous les hôpitaux. En fait, d’autres techniques d’apprentissage distribué axées sur la protection de la vie privée ont depuis fait leur apparition pour relever ces défis.

La suite ici (Karen Hao)

(Visited 130 times, 1 visits today)