Apprentissage fédéré : vers l’IA personnelle respectant vie privée et confidentialité

L’apprentissage fédéré permet aux experts de la donnée de concevoir des intelligences artificielles (IA) sans compromettre la vie privée des utilisateurs. Cette méthode est élaborée pour disrupter le paradigme de l’IA centralisée, dans lequel un algorithme s’améliore au gré de la collecte d’un volume de plus en plus important de données personnelles. L’apprentissage fédéré pourrait constituer la solution pour les industries où les données ne peuvent pas être transférées à des tiers pour des raisons de confidentialité (santé, banque, etc.).

En simplifiant à l’extrême, la création d’une IA permet de résoudre une fonction mathématique f(x)=y en observant un grand nombre d’exemples (x), étiquetés (y). Un algorithme est entraîné lors de la construction de la fonction f. Lors que f est utilisé pour prédire un résultat y pour un x donné, on parle d’inférence. La formation d’une IA nécessite actuellement la collecte d’un grand volume de données. En raison de la puissance de calcul nécessaire, les données sont le plus souvent traitées dans le cloud grâce à des solutions d’apprentissage machine dédiées développées par AWS, Microsoft ou Google. C’est pourquoi l’IA a jusqu’ici été construite sur une architecture centralisée : les données sont collectées à partir des appareils des utilisateurs et centralisées dans le nuage où l’algorithme est entraîné pour que soit exécuté l’inférence.

1. Quels sont les principaux problèmes que pose le modèle de l’IA centralisée ?

L’IA centralisée est de loin l’architecture la plus courante. Cependant, en séparant les algorithmes d’IA des dispositifs des utilisateurs, des volumes colossaux de données sont déplacés. Ces transferts répétitifs créent de sérieuses contraintes :

  • Diminution de la vie privée
  • Incompatibilité avec de nombreux secteurs
  • Problèmes de latence qui ralentissent l’inférence
  •  Coûts de transfert élevés en raison de l’explosion de la quantité de données à traiter (une voiture autonome génère quotidiennement 4000 Go de données à interpréter)

2. L’émergence de l’apprentissage fédéré

Une nouvelle méthode de formation appelée apprentissage fédéré, développée par Google et utilisée dans son application Gboard, pourrait constituer la pierre angulaire d’une IA distribuée et confidentielle.

Comment ça marche ?

Prenons l’exemple d’une flotte de téléphones utilisant une IA fédérée qui recommande des nouvelles musiques à ses utilisateurs :
L’algorithme est téléchargé à partir du cloud sur chaque téléphone. C’est l’algorithme central, commun à tous les utilisateurs.
Cet algorithme est entraîné en continu sur base des chansons de chaque utilisateur. Le modèle central devient local et est personnalisé en fonction des préférences musicales de chaque utilisateur.
Les nouveaux apprentissages obtenus à partir de l’algorithme sur l’appareil de chaque utilisateur sont envoyés dans le cloud par l’intermédiaire d’un canal crypté. Seules les nouvelles découvertes sont envoyées dans le cloud, les données personnelles ne quittent pas les appareils.
Les mises à jour sont agrégées au sein de l’algorithme central. Ce dernier intègre les nouveaux apprentissages comme s’il était directement formé via les données utilisateur (comme dans une architecture centralisée).
Ce nouveau modèle central, obtenu grâce à l’apprentissage fédéré, fonctionne aussi bien que le modèle centralisé. Il est ensuite redistribué sur chaque téléphone où il complète le modèle local. L’IA disponible sur chaque téléphone accumule les apprentissages de tous les utilisateurs tout en restant personnalisé à chaque utilisateur.
Cette boucle d’amélioration continue, distribuée et confidentiel se répète sans fin.

En quoi l’apprentissage fédéré est-il une amélioration de l’IA ?

  • Les données personnelles ne quittent jamais l’appareil de l’utilisateur, seules les mises à jour apportées au modèle central sont transférées. Ces données sont cryptées, ce qui rend impossible à quiconque d’intercepter les données et d’en faire l’ingénierie rétroactive.
  • Les mises à jour sont plus légères. Par conséquent, la charge de travail globale nécessaire est plus faible dans l’apprentissage fédéré que dans les architectures basées sur le cloud ou dans l’informatique de pointe, ce qui la rend moins chère et plus pratique.
  • Le modèle est situé dans l’appareil de l’utilisateur, ce qui permet des inférences en temps réel sans problème de latence.
  • En utilisant des mises à jour agrégées pour former des algorithmes au lieu de données brutes, l’apprentissage fédéré permet aux secteurs où les données ne peuvent pas être transférées à des tiers pour des raisons de confidentialité (secteur de la santé, banques, compagnies d’assurance, etc.) de bénéficier de l’IA.

La suite ici (Gabriel de Vinzelles)

(Visited 423 times, 1 visits today)
Avatar photo

Fondateur paris-singularity.fr👁️‍🗨️Entrepreneur social trackant les deep techs

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *