L’impact environnemental potentiel de l’IA a été mis en évidence l’année dernière, lorsque des chercheurs de l’université du Massachusetts, Amherst, ont publié un article montrant que l’énergie nécessaire pour entraîner un seul réseau neuronal pourrait entraîner des émissions de CO2 près de cinq fois supérieures à celles d’une voiture américaine moyenne pendant sa durée de vie.
Cette étude s’est concentrée sur les principaux modèles de traitement du langage naturel, qui sont vastes par rapport au réseau neuronal moyen. Mais la formation de réseaux encore plus petits peut avoir un impact environnemental important, et si vous voulez les déployer sur une gamme de dispositifs différents, les réseaux doivent être adaptés à chacun d’entre eux.
Hors, avec la croissance de l’Internet des objets et les efforts pour intégrer des systèmes d »IA dans des appareils de pointe comme les smartphones et les haut-parleurs intelligents, le coût de cette démarche monte en flèche. L’équipe du MIT a donc décidé de concevoir une approche différente pour former un réseau neuronal unique « une fois pour toutes » (OFA) qui contient de nombreux sous-réseaux plus petits adaptés à différents types de matériel.
Leur solution consiste en un nouvel algorithme de « réduction progressive » qui commence par optimiser le plus grand réseau possible pour la tâche à accomplir. Il affine ensuite ce réseau pour qu’il comporte un sous-réseau légèrement plus petit qui peut également résoudre la tâche sans affecter les performances du plus grand réseau. Ce processus est répété à l’infini pour produire de nombreux réseaux de tailles différentes, tous imbriqués les uns dans les autres comme des poupées russes.
Lorsqu’il s’agit de déployer l’IA sur un appareil particulier, un algorithme de recherche simple parcourt tous ces sous-réseaux pour trouver celui qui convient à ce processeur. L’approche est encore très gourmande en calculs. La formation du réseau OFA a pris 1 200 heures de GPU, contre la moitié pour la plupart des approches NAS que les chercheurs ont comparées dans leur article. Comme ils le soulignent, cependant, dès que l’on forme des réseaux pour plus d’une poignée d’appareils, les statistiques commencent à sembler beaucoup plus favorables, car leur coût de formation reste le même que celui de tous les autres appareils, qui augmente de façon linéaire.