Depuis 2012, la puissance informatique utilisée pour entraîner les principaux systèmes d’IA a augmenté de façon exponentielle en doublant tous les 3,5 mois (en comparaison, la loi de Moore prévoit un doublement tous les 18 mois). Depuis 2012, cet indicateur a augmenté de plus de 300 000 fois (doubler tous les 18 mois n’aurait permis de le multiplier que par 12). L’augmentation de la puissance de calcul a été un élément clé des progrès de l’intelligence artificielle (IA).
Trois facteurs déterminent les progrès de l’IA : l’innovation algorithmique, les données (qui peuvent être des données supervisées ou des environnements interactifs) et la quantité de calcul disponible pour entraîner. L’évolution de l’innovation algorithmique et des données sont difficiles à mesurer tandis que la puissance de calcul est quantifiable, ce qui donne l’occasion de mesurer un intrant au progrès de l’IA.
Ces progrès se découpent en 4 époques distinctes :
- Avant 2012 : il était rare d’utiliser des GPU pour l’apprentissage machine
- De 2012 à 2014 : les infrastructures pour entraîner de nombreux GPU étaient peu communes, de sorte que la plupart des résultats ont utilisé entre 1 et 8 GPU évalués à 1-2 TFLOPS
- 2014 à 2016 : les résultats obtenus à grande échelle ont utilisé entre 10 et 100 GPU évalués à 5-10 TFLOPS.
- 2016 à 2017 : les approches qui permettent un plus grand parallélisme algorithmique ainsi que le matériel spécialisé comme les TPU et les interconnexions plus rapides ont permis de dépasser les limites, du moins pour certaines applications.
AlphaGoZero/AlphaZero est l’exemple public le plus visible de parallélisme algorithmique massif, mais de nombreuses autres applications à cette échelle sont maintenant possibles sur le plan algorithmique et peuvent déjà se produire dans un contexte de production.
Nous estimons que l’augmentation exponentielle de la puissance informatique a de fortes chances de se poursuivre. De nombreuses startups développent des puces spécifiques à l’IA.. Il peut également y avoir des avantages à reconfigurer simplement le matériel pour effectuer le même nombre d’opérations pour un coût économique moindre. Du côté du parallélisme, bon nombre des innovations algorithmiques récentes décrites pourraient en principe être combinées de manière multiplicative.
Néanmoins, le coût et la physiques finiront par limiter le parallélisme et donc l’efficacité des puces.