L’apprentissage en profondeur est en train de provoquer des percées dans tous les domaines, des applications mobiles grand public à la reconnaissance d’images. Pourtant, l’exécution de modèles d’IA basés sur l’apprentissage en profondeur pose de nombreux défis. L’un des obstacles les plus difficiles à lever est le temps qu’il faut pour former ces modèles. La nécessité de croiser beaucoup de données et la complexité de calcul des modèles d’IA basés sur l’apprentissage en profondeur ralentissent les progrès, tant en précision que dans la facilité de déployer l’apprentissage en profondeur à grande échelle. Ce sont les temps d’entraînement – souvent mesurés en jours, parfois en semaines – qui ralentissent la mise en œuvre.
À mesure que les GPU deviennent plus « intelligentes » et rapides, ils accélèrent très rapidement leur apprentissage, et ont besoin d’un meilleur moyen de communication, sans quoi il se désynchronisent. Ensuite, ils passent trop de temps à attendre les résultats des autres. De fait, vous ne pouvez obtenir aucune accélération en utilisant plus de GPU pour accélérer l’apprentissage. Pour accélérerla formation des modèles, les scientifiques de données et les chercheurs doivent distribuer l’apprentissage en profondeur sur un grand nombre de serveurs. Cependant, la plupart des frameworks d’apprentissage en profondeur résident sur le même serveur.
Il est difficile d’orchestrer et d’optimiser un problème d’apprentissage en profondeur sur de nombreux serveurs, car plus les GPU sont rapides, plus ils apprennent rapidement. Les GPU doivent également partager leur apprentissage avec tous les autres GPU, mais à un rythme qui n’est pas tenable avec les logiciels conventionnels. Cette lacune fonctionnelle dans les systèmes d’apprentissage en profondeur a récemment amené une équipe de recherche IBM à développer des algorithmes et des logiciels d’apprentissage en profondeur distribués (DDL) qui automatisent et optimisent la parallélisation de tâches informatiques complexes sur des centaines d’accélérateurs GPU connectés à des dizaines de serveurs.