Argonne a annoncé avoir commencé à tester un nouvel ordinateur de la startup Cerebras qui promet d’accélérer considérablement la formation des algorithmes d’apprentissage en profondeur. L’ordinateur, qui abrite la plus grande puce au monde, fait partie d’une nouvelle génération de matériel spécialisé en IA.
Actuellement, les puces les plus couramment utilisées dans l’apprentissage en profondeur sont connues sous le nom d’unités de traitement graphique, ou GPU. Les GPU sont d’excellents processeurs parallèles. Avant leur adoption par le monde de l’IA, ils étaient largement utilisés pour les jeux et la production graphique. Par coïncidence, les mêmes caractéristiques qui leur permettent de rendre rapidement les pixels sont aussi celles qui font d’eux le choix privilégié pour l’apprentissage en profondeur.
Mais fondamentalement, les GPU sont généralistes. Bien qu’ils aient été les moteurs de la révolution de l’IA de cette décennie, leurs conceptions ne sont pas optimisées pour cette tâche. Ces inefficacités limitent la vitesse à laquelle les puces peuvent exécuter des algorithmes d’apprentissage en profondeur et leur faire absorber d’énormes quantités d’énergie dans le processus.
En réponse, les entreprises se sont empressées de concevoir de nouvelles architectures de puces spécialement adaptées à l’IA. Ces puces ont le potentiel de former des modèles d’apprentissage en profondeur jusqu’à 1 000 fois plus rapidement que les GPU, en consommant beaucoup moins d’énergie.
Beaucoup de puces spécialisées sont optimisées pour des applications commerciales d’apprentissage en profondeur, comme la vision par ordinateur et le langage, mais peuvent ne pas fonctionner aussi bien lorsqu’il s’agit de manipuler les données courantes dans la recherche scientifique. L’ordinateur de Cerebras a vérifié toutes les cases. Grâce à sa taille de puce (lus grande qu’un iPad et possède 1,2 trillion de transistors pour faire des calculs), il n’est pas nécessaire de connecter plusieurs petits processeurs ensemble, ce qui peut ralentir l’apprentissage du modèle. Au cours des tests, le temps de formation des modèles a été ainsi réduit de quelques semaines à quelques heures.