Deepmind est bien connue pour ses réalisations dans le domaine de l’intelligence artificielle (IA). AlphaGo et AlphaZero, par exemple, ont récemment fait couler beaucoup d’encre.
Néanmoins, le travail accompli par une autre équipe du même laboratoire de R&D n’a pas disposé de la même aura médiatique, et de très loin. Cette équipe de scientifiques et d’ingénieurs des données a récemment travaillé sur un nouvel algorithme. Un algorithme qu’ils ont introduit à la fin de l’année dernière. Ils l’ont appelé AlphaFold. Fin 2018, AlphaFold de DeepMind a remporté la première place dans le prestigieux concours CASP. CASP (Critical Assessment of Structure Prediction) est un concours scientifique biennal établi en 1994 qui a eu lieu pour la 13e fois. C’est un peu comme l’Oscar de la biologie moléculaire et des structures protéiques décerné par Hollywood.
Pourquoi c’est important ?
Les protéines sont de petites molécules, des composés chimiques. Chaque processus de notre corps en a besoin. Elles sont le noyau fonctionnel, le moteur de chaque cellule de notre corps et contrôlent comme des agents secrets tout ce qui lui arrive : nos hormones, nos sentiments, notre naissance, notre croissance, notre maladie, notre bonheur, notre vie, notre mort.
Elles transmettent des substances, déclenchent des réactions chimiques, protègent les cellules ou créent de nouvelles chaînes d’ADN pendant la division cellulaire. Elles contrôlent tout. Et cela ne s’applique pas seulement à nous, les humains. Tout être vivant sur Terre, quelles que soient sa taille et sa forme, est construit sur des structures protéiques.
Techniquement parlant, une protéine est une chaîne de 21 acides aminés différents, aussi appelée polypeptide. Chaque acide aminé lui-même est construit comme un triplet (Condon) des 4 nucléotides possibles suivants : A, T, C, G. Bien que la protéine soit construite à partir d’éléments de base très simples, les acides aminés, sa structure peut devenir complexe et sophistiquée. Enfin, la chaîne ainsi constituée est pliée d’une manière unique et très spécifique dans l’espace 3D. Lors de son repliement, une protéine recherche son état énergétique le plus bas.
Certains comparent la structure d’une protéine avec le code d’un logiciel. Un code, écrit non pas par un ingénieur en informatique, mais par la nature. Le code décrit à n’importe quelle cellule de n’importe quel organe de votre corps exactement ce qu’il faut faire et ce qu’il ne faut pas faire. Par exemple, quand se diviser. Quand effectuer une réaction chimique spécifique, pour se connecter avec une autre molécule. Ou quand s’autodétruire. La recherche actuelle estime le nombre d’espèces protéiques du corps humain compris entre plusieurs 10.000 et plusieurs milliards. En d’autres termes, chaque protéine a son interface d’application spécifique, une API, qui lui permet d’interagir avec d’autres protéines.
Enfin, la séquence exacte des acides aminés et le repliement de la molécule de protéine sont déterminés par nos gènes, c’est-à-dire par notre ADN. Et comme l’ADN de chacun d’entre nous est unique et individuel, les protéines le sont aussi. Même si les gènes humains ne varient que d’environ 0,025 % chez tous les humains, ce petit nombre a un impact significatif. C’est ce qui fait de moi, moi et toi, toi, toi.
Il en va de même pour les protéines : même de petits écarts dans la séquence acide d’une protéine et/ou un mauvais pliage de sa structure peuvent causer de graves problèmes dans le système d’exploitation d’une cellule.
Les médicaments fabriqués par l’industrie pharmaceutique sont des protéines produites artificiellement qui tentent d’imiter leurs équivalents naturels. Les nombreux effets secondaires des médicaments sont exactement dûs à ça : des protéines qui ne sont pas correctement pliées et donc pas 100% compatibles avec notre organisme.
Lors de la compétition CASP13, l’équipe de Deepmind/AlphaFold a proposé une solution inédite à ce problème. Et ils n’ont pas seulement gagné la première place. Non, ils ont surpassé de loin leurs concurrents.
Les algorithmes AlphaFolds ont été capables de prédire correctement le pliage de 25 des 43 structures de protéines données, soit un résultat avec 58 % de précision (l’équipe qui s’est classée deuxième a atteint 7 % de précision). Cela signifie que dans 58% des protéines données, AlphaFold a été capables de prédire la structure de pliage 3D à partir de la séquence ADN. Selon le paradoxe de Leventhal, le temps nécessaire pour essayer tous les plis possibles de cette chaîne de 100 acides aminés pour déterminer lequel est le bon, serait plus long que l’âge de l’univers.
Le cœur de la solution AlphaFold était basé sur une combinaison intelligente de techniques d’apprentissage profond. L’équipe s’est plutôt concentrée sur les propriétés physiques distinctes d’une structure protéique, en fonction de sa séquence génétique d’acides aminés. Dans cette étape, l’équipe essayait de prédire les distances entre les paires d’acides aminés, et de prédire les angles entre les liaisons chimiques qui relient ces acides aminés.
En utilisant ces fonctions de score, l’équipe d’AlphaFold est parvenue à trouver les structures correspondantes dans la base de données des protéines réelles, et à entraîner un réseau de neurones génératifs (GAN) pour inventer de nouveaux fragments de protéines optimisés en fonction du score. AlphaFold a ainsi été capable de proposer une structure protéique complète. De calculer son score. De l’optimiser progressivement en remplaçant et réassemblant les fragments d’acides aminés, jusqu’à atteindre la convergence. La convergence signifiant dans ce cas : la structure de pliage optimale pour atteindre l’état énergétique le plus bas.