Le père des réseaux bayésiens et du raisonnement probabiliste, Judea Pearl, a publié son « Livre du POURQUOI : La nouvelle science des causes et des effets », l’année dernière. Il y suggère que l’avenir de l’intelligence artificielle (IA) dépend de la construction de systèmes intégrant des notions de causalité. Si les méthodes d’apprentissage machine excellent dans la description du monde réel, elles manquent souvent de « compréhension » de ce monde. De simples perturbations à peine remarquées par les humains peuvent amener les systèmes d’apprentissage en profondeur de pointe à mal classer des panneaux routiers par exemple. Ses écrits récents ont induit beaucoup de travail (et de débats) dans la communauté des chercheurs en IA, principalement avec la caractérisation de l’apprentissage en profondeur comme étant simplement une » adaptation des courbes « .
L’apprentissage en profondeur, et la plupart des méthodes d’apprentissage machine, apprennent des modèles ou identifient des associations à partir de données. À elles seules, les données d’observation ne peuvent que transmettre des associations entre les variables ; la corrélation n’impliquant pas de lien de causalité. Bien sûr, il peut y avoir des signatures causales cachées dans les données, mais elles sont ambiguës et le plus souvent corrompues par des variables et des observations manquantes, du bruit et des biais, ce qui rend non négligeable l’identification précise des causes et effets. Les systèmes d’apprentissage machine excellent dans l’apprentissage des liens entre les données fournies en entrée et les prévisions de sortie, mais manquent de raisonnement sur les relations de cause à effet ou les changements d’environnement. L’explication de Pearl de la hiérarchie causale aide à illustrer le type de questions qu’on peut poser avec un modèle et des données, et pourquoi chaque niveau nécessite une trousse à outils mathématiques différente. Succinctement :
1. L’association invoque des relations purement statistiques définies par les données. u’est-ce qu’un symptôme me dit au sujet d’une maladie ?
2. L’intervention constitue un niveau plus élevé parce qu’elle implique non seulement d’observer ce qui est, mais aussi de changer ce qu’on observe. C’est-à-dire, estimer de façon fiable l’effet si l’on effectue une action, ou si l’on a la capacité de raisonner sur la structure causale des variables du système. Si je prends de l’aspirine pour bébé, mon risque d’insuffisance cardiaque diminuera-t-il ?
3. Le Saint-Graal de l’inférence causale appelle un raisonnement rétrospectif sur des situations hypothétiques. L’inférence contrefactuelle nous permet d’estimer les résultats non observés. C’est l’aspirine qui m’a sauvé d’une crise cardiaque ?
Il suffit de dire que ces méthodes équivalent à l’apprentissage de fonctions très complexes définies par l’architecture du réseau neuronal pour connecter une entrée X à une sortie Y. Pour un jouer, X est un état observé du jeu (positions du plateau, santé des joueurs, etc.) et Y serait l’action ou plan suivant. Comme le dit Pearl, « tant que notre système optimise certaines propriétés des données observées, aussi nobles ou sophistiquées soient-elles, sans faire référence au monde extérieur aux données, nous revenons au niveau 1 de la hiérarchie avec toutes les limites que ce niveau comporte ». L’apprentissage en profondeur constitue donc le premier échelon de l’échelle d’inférence causale de Pearl.
La suite ici (Alexander Lavin)