L. Bardon . – L’apprentissage par renforcement profond connaît son heure de gloire. Il alimente des robots plus intelligents. Il simule les réseaux neuronaux humains. Il surpasse les médecins en matière de diagnostic médical et écrase les meilleurs joueurs de l’humanité au Go et à Atari. Bien qu’elle soit loin d’atteindre la souplesse et la rapidité de réflexion qui sont naturelles chez l’homme, l’idée séduisante d’apprentissage automatique semble constituer le signe avant-coureur de machines plus intelligentes. Sauf qu’il y a un obstacle de taille : leur exécution prend une éternité. Le concept qui sous-tend ces algorithmes est basé sur les essais et les erreurs. Un “agent” d’IA à apprentissage par renforcement n’apprend qu’après avoir été récompensé pour ses bonnes décisions. Pour les problèmes complexes, le temps nécessaire à un agent d’IA pour essayer et échouer à apprendre une solution peut rapidement devenir intenable.
L’état de l’art des applications d’IA reflète celui du domaine de la recherche. Celui-ci a longtemps été imprégné par une sorte d’individualisme méthodologique. Comme le montrent les manuels d’introduction, le problème canonique de l’IA est celui d’une machine solitaire confrontée à un environnement non social. Un système d’IA doit d’abord acquérir une compréhension de base de son environnement et de la manière d’interagir avec lui. Même dans les travaux impliquant plusieurs agents d’IA, le domaine ne s’est pas encore attaqué aux problèmes difficiles de la coopération. Les résultats les plus marquants proviennent de jeux à somme nulle à deux joueurs, tels que le backgammon, les échecs, le jeu de Go et le poker. Dans ces exemples de compétition, les gains ne peuvent être réalisés qu’au détriment des autres.
L’IA a besoin de compréhension sociale et d’intelligence coopérative pour bien s’intégrer dans la société. Les années à venir pourraient donner naissance à diverses écosystèmes de systèmes d’IA qui interagissent de manière rapide et complexe les uns avec les autres et avec les humains : sur les trottoirs et les routes, sur les marchés de consommation et financiers, dans la communication par courrier électronique et les médias sociaux, dans la cybersécurité et la sécurité physique. Les véhicules autonomes ou les villes intelligentes qui n’interagissent pas bien avec les humains ne parviendront pas à leur offrir des avantages, et pourraient même perturber les relations humaines stables. Nous devons construire une science de l’IA coopérative. En tant que chercheurs dans ce domaine et dans sa gouvernance, nous soutenons qu’il est temps de donner la priorité au développement d’une intelligence coopérative qui a la capacité de promouvoir une action commune mutuellement bénéfique, même lorsque les incitations ne sont pas totalement alignées.
Les parents encouragent leurs enfants à dépasser leurs dépendances et à devenir autonomes. Mais l’autonomie est rarement considérée comme le seul objectif de l’être humain. Au contraire, nous sommes généralement plus productifs lorsque nous travaillons en coopération dans le cadre d’une société plus large. De même, certains types d’autonomie dans les systèmes d’IA sont utiles précisément parce qu’ils permettent au système de contribuer efficacement à des efforts de coopération plus larges. La plus grande partie de la valeur des véhicules à conduite autonome ne viendra pas de la conduite sur des routes vides, mais de la coordination harmonieuse des véhicules avec le flux de piétons, de cyclistes et de voitures conduites par des humains. Ainsi, l’intelligence coopérative n’est pas une alternative à l’intelligence autonome, mais va au-delà.
La recherche sur l’IA multi-agents a connu ses plus grands succès dans des contextes à somme nulle pour deux joueurs, qu’il s’agisse des performances surhumaines de Deep Blue, l’ordinateur d’IBM qui joue aux échecs, ou de la démonstration puissante de l’apprentissage par renforcement profond par le programme AlphaGo. Cependant, peu d’interactions dans le monde réel sont caractérisées par un conflit pur – lorsqu’il n’y a aucune possibilité de marchandage, de négociation ou de menace. Il est donc peu probable que l’amélioration des compétences dans des jeux intrinsèquement rivaux soit le moyen le plus prometteur pour l’IA de produire une valeur sociale. Les relations dans le monde réel impliquent presque toujours un mélange d’intérêts communs et conflictuels. Cette tension donne lieu à la riche texture des problèmes de coopération humaine, notamment le marchandage, la confiance et la méfiance, la tromperie et la communication crédible, les problèmes d’engagement et les assurances, la politique et les coalitions, ainsi que les normes et les institutions. Les agents d’IA devront apprendre à gérer ces problèmes de coopération plus difficiles, comme le font les humains.
Le jeu de société Diplomacy, dans lequel les joueurs négocient des alliances non contraignantes avec d’autres joueurs, en est un exemple. Pour réussir, les agents d’IA devront se comprendre suffisamment bien pour reconnaître quand leurs intérêts sont alignés avec ceux des autres joueurs. Ils devront développer un vocabulaire commun pour communiquer leurs intentions. Ils auront intérêt à pouvoir communiquer de manière crédible, malgré les incitations possibles à mentir. Ils doivent surmonter leurs craintes mutuelles de trahison, afin de se mettre d’accord sur des plans bénéfiques communs et de les exécuter. Ils peuvent même apprendre à établir des normes relatives au respect des accords. Pour permettre de progresser dans ces compétences coopératives, les chercheurs ont conçu des variantes de la diplomatie qui modifient la difficulté de ces défis, par exemple en introduisant un vocabulaire simple convenu ou en autorisant des engagements contraignants.