Les IA créées via l’apprentissage par renforcement sont vulnérables à 1 nouveau type d’attaque

Image par kalhh de Pixabay

Le robot footballer s’aligne pour tirer au but. Mais au lieu de se préparer à le bloquer, le gardien de but tombe au sol et agite les jambes. Confus, l’attaquant fait une étrange petite danse de côté, en tapant des pieds et en agitant un bras, puis il tombe. 1-0 pour le gardien de but.

Ce n’est pas une tactique que vous verrez utilisée par les pros, mais elle montre qu’une intelligence artificielle (IA) formée via l’apprentissage par renforcement est plus vulnérable à l’attaque qu’on ne le pensait auparavant. Et cela pourrait avoir de graves conséquences.

Au cours des dernières années, les chercheurs ont trouvé de nombreuses façons de briser les IA formées en utilisant des données étiquetées, ce qu’on appelle l’apprentissage supervisé. De petites modifications des données en entrée d’une IA, comme le changement de quelques pixels dans une image, peuvent la rendre complètement floue, lui permettant d’identifier une image d’un paresseux comme une voiture de course, par exemple. Ces attaques dites antagonistes n’ont pas de solution définitive.

Comparativement à l’apprentissage supervisé, l’apprentissage par renforcement est une technique relativement nouvelle et a été moins étudiée. Mais il s’avère qu’elle est également vulnérable aux données trafiquées. L’apprentissage par renforcement enseigne à une IA comment se comporter dans différentes situations en lui donnant des récompenses pour avoir fait ce qu’il fallait. L’IA finit par apprendre un plan d’action, connu sous le nom de politique. Les politiques permettent à l’IA de jouer à des jeux, de conduire des voitures ou de faire fonctionner des systèmes d’échange automatisés.

D’une certaine manière, les politiques d’opposition sont plus inquiétantes que les attaques contre les modèles d’apprentissage supervisés, car les politiques d’apprentissage par renforcement régissent le comportement global d’une IA. Gleave et ses collègues ont utilisé l’apprentissage par le renforcement pour entraîner des robots en figures de bâton à une poignée de jeux à deux joueurs, notamment le coup de pied dans un but, la course à travers une ligne et la lutte sumo. Les adversaires ont appris à gagner non pas en devenant de meilleurs joueurs, mais en accomplissant des actions qui brisaient la politique de leurs adversaires. La bonne nouvelle est que les politiques adverses sont plus faciles à défendre que d’autres attaques adverses. Lorsque Gleave a affiné les victimes pour tenir compte du comportement bizarre de leurs adversaires, ces derniers ont été contraints d’essayer des trucs plus familiers, comme faire trébucher leurs adversaires. C’est toujours un sale coup, mais qui n’exploite pas une faille dans le système.

La suite ici (Will Douglas Heaven)

(Visited 38 times, 1 visits today)
Avatar photo

Fondateur paris-singularity.fr👁️‍🗨️Entrepreneur social trackant les deep techs

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *