L’apprentissage par renforcement (RL), la catégorie de l’apprentissage machine qui repose sur un système de pénalités et de récompenses, permet d’enseigner aux machines à s’adapter à de nouveaux environnements. AlphaGo de Deepmind a notamment utilisé cette technique pour vaincre le meilleur joueur de Go du monde sans avoir joué contre lui auparavant. Cette technique s’est également révélée prometteuse dans la conception de robots capables de fonctionner dans des conditions changeantes. Mais la technique a ses limites. Elle nécessite que la machine fasse des erreurs répétées pour affiner lentement ses actions au fil du temps. Cette technique est donc applicable dans un laboratoire ou en jouant à un jeu de société. Mais elle ne l’est pas, par exemple, pour entraîner des voitures autonomes.
Les chercheurs ont donc mis au point différentes façons de contourner ce besoin de formation dans le monde réel. Une voiture peut utiliser les données de trafic pour apprendre à conduire au sein d’une réplique numérique sûre du monde physique, par exemple, pour surmonter le stade de l’erreur sans mettre personne en danger. Mais ce n’est pas une solution parfaite. Une machine peut encore faire des erreurs coûteuses lorsqu’elle rencontre des situations qui dépassent le cadre de ses données de formation.
Le titre français ci-dessus est faux – Regardez le titre anglais !
Bonjour Monsieur,
Merci pour votre message. Sur la forme j’ai du mal avec le point d’exclamation qui ne me semble pas nécessaire.
Pour autant, sur le fond, je ne me contente pas d’une traduction bête et méchante.
Le cas échéant je pluggerais Google traduction et ne relirais rien avant publication.
Pour apporter plus de valeur, je traduis, synthétise et propose souvent un autre angle de réflexion. Je m’accorde donc la liberté, volontairement, de ne pas simplement traduire bêtement le titre.
Bien à vous
Cher monsieur,
Merci de votre blog, très utile. Unique.
Pour le lecteur qui découvre le sujet dont il s’agit, votre titre a un sens bien différent du titre anglais. Mon point d’exclamation ne signifie nullement une critique de votre travail, mais un désaccord sur le « changement d’angle » qu’il implique…
Bonsoir,
Merci pour votre message.
N’y voyez pas de l’orgueil mal placé, je suis ouvert à la critique. Vous avez tout à fait le droit de ne pas être d’accord sur le fond.
Salutations