Lyrebird recrée n'importe quelle voix via 60 secondes d'échantillon - Paris Singularity : deeptech, startups et prospective

audio waves photo — Photo by Internet Archive Book Images

L’intelligence artificielle (IA) sait maintenant rendre la voix humaine aussi malléable et reproductible que des pixels. Une startup canadienne, Lyrebird, a dévoilé son premier produit : un ensemble d’algorithmes capables de cloner la voix de n’importe qui en écoutant un échantillon audio de seulement 60 secondes.

Il y a quelques années, cela aurait été impossible, mais les performances analytiques des algorithmes d’apprentissage machine se révèlent maintenant parfaites pour les idiosyncrasies du discours humain. À l’aide de l’intelligence artificielle, des entreprises comme Google ont pu créer des voix de synthèse très réalistes, tandis que Adobe a dévoilé son propre prototype de logiciel appelé Project VoCo qui peut éditer le discours humain de la même manière que Photoshop modifie les images numériques.

Là où la solution développée par Project VoCo a besoin d’au moins 20 minutes d’échantillonnage audio pour imiter une voix, Lyrebird, n’a besoin que de 60 secondes. Certes le résultat obtenu n’est pas encore identique au discours humain, mais la vitesse à laquelle ces solutions s’en approchent impressionnent. Ci-dessous, vous pouvez entendre les voix synthétisées de Donald Trump, Barack Obama et Hillary Clinton.