Report 2517

L'émergence au cours de la semaine dernière d'un modèle d'apprentissage automatique par synthèse vocale particulièrement efficace appelé VALL-E a suscité une nouvelle vague d'inquiétudes quant à la possibilité de voix profondes rendues rapides et faciles - des quickfakes, si vous voulez. Mais VALL-E est plus itératif que révolutionnaire, et les capacités ne sont pas si nouvelles que vous pourriez le penser. Que cela signifie que vous devriez être plus ou moins inquiet dépend de vous.

La réplication vocale fait l'objet de recherches intenses depuis des années, et les résultats ont été suffisamment bons pour alimenter de nombreuses startups, comme [WellSaid](https://techcrunch.com/2020/09/22/wellsaid-labs-research- prend-un-discours-synthétique-de-secondes-longs-clips-à-heures/), [Papercup](https://techcrunch.com/2022/06/09/papercup-raises-20m-for-ai-that- automatic-dubs-videos/) et Respeecher. Ce dernier est même utilisé pour créer des reproductions de voix autorisées d'acteurs [comme James Earl Jones](https://techcrunch.com/2022/09/26/ai-is-taking-over-the-iconic-voice-of- dark-vader-avec-la-bénédiction-de-james-earl-jones/). Oui : à partir de maintenant, Dark Vador sera généré par l'IA.

VALL-E, publié sur GitHub par ses créateurs chez Microsoft la semaine dernière, est un "modèle de langage de codec neuronal" qui utilise une approche différente pour rendre les voix que beaucoup auparavant il. Son corpus de formation plus important et certaines nouvelles méthodes lui permettent de créer un "discours personnalisé de haute qualité" en utilisant seulement trois secondes d'audio d'un locuteur cible.

C'est-à-dire que tout ce dont vous avez besoin est un clip extrêmement court comme celui-ci (tous les clips du papier de Microsoft):

https://techcrunch.com/wp-content/uploads/2023/01/in1.wav

https://techcrunch.com/wp-content/uploads/2023/01/in2.wav

Pour produire une voix synthétique qui sonne remarquablement similaire :

https://techcrunch.com/wp-content/uploads/2023/01/outcome1.wav

https://techcrunch.com/wp-content/uploads/2023/01/outcome2.wav

Comme vous pouvez l'entendre, il conserve le ton, le timbre, un semblant d'accent et même «l'environnement acoustique» (par exemple, une voix compressée dans un appel téléphonique). Je n'ai pas pris la peine de les étiqueter parce que vous pouvez facilement dire lequel des éléments ci-dessus est lequel. C'est assez impressionnant !

Si impressionnant, en fait, que ce modèle particulier semble avoir percé la peau de la communauté des chercheurs et « se généraliser ». Alors que je prenais un verre dans mon local hier soir, le barman a décrit avec insistance la nouvelle menace de l'IA de la synthèse vocale. C'est comme ça que je sais que j'ai mal évalué l'air du temps.

Mais si vous regardez un peu en arrière, dès 2017 [tout ce dont vous aviez besoin était une minute de voix](https://techcrunch.com/2017/04/25/lyrebird-is-a-voice-mimic-for- the-fake-news-era/) pour produire une fausse version suffisamment convaincante pour qu'elle passe en usage occasionnel. Et c'était loin d'être le seul projet.

L'amélioration que nous avons constatée dans les modèles de génération d'images tels que DALL-E 2 et Stable Diffusion, ou dans les modèles linguistiques tels que ChatGPT, a été transformatrice et qualitative : il y a un an ou deux, ce niveau de contenu détaillé et convaincant généré par l'IA était impossible. L'inquiétude (et la panique) autour de ces modèles est compréhensible et justifiée.

Au contraire, l'amélioration offerte par VALL-E est quantitative et non qualitative. Les mauvais acteurs intéressés par la prolifération de faux contenus vocaux auraient pu le faire il y a longtemps, juste à un coût de calcul plus élevé, ce qui n'est pas particulièrement difficile à trouver de nos jours. Les acteurs parrainés par l'État, en particulier, auraient beaucoup de ressources à portée de main pour effectuer le type de travaux de calcul nécessaires pour, par exemple, créer un faux clip audio du président disant quelque chose de préjudiciable sur un micro chaud.

J'ai discuté avec James Betker, un ingénieur qui a travaillé pendant un certain temps sur un autre système de synthèse vocale, appelé Tortoise-TTS.

Betker a déclaré que VALL-E est en effet itératif et, comme d'autres modèles populaires de nos jours, tire sa force de sa taille.

« C'est un grand modèle, comme ChatGPT ou Stable Diffusion ; il a une certaine compréhension inhérente de la façon dont la parole est formée par les humains. Vous pouvez ensuite affiner Tortoise et d'autres modèles sur des haut-parleurs spécifiques, et cela les rend vraiment, vraiment bons. Pas "un peu comme" ; bon”, a-t-il expliqué.

Lorsque vous "ajustez" la diffusion stable sur le travail d'un artiste particulier, vous ne recyclez pas l'ensemble du modèle énorme (cela prend beaucoup plus de puissance), mais vous pouvez toujours améliorer considérablement sa capacité à reproduire ce contenu.

Mais ce n'est pas parce que c'est familier qu'il faut le rejeter, a précisé Betker.

«Je suis content que ça fasse du bruit parce que je veux vraiment que les gens en parlent. En fait, je pense que la parole est quelque peu sacrée, la façon dont notre culture y pense », et il a en fait cessé de travailler sur son propre modèle en raison de ces préoccupations. Un faux Dali créé par DALL-E 2 n'a pas le même effet viscéral pour les gens que d'entendre quelque chose dans leur propre voix, celle d'un être cher ou d'une personne admirée.

VALL-E nous rapproche un peu plus de l'ubiquité, et bien que ce ne soit pas le type de modèle que vous utilisez sur votre téléphone ou votre ordinateur personnel, ce n'est pas trop loin, a spéculé Betker. Quelques années, peut-être, pour diriger vous-même quelque chose comme ça; à titre d'exemple, il a envoyé ce clip qu'il avait généré sur son propre PC en utilisant Tortoise-TTS de Samuel L. Jackson, basé sur ses lectures de livres audio :

https://techcrunch.com/wp-content/uploads/2023/01/samuel_jackson.mp3

Bon, non ? Et il y a quelques années, vous auriez peut-être pu accomplir quelque chose de similaire, mais avec plus d'efforts.

C'est juste pour dire que bien que VALL-E et le quickfake de trois secondes soient vraiment remarquables, ils ne sont qu'un pas sur une longue route que les chercheurs parcourent depuis plus d'une décennie.

La menace existe depuis des années et si quelqu'un voulait reproduire votre voix, il aurait pu facilement le faire il y a si longtemps. Cela ne le rend pas moins dérangeant à penser, et il n'y a rien de mal à être effrayé par cela. Je suis trop!

Mais les avantages pour les acteurs malveillants sont douteux. Les petites escroqueries qui utilisent un quickfake passable basé sur un mauvais numéro d'appel, par exemple, sont déjà très faciles car les pratiques de sécurité de nombreuses entreprises sont déjà laxistes. L'usurpation d'identité n'a pas besoin de s'appuyer sur la réplication vocale, car il existe de nombreuses voies plus faciles vers l'argent et l'accès.

Pendant ce temps, les avantages sont potentiellement énormes - pensez aux personnes qui perdent la capacité de parler en raison d'une maladie ou d'un accident. Ces choses se produisent assez rapidement pour qu'ils n'aient pas le temps d'enregistrer une heure de discours pour former un modèle (pas que cette capacité soit largement disponible, bien qu'elle aurait pu l'être il y a des années). Mais avec quelque chose comme VALL-E, tout ce dont vous auriez besoin est de quelques clips du téléphone de quelqu'un qui porte un toast au dîner ou qui parle avec un ami.

Il y a toujours des possibilités d'escroqueries et d'usurpation d'identité et tout ça - bien que plus de gens se séparent de leur argent et de leur identité par des moyens beaucoup plus prosaïques, comme un simple téléphone ou une escroquerie par hameçonnage. Le potentiel de cette technologie est énorme, mais nous devrions également écouter notre instinct collectif, en disant qu'il y a quelque chose de dangereux ici. Ne paniquez pas - pour le moment.

Problème 2517

Les deepfakes de voix rapides de VALL-E devraient vous inquiéter, si vous ne l'étiez pas déjà