Report 2694

Mise à jour, mercredi 1er février, 5h40 HE : ElevenLabs, la startup fournissant la technologie de clonage de la voix, a annoncé des garanties supplémentaires qu'elle introduira sur la plate-forme dans un [fil Twitter](https://twitter. com/elevenlabsio/status/1620443097057607681). Il s'agira notamment d'empêcher les utilisateurs gratuits de créer des voix personnalisées, de lancer un outil pour détecter l'audio généré par l'IA et d'interdire les comptes signalés pour avoir créé du "contenu préjudiciable".

Une startup IA qui permet à quiconque de cloner la voix d'une cible en quelques secondes est rapidement adoptée par les trolls Internet. Les utilisateurs de 4chan ont afflué vers la plate-forme de synthèse vocale gratuite ElevenLabs, utilisant la technologie de l'entreprise pour cloner les voix de célébrités et lire des sons allant des mèmes et de l'érotisme aux discours de haine et à la désinformation.

Ces deepfakes vocaux AI se sont [améliorés rapidement au cours des dernières années] (https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast), mais le logiciel d'ElevenLabs, qui semble ont ouvert l'accès général au cours du week-end, offre une puissante combinaison de vitesse, de qualité et de disponibilité, ainsi qu'un manque total de garanties.

L'abus du logiciel d'ElevenLabs a été le premier rapporté par Motherboard, qui a trouvé des affiches sur 4chan partageant des clips vocaux générés par l'IA qui ressemblent à des personnages célèbres, notamment Emma Watson et Joe Rogan. Comme le rapporte Joseph Cox de Motherboard :

Dans un exemple, une voix générée qui ressemble à l'acteur Emma Watson lit une section de Mein Kampf. Dans un autre, une voix très similaire à celle de Ben Sharpio tient des propos racistes à propos d'Alexandria Ocasio-Cortez. Dans un troisième, quelqu'un qui dit que "les droits des trans sont des droits humains" est étranglé.

Dans les propres tests de The Verge, nous avons pu utiliser la plate-forme ElevenLabs pour cloner les voix des cibles en quelques secondes et générer des échantillons audio contenant tout, des menaces de violence aux expressions de racisme et de transphobie. Dans un test, nous avons créé un clone vocal du président Joe Biden et avons pu générer un son qui ressemblait au président annonçant une invasion de la Russie et à un autre admettant que la théorie du complot « pizzagate » est réelle ; illustrant comment la technologie pourrait être utilisée pour diffuser des informations erronées. Vous pouvez écouter un bref échantillon SFW de notre deepfake de voix Biden ci-dessous :

ElevenLabs commercialise son logiciel comme un moyen de générer rapidement des doublages audio pour les médias, y compris le cinéma, la télévision et YouTube. C'est l'une des nombreuses startups de cet espace, mais affirme que la qualité de ses voix nécessite peu d'édition, permettant des applications telles que des doublages en temps réel dans des langues étrangères et la génération instantanée de livres audio, comme dans l'exemple ci-dessous :

Les messages sur 4chan vus par The Verge incluent des guides sur la façon d'utiliser la technologie d'ElevenLabs ; comment trouver l'échantillon audio nécessaire pour former un modèle ; et comment contourner les limites de "crédit" de l'entreprise sur la génération d'échantillons audio. Typique de 4chan, le contenu créé par ses utilisateurs varie considérablement en termes de ton et d'intention, allant des mèmes et des copypasta aux discours de haine virulents et à la fiction érotique. Les clones de voix de personnages de jeux vidéo et d'anime, ainsi que les clones de YouTubers et de Vtubers, sont particulièrement populaires, en partie parce qu'il est facile de trouver des échantillons audio de ces voix pour former le logiciel.

Dans un fil Twitter publié lundi, Eleven Labs a reconnu cet abus, notant qu'il avait vu "un nombre croissant de cas d'abus de clonage de voix" et qu'il explorerait des moyens pour atténuer ces problèmes. La société affirme qu'elle peut "retracer tout son généré jusqu'à l'utilisateur" et explorera des garanties telles que la vérification de l'identité des utilisateurs et la vérification manuelle de chaque demande de clonage de voix. Au moment de la publication, cependant, le logiciel de la société est librement accessible sans aucune limite sur le contenu généré. The Verge a contacté l'entreprise pour un commentaire et mettra à jour cette histoire si nous recevons une réponse.

Pour prédire comment les clones de voix IA pourraient être utilisés et mal utilisés à l'avenir, nous pouvons nous tourner vers l'histoire récente des deepfakes vidéo. Cette technologie a commencé à se répandre en ligne comme moyen de générer de la pornographie non consensuelle, et bien que de nombreux experts craignaient qu'elle ne soit utilisée à des fins de désinformation, cela s'est avéré largement incorrect (jusqu'à présent). Au lieu de cela, la grande majorité des deepfakes vidéo partagés en ligne sont pornographiques, et le logiciel a été utilisé pour [harceler et intimider](https://www.technologyreview.com/2021/02/12/1018222/deepfake-revenge-porn- coming-ban/) non seulement des célébrités mais aussi des particuliers. Dans le même temps, les deepfakes sont [lentement adoptés par les entités commerciales](https://www.theverge.com/2023/1/31/23579279/now-were-stuck-on-this-stupid-freaking-tower- in-the-middle-of-freaking-nowhere) et utilisé parallèlement aux techniques VFX traditionnelles dans le cinéma et la télévision.

Problème 2694

Les utilisateurs de 4chan adoptent l'outil de clonage de voix AI pour générer des discours de haine de célébrités