
Une start-up britannique a été forcée d'introduire des garanties après la publication d'enregistrements audio deepfakes de l'actrice Emma Watson lisant Mein Kampf d'Adolf Hitler et du diffuseur Sir David Attenborough étant raciste.
Les utilisateurs ont pris la technologie de clonage de la voix pour créer les fichiers audio et les ont publiés sur le babillard 4Chan dans le dernier abus de la technologie AI.
La société de recherche ElevenLabs a publié son nouvel outil de synthèse audio qui permet aux utilisateurs de taper des mots et de les entendre immédiatement reproduits par une voix humaine. Fondée par deux anciens ingénieurs de Google et Palantir, elle a également développé une technologie de clonage et de doublage de voix à utiliser dans les industries du cinéma et de l'édition.
Cependant, certains utilisateurs semblent avoir pris l'outil de clonage de la voix, qui peut générer un deepfake à partir d'un enregistrement d'une minute seulement, pour créer des enregistrements de Watson, Attenborough et d'autres personnalités. Il y avait aussi de faux clips de Sir Alec Guinness et du président Biden faisant des commentaires sexistes et transphobes.
ElevenLabs dit qu'il introduira des garanties pour empêcher de nouveaux abus du produit. La société a tweeté : "Merci à tous d'avoir essayé notre plate-forme bêta. Alors que nous voyons notre technologie être massivement appliquée à une utilisation positive, nous constatons également un nombre croissant de cas d'utilisation abusive du clonage de la voix."
[IA de synthèse vocale] (https://www.thetimes.co.uk/article/let-the-ai-tell-you-a-story-in-the-next-chapter-for-audiobooks-8jq37gq7j ) et clonage de la voix font partie des technologies "IA génératives" qui attirent l'attention des investisseurs et du public. Le chatbot ChatGPT et les générateurs d'images Stable Diffusion, DALL-E et Midjourney promettent tous de révolutionner et de perturber les industries créatives et d'autres entreprises.
Mati Staniszewski et Piotr Dabkowski, les fondateurs d'ElevenLabs, ont récemment annoncé un financement de 2 millions de dollars (1,6 million de livres sterling). Cependant, les entreprises d'IA sont actuellement prises dans un "dilemme d'ouverture" de savoir s'il faut libérer les outils puissants, qui génèrent de l'intérêt mais aussi des risques.
Microsoft a récemment annoncé un programme d'intelligence artificielle appelé VALL-E qui peut cloner la voix de quelqu'un à partir d'un clip audio de trois secondes. Cependant, il n'a pas mis la technologie à la disposition du grand public, citant des problèmes éthiques, notamment une utilisation abusive avec "l'usurpation d'identité vocale ou l'usurpation d'identité d'un locuteur spécifique".
ElevenLabs a également reconnu que "parler avec la voix de quelqu'un d'autre soulève des préoccupations éthiques car cela peut être utilisé à des fins néfastes".
Henry Ajder, expert en deepfakes et en IA générative, a déclaré : "Ce qu'ils [ElevenLabs] ont développé, sur le plan technologique, est très impressionnant [mais] en ouvrant ces modèles, ils ont porté, malheureusement, un jugement assez naïf sur les intentions de ceux les gens là-bas qui vont utiliser ces modèles.
"Dans ce climat de cycle de battage autour de l'IA générative, de nombreuses entreprises se précipitent et s'efforcent de se démarquer d'une scène très bruyante. Je crains que le genre de ruée fébrile ne conduise peut-être certaines organisations à prendre des raccourcis en matière de considérations de sécurité, même si je ne dis pas que c'est nécessairement ce qui a motivé Eleven dans cette affaire", a déclaré Ajder.
L'audio Deepfake a déjà été utilisé pour raconter un film documentaire, agacer un commentateur controversé et frauder une banque. Les réalisateurs d'un film sur le chef Anthony Bourdain ont déclenché un débat en 2021 après avoir utilisé une simulation par IA de la voix du défunt chef pour lire certains de ses écrits. Ils l'appelaient la narration moderne mais d'autres ont dit que les téléspectateurs auraient dû être informés.
Le psychologue canadien Jordan Peterson a menacé de poursuivre un site Web en 2019 après qu'il ait permis utilisateurs pour générer des clips de lui disant tout ce qu'ils ont tapé, et l'année suivante, une banque aux Émirats arabes unis a été escroquée de 35 millions de dollars lorsque la fausse voix d'un directeur d'entreprise a été utilisée pour convaincre un directeur de succursale d'autoriser les transactions.