Report 2694

Actualización, miércoles 1 de febrero, 5:40 a. m. ET: ElevenLabs, la empresa emergente que proporciona la tecnología de clonación de voz, ha anunciado medidas de seguridad adicionales que introducirá en la plataforma en un [hilo de Twitter](https://twitter. com/elevenlabsio/status/1620443097057607681). Estos incluirán evitar que los usuarios gratuitos creen voces personalizadas, lanzar una herramienta para detectar audio generado por IA y prohibir cuentas reportadas por crear "contenido dañino".

Una startup de IA que permite a cualquier persona clonar la voz de un objetivo en cuestión de segundos está siendo adoptada rápidamente por los trolls de Internet. Los usuarios de 4chan han acudido en masa a la plataforma gratuita de síntesis de voz ElevenLabs, utilizando la tecnología de la compañía para clonar las voces de las celebridades y leer audio que va desde memes y erótica hasta discursos de odio e información errónea.

Estos deepfakes de voz de IA han mejorado rápidamente en los últimos años, pero el software de ElevenLabs, que parece han abierto el acceso general durante el fin de semana, ofrece una potente combinación de velocidad, calidad y disponibilidad, así como una completa falta de protección.

El abuso del software de ElevenLabs fue informado por primera vez por Motherboard, que encontró carteles en 4chan que compartían clips de voz generados por IA que suenan como personas famosas, como Emma Watson y Joe Rogan. Como informa Joseph Cox de Motherboard:

En un ejemplo, una voz generada que suena como la actriz Emma Watson lee una sección de Mein Kampf. En otro, una voz muy similar a la de Ben Sharpio hace comentarios racistas sobre Alexandria Ocasio-Cortez. En un tercero, alguien que dice “los derechos trans son derechos humanos” es estrangulado.

En las propias pruebas de The Verge, pudimos usar la plataforma ElevenLabs para clonar las voces de los objetivos en cuestión de segundos y generar muestras de audio que contenían desde amenazas de violencia hasta expresiones de racismo y transfobia. En una prueba, creamos un clon de voz del presidente Joe Biden y pudimos generar un audio que sonaba como si el presidente anunciara una invasión a Rusia y otro admitiendo que la teoría de la conspiración del “pizzagate” es real; ilustrando cómo la tecnología podría usarse para difundir información errónea. Puede escuchar una breve muestra de SFW de nuestra voz falsa de Biden a continuación:

ElevenLabs comercializa su software como una forma de generar rápidamente doblajes de audio para medios que incluyen cine, televisión y YouTube. Es una de varias nuevas empresas en este espacio, pero afirma que la calidad de sus voces requiere poca edición, lo que permite aplicaciones como doblajes en tiempo real a idiomas extranjeros y la generación instantánea de audiolibros, como en la muestra a continuación:

Las publicaciones en 4chan vistas por The Verge incluyen guías sobre cómo usar la tecnología de ElevenLabs; cómo encontrar el audio de muestra necesario para entrenar un modelo; y cómo eludir los límites de "crédito" de la empresa para generar muestras de audio. Típico de 4chan, el contenido creado por sus usuarios varía ampliamente en tono e intención, abarcando desde memes y copypasta, hasta virulentos discursos de odio y ficción erótica. Los clones de voz de personajes de videojuegos y anime, así como los clones de YouTubers y Vtubers, son particularmente populares, en parte porque es fácil encontrar audio de muestra de estas voces para entrenar el software.

En un hilo de Twitter publicado el lunes, Eleven Labs reconoció este abuso y señaló que había visto "un número creciente de casos de uso indebido de la clonación de voz" y estaría explorando formas para mitigar estos problemas. La compañía afirma que puede "rastrear cualquier audio generado hasta el usuario" y explorará medidas de seguridad como verificar la identidad de los usuarios y verificar manualmente cada solicitud de clonación de voz. Sin embargo, en el momento de la publicación, el software de la empresa es de libre acceso sin límites en el contenido generado. The Verge se ha puesto en contacto con la empresa para hacer comentarios y actualizará esta historia si recibimos una respuesta.

Para predecir cómo los clones de voz de IA podrían usarse y abusarse en el futuro, podemos observar la historia reciente de las falsificaciones profundas de video. Esta tecnología comenzó a difundirse en línea como una forma de generar pornografía no consentida y, aunque a muchos expertos les preocupaba que se usara para desinformar, esto resultó ser en gran medida incorrecto (hasta ahora). En cambio, la gran mayoría de videos falsos profundos compartidos en línea son pornográficos, y el software se ha utilizado para [hostigar e intimidar] (https://www.technologyreview.com/2021/02/12/1018222/deepfake-revenge-porn- come-ban/) no solo celebridades sino también particulares. Al mismo tiempo, los deepfakes están siendo [adoptados lentamente por entidades comerciales] (https://www.theverge.com/2023/1/31/23579279/now-were-stuck-on-this-estúpido-torre- en medio de la maldita ninguna parte) y se usa junto con las técnicas tradicionales de VFX en cine y televisión.

Problema 2694

Los usuarios de 4chan adoptan la herramienta de clonación de voz de IA para generar discursos de odio de celebridades