Incidentes Asociados

Los investigadores han desarrollado una nueva herramienta, impulsada por inteligencia artificial, que puede crear videos de discursos de aspecto realista a partir de cualquier clip de audio, y han demostrado la tecnología sintetizando cuatro videos artificiales de Barack Obama diciendo las mismas líneas.
Sin embargo, la herramienta no tiene la intención de crear una ráfaga de noticias falsas y poner palabras falsas en la boca de las personas; está diseñada en parte como una forma de detectar falsificaciones y videos que no son todo lo que parecen ser.
Según el equipo de la Universidad de Washington, siempre que haya una fuente de audio para usar, el video puede incluir formas de boca realistas que están casi perfectamente alineadas con las palabras que se pronuncian. Esas formas sintetizadas luego se pueden injertar en un video existente de alguien hablando.
"Este tipo de resultados nunca antes se habían mostrado", dice uno de los investigadores, Ira Kemelmacher-Shlizerman. "La conversión de audio a video realista tiene aplicaciones prácticas, como mejorar las videoconferencias para reuniones, así como otras futuristas, como poder mantener una conversación con una figura histórica en realidad virtual".
"Este es el tipo de avance que ayudará a habilitar esos próximos pasos".
Las etapas de síntesis de vídeo. Crédito: Universidad de Washington
Hay dos partes en el sistema: primero, se entrena una red neuronal para ver grandes volúmenes de videos para reconocer qué sonidos de audio coinciden con qué formas de boca. Luego, los resultados se mezclan con imágenes en movimiento de una persona específica, con base en investigaciones previas sobre modelado digital realizadas en la UW.
La herramienta es impresionantemente buena, como puede ver en los clips de demostración (a continuación), pero necesita archivos de audio y video de origen para trabajar, y no puede generar discursos de la nada. En el futuro, dicen los investigadores, el sistema de inteligencia artificial podría entrenarse utilizando videos de aplicaciones de mensajería y luego usarse para mejorar su calidad.
"Cuando ve Skype o Google Hangouts, a menudo la conexión es entrecortada y de baja resolución y realmente desagradable, pero a menudo el audio es bastante bueno", dice uno de los miembros del equipo, Steve Seitz. "Entonces, si pudieras usar el audio para producir un video de mucha mayor calidad, sería fantástico".
Cuando se trata de detectar videos falsos, el algoritmo utilizado aquí podría revertirse para detectar clips que han sido manipulados, según los investigadores.
Puede ver la herramienta en acción a continuación:
Como sabrá por los videojuegos y las películas animadas, los científicos están trabajando arduamente para resolver el problema del "valle inquietante", donde el video generado por computadora de alguien hablando parece casi correcto pero aún así desagradable.
En este caso, el sistema de IA hace todo el trabajo pesado cuando se trata de determinar la forma de la boca, la posición del mentón y los demás elementos necesarios para hacer que un clip de alguien hablando parezca realista.
La inteligencia artificial sobresale en problemas de aprendizaje automático como este, donde se pueden analizar grandes cantidades de datos para enseñar a los sistemas informáticos a hacer algo, ya sea reconocer perros en una búsqueda de imágenes o producir videos de apariencia natural.
"Ya existen millones de horas de video de entrevistas, chats de video, películas, programas de televisión y otras fuentes", dice el investigador principal Supasorn Suwajanakorn. "Y estos algoritmos de aprendizaje profundo consumen muchos datos, por lo que es una buena combinación hacerlo de esta manera".
Es otro paso ligeramente aterrador en la calidad de la falsificación digital, similar al Proyecto VoCo de Adobe, que vimos el año pasado: otro sistema de inteligencia artificial que puede producir un nuevo discurso de la nada después de estudiar solo 20 minutos de alguien hablando.
Sin embargo, esta red neuronal en particular ha sido diseñada para funcionar con una sola persona a la vez utilizando clips de audio auténticos, por lo que aún puede confiar en las imágenes que ve en las noticias por un tiempo.
"Decidimos muy conscientemente no seguir el camino de poner las palabras de otras personas en la boca de alguien", dice Seitz. "Simplemente tomamos palabras reales que alguien dijo y las convertimos en videos realistas de esa persona".
La investigación se presenta en la conferencia de gráficos por computadora SIGGRAPH 2017 y puede leer el artículo aquí.