Incidentes Asociados

Parece que hoy en día, no pasa un día sin que alguien proclame "noticias falsas", esa frase ahora infame que saltó a la fama durante las últimas elecciones estadounidenses y ahora se está difundiendo hasta la saciedad.
Pero como sabe cualquier persona inteligente, es cierto que no siempre puedes creer lo que lees o ves en (o fuera) de Internet. Las imágenes falsas retocadas con Photoshop abundan en Internet, gracias a la tecnología de edición de fotos que permite a las personas crear situaciones escenificadas que parecen reales, pero que en realidad nunca sucedieron.
Ahora, con la ayuda de la inteligencia artificial, también podríamos enfrentarnos a la perspectiva de una explosión de videos de noticias falsas. Al menos eso es lo que podríamos suponer a partir de estos nuevos hallazgos de investigadores de la Universidad de Washington, quienes crearon este video bastante convincente pero falso del expresidente estadounidense Barack Obama, utilizando una red neuronal artificial entrenada en muchas horas de imágenes de video del expresidente. superpuesto con un clip de audio real de él hablando el año pasado sobre los tiroteos masivos en Orlando. Mire y vea si puede determinar qué es real y qué no, y cómo se hizo:
Según el artículo de los investigadores, utilizaron lo que se llama una red neuronal recurrente (RNN), un tipo de red neuronal artificial que organiza los nodos de neuronas artificiales para que funcionen de una manera que se asemeje al cerebro humano. Estas redes reciben cantidades masivas de datos para "aprender" cómo realizar una tarea o resolver un problema.
Hemos visto redes neuronales recurrentes aplicadas a cosas como el reconocimiento de voz, la síntesis de texto a voz, cualquier cosa que requiera algún tipo de memoria interna para procesar secuencias variables de entradas.
En este caso, los investigadores tomaron el audio de Obama hablando en un video separado y lo doblaron sobre otro video de él en un lugar completamente diferente. Usando alrededor de 14 horas de imágenes de dominio público y obtenidas de los anuncios semanales de Obama, la red neuronal recurrente pudo "aprender" cómo recrear una combinación de movimientos faciales y de la boca que correspondían a varios sonidos.
Para hacer esto, la red neuronal sintetizó una "forma de boca escasa", sobre la cual se podían aplicar texturas de boca y mezclarlas en un video objetivo alterado, dando a la cabeza parlante una apariencia de movimiento natural. El resultado es una sincronización de labios inquietantemente plausible.
Sin embargo, sorprendentemente, esta no es la primera vez que los investigadores intentan hacer este tipo de cosas. Como se menciona en el video anterior, ha habido otras versiones del mismo concepto, pero esta vez, el equipo de la Universidad de Washington agregó un retraso de tiempo al proceso para que los resultados parezcan mucho más realistas.
Además, la red neuronal se centró en sintetizar las partes de la cara más asociadas con la producción del habla, es decir, la boca y el área circundante, los labios y los dientes, prestando especial atención a las sutiles arrugas y sombras en la piel que serían hecho mientras habla. Incluso la línea de la mandíbula está deformada para coincidir con la barbilla en el video de destino.
“Dada la forma de la boca en cada instante, sintetizamos la textura de la boca de alta calidad y la compartimos con la coincidencia de pose 3D adecuada para cambiar lo que parece estar diciendo en un video de destino para que coincida con la pista de audio de entrada”, escribió el equipo. “Nuestro enfoque produce resultados fotorrealistas”.
Pero fabricar noticias falsas no es la intención principal aquí. El equipo de investigación prevé que la tecnología podría utilizarse para otras aplicaciones más prácticas.
“La conversión realista de audio a video tiene aplicaciones prácticas, como mejorar las videoconferencias para reuniones, así como otras futuristas, como poder mantener una conversación con una figura histórica en realidad virtual mediante la creación de imágenes solo a partir del audio”, dijo el coautor del estudio. autor Ira Kemelmacher-Shlizerman en ScienceDaily. “Este es el tipo de avance que ayudará a habilitar esos próximos pasos”.
E incluso si la tecnología se usa para manipular a las masas con fines políticos, esa misma tecnología se puede usar para determinar si un video es real o si es falso, mediante la detección de los movimientos combinados de los dientes y la boca.
"Es posible que los ojos humanos no lo noten, pero se puede desarrollar fácilmente un programa que compare la borrosidad de la región de la boca con el resto del video y funcionará de manera bastante confiable", dijo a IEEE Spectrum el coautor del artículo, Supasorn Suwajanakorn.
Frío consuelo, tal vez, pero al menos es una advertencia justa de lo que podríamos esperar para el futuro.
Imágenes: Universidad de Washington