Incidentes Asociados

Foto: Universidad de Washington.
El software de inteligencia artificial podría generar videos falsos altamente realistas del expresidente Barack Obama utilizando clips de audio y video existentes de él, según encuentra un nuevo estudio [PDF].
Dicho trabajo podría algún día ayudar a generar modelos digitales de una persona para aplicaciones de realidad virtual o realidad aumentada, dicen los investigadores.
Científicos informáticos de la Universidad de Washington revelaron previamente que podían generar doppelgängers digitales de cualquier persona mediante el análisis de imágenes recopiladas de Internet, desde celebridades como Tom Hanks y Arnold Schwarzenegger hasta figuras públicas como George W. Bush y Barack Obama. Tal trabajo sugirió que algún día podría ser relativamente fácil crear tales modelos de cualquier persona, cuando hay un número incalculable de fotos digitales de todos en Internet.
Los investigadores eligieron a Obama para su último trabajo porque había horas de video de alta definición de él disponibles en línea y de dominio público. El equipo de investigación hizo que una red neuronal analizara millones de fotogramas de video para determinar cómo se movían los elementos del rostro de Obama mientras hablaba, como los labios, los dientes y las arrugas alrededor de la boca y la barbilla.
En una red neuronal artificial, los componentes conocidos como neuronas artificiales reciben datos y trabajan juntos para resolver un problema, como identificar rostros o reconocer el habla. Luego, la red neuronal puede alterar el patrón de conexiones entre esas neuronas para cambiar la forma en que interactúan, y la red intenta resolver el problema nuevamente. Con el tiempo, la red neuronal aprende qué patrones son mejores en las soluciones informáticas, una estrategia de IA que imita el cerebro humano.
En el nuevo estudio, la red neuronal aprendió qué formas de boca estaban vinculadas a varios sonidos. Los investigadores tomaron clips de audio y los doblaron sobre los archivos de sonido originales de un video. Luego tomaron formas de boca que coincidían con los nuevos clips de audio y las injertaron y combinaron en el video. Esencialmente, los investigadores sintetizaron videos donde Obama sincronizaba los labios con palabras que había dicho hasta décadas antes.
Los investigadores señalan que investigaciones anteriores similares involucraron filmar a personas que decían oraciones una y otra vez para mapear qué formas de boca estaban vinculadas a varios sonidos, lo cual es costoso, tedioso y requiere mucho tiempo. En contraste, este nuevo trabajo puede aprender de millones de horas de video que ya existen en Internet o en otros lugares.
Una aplicación potencial para esta nueva tecnología es mejorar las videoconferencias, dice el coautor del estudio Ira Kemelmacher-Shlizerman de la Universidad de Washington. Aunque las transmisiones de video de las teleconferencias pueden tartamudear, congelarse o sufrir de baja resolución, las transmisiones de audio a menudo funcionan, por lo que en el futuro, las videoconferencias pueden simplemente transmitir el audio de las personas y usar este software para reconstruir cómo se verían mientras hablaban. Este trabajo también podría ayudar a las personas a hablar con copias digitales de una persona en aplicaciones de realidad virtual o realidad aumentada, dice Kemelmacher-Shlizerman.
Los investigadores señalan que sus videos actualmente no siempre son perfectos. Por ejemplo, cuando Obama apartó la cara de la cámara en un video objetivo, el modelado 3D imperfecto de su rostro podría hacer que partes de su boca se superpusieran fuera de la cara y sobre el fondo.
Además, el equipo de investigación señala que su trabajo no modeló emociones, por lo que las expresiones faciales de Obama en los videos finales podrían parecer demasiado serias para discursos casuales o demasiado felices para discursos serios. Sin embargo, sugieren que sería interesante ver si su red neuronal podría aprender a predecir estados emocionales a partir del audio para producir las imágenes correspondientes.
Los investigadores tuvieron cuidado de no generar videos en los que pusieran en boca de Obama palabras que él mismo no pronunció en otro momento. Sin embargo, estos videos falsos "probablemente sean posibles pronto", dice el autor principal del estudio, Supasorn Suwajanakorn, científico informático de la Universidad de Washington.
Sin embargo, esta nueva investigación también sugiere formas de detectar videos falsos en el futuro. Por ejemplo, la manipulación de video que practicaron los investigadores puede desenfocar bocas y dientes. “Es posible que los ojos humanos no lo noten, pero se puede desarrollar fácilmente un programa que compare la borrosidad de la región de la boca con el resto del video y funcionará de manera bastante confiable”, dice Suwajanakorn.
Los investigadores especularon que el vínculo entre las formas de la boca y las expresiones puede ser hasta cierto punto universal para las personas. Esto sugiere que una red neuronal entrenada en Obama y otras figuras públicas podría adaptarse para que funcione para muchas personas diferentes.
La investigación fue financiada por Samsung, Google, Facebook Intel y la Universidad de Washington. Los científicos detallarán sus hallazgos [PDF] el 2 de agosto en la conferencia SIGGRAPH en Los Ángeles.