Incidentes Asociados

Los investigadores utilizaron 14 horas de videos de discursos semanales de Obama para entrenar una red neuronal. Una vez entrenado, su sistema pudo tomar un clip de audio del ex presidente, crear formas de boca que se sincronizaron con el audio y luego sintetizar una boca de aspecto realista que coincidía con la de Obama. Luego, la boca sincronizada con el audio se superpuso y se mezcló con un video de Obama que era diferente de la fuente de audio. Para que se viera más natural, el sistema corrigió la colocación y el movimiento de la cabeza, el tiempo y detalles como el aspecto de la mandíbula. Todo el proceso está automatizado, excepto por un paso manual que requiere que una persona seleccione dos fotogramas en el video donde los dientes superiores e inferiores del sujeto están orientados hacia adelante y muy visibles. Esas imágenes son luego utilizadas por el sistema para hacer que los dientes del video resultante se vean más realistas.
El programa aún no es perfecto, pero en el siguiente video puede ver cuánto mejora después de tres minutos, una hora, siete horas y 14 horas de datos de entrenamiento. Algunas limitaciones que el equipo ha señalado incluyen errores ocasionales en la boca y la alineación facial (a veces le dio a Obama dos mentones), la incapacidad de igualar las emociones y los problemas que surgen con los sonidos que requieren una ubicación particular de la lengua, como "th", que actualmente no está cubierto por su programa.
Pero, en general, este programa artificial de sincronización de labios crea una imagen mucho más realista que otros. El trabajo se publicará en ACM Transactions on Graphics y puede ver el proceso de los investigadores en el siguiente video.