Incidentes Asociados
Recientemente, el expresidente y delincuente convicto Donald Trump publicó una serie de fotos que parecían mostrar a los fanáticos de la estrella del pop Taylor Swift apoyando su candidatura a la presidencia de los EE. UU. Las imágenes parecían generadas por IA, y WIRED pudo confirmar que probablemente lo eran al pasarlas por la herramienta de detección de la organización sin fines de lucro True Media para confirmar que mostraban "evidencia sustancial de manipulación".
Las cosas no siempre son tan fáciles. El uso de IA generativa, incluso con fines políticos, se ha vuelto cada vez más común, y WIRED ha estado rastreando su uso en elecciones en todo el mundo. Pero en gran parte del mundo fuera de los EE. UU. y partes de Europa, detectar contenido generado por IA es difícil debido a sesgos en el entrenamiento de los sistemas, lo que deja a los periodistas e investigadores con pocos recursos para abordar el diluvio de desinformación que se dirige hacia ellos.
La detección de medios generados o manipulados mediante IA sigue siendo un campo en auge, una respuesta a la explosión repentina de empresas de IA generativa. (Las empresas emergentes de IA atrajeron más de $21 mil millones en inversiones solo en 2023). "Hay muchas más herramientas y tecnologías de fácil acceso disponibles que realmente permiten a alguien crear medios sintéticos que las que están disponibles para detectarlos", dice Sabhanaz Rashid Diya, fundador del Tech Global Institute, un grupo de expertos centrado en la política tecnológica en el Sur Global.
Según Sam Gregory, director de programas de la organización sin fines de lucro Witness, que ayuda a las personas a usar la tecnología para apoyar los derechos humanos, la mayoría de las herramientas que se encuentran actualmente en el mercado solo pueden ofrecer un índice de confianza de entre el 85 y el 90 por ciento a la hora de determinar si algo se ha hecho con IA. Pero cuando se trata de contenido de algún lugar como Bangladesh o Senegal, donde los sujetos no son blancos o no hablan inglés, ese nivel de confianza se desploma. "A medida que se desarrollaron las herramientas, se les dio prioridad para mercados específicos", dice Gregory. En los datos utilizados para entrenar los modelos, "se dio prioridad al idioma inglés (inglés con acento estadounidense) o a los rostros predominantes en el mundo occidental".
Esto significa que los modelos de IA se entrenaron principalmente con datos de y para los mercados occidentales y, por lo tanto, no pueden reconocer nada que esté fuera de esos parámetros. En algunos casos, esto se debe a que las empresas estaban entrenando modelos utilizando los datos que estaban más fácilmente disponibles en Internet, donde el inglés es, por lejos, el idioma dominante. "La mayoría de nuestros datos, en realidad, de [África] están en copia impresa", dice Richard Ngamita, fundador de Thraets, una organización de tecnología cívica sin fines de lucro enfocada en amenazas digitales en África y otras partes del Sur Global. Esto significa que, a menos que esos datos se digitalicen, los modelos de IA no pueden entrenarse con ellos.
Sin las grandes cantidades de datos necesarias para entrenar modelos de IA lo suficientemente bien como para detectar con precisión el contenido generado o manipulado por IA, los modelos a menudo devolverán falsos positivos, marcando el contenido real como generado por IA, o falsos negativos, identificando el contenido generado por IA como real. "Si utilizas cualquiera de las herramientas disponibles en el mercado que sirven para detectar texto generado por IA, tienden a detectar el inglés escrito por hablantes no nativos de inglés y asumen que la escritura de hablantes no nativos de inglés es en realidad IA", dice Diya. "Hay muchos falsos positivos porque no fueron entrenados con ciertos datos".
Pero no es solo que los modelos no puedan reconocer acentos, idiomas, sintaxis o rostros menos comunes en los países occidentales. "Muchas de las herramientas iniciales de detección de deepfakes fueron entrenadas con medios de alta calidad", dice Gregory. Pero en gran parte del mundo, incluida África, las marcas de teléfonos inteligentes chinas baratas [(https://www.scmp.com/news/china/diplomacy/article/3253788/chinese-made-phones-are-calling-shots-africa-they-beat-global-giants-samsung-and-apple)] que ofrecen funciones simplificadas dominan el mercado. Las fotos y los vídeos que estos teléfonos son capaces de producir son de mucha menor calidad, lo que confunde aún más a los modelos de detección, afirma Ngamita.
Gregory afirma que algunos modelos son tan sensibles que incluso el ruido de fondo en un fragmento de audio, o la compresión de un vídeo para las redes sociales, puede dar como resultado un falso positivo o negativo. "Pero esas son exactamente las circunstancias que se encuentran en el mundo real, una detección brusca y confusa", afirma. Las herramientas gratuitas y públicas a las que probablemente tengan acceso la mayoría de los periodistas, verificadores de datos y miembros de la sociedad civil también son "las que son extremadamente inexactas, en términos de abordar tanto la inequidad de quién está representado en los datos de entrenamiento como los desafíos de tratar con este material de menor calidad".
La IA generativa no es la única forma de crear medios manipulados. Los llamados cheapfakes, o medios manipulados mediante la adición de etiquetas engañosas o simplemente ralentizando o editando audio y video, también son muy comunes en el Sur Global, pero pueden ser marcados por error como manipulados por IA por modelos defectuosos o investigadores no capacitados.
A Diya le preocupa que los grupos que utilizan herramientas que tienen más probabilidades de marcar contenido de fuera de los EE. UU. y Europa como generado por IA podrían tener graves repercusiones a nivel de políticas, alentando a los legisladores a tomar medidas enérgicas contra problemas imaginarios. "Existe un riesgo enorme en términos de inflar ese tipo de números", dice. Y desarrollar nuevas herramientas no es una cuestión de presionar un botón.
Al igual que cualquier otra forma de IA, construir, probar y ejecutar un modelo de detección requiere acceso a energía y centros de datos que simplemente no están disponibles en gran parte del mundo. "Si hablamos de IA y soluciones locales, es casi imposible que, sin la parte informática, podamos ejecutar cualquiera de los modelos que estamos pensando en crear", afirma Ngamita, que vive en Ghana. Sin alternativas locales, los investigadores como Ngamita tienen pocas opciones: pagar por el acceso a una herramienta comercial como la que ofrece Reality Defender, cuyos costes pueden ser prohibitivos; utilizar herramientas gratuitas inexactas; o intentar obtener acceso a través de una institución académica.
Por ahora, Ngamita dice que su equipo ha tenido que asociarse con una universidad europea a la que pueden enviar fragmentos de contenido para su verificación. El equipo de Ngamita ha estado recopilando un conjunto de datos de posibles casos de deepfake de todo el continente, lo que, según él, es valioso para académicos e investigadores que están tratando de diversificar los conjuntos de datos de sus modelos.
Pero enviar datos a otra persona también tiene sus inconvenientes. "El tiempo de retraso es bastante significativo", dice Diya. "Se necesitan al menos algunas semanas para que alguien pueda decir con seguridad que esto es generado por IA, y para entonces, ese contenido ya ha causado daños".
Gregory dice que Witness, que tiene su propio programa de detección de respuesta rápida, recibe una "enorme cantidad" de casos. "Ya es un desafío manejarlos en el marco de tiempo que necesitan los periodistas de primera línea y en el volumen que están comenzando a encontrar", dice.
Pero Diya dice que centrarse tanto en la detección podría desviar fondos y apoyo de las organizaciones e instituciones que contribuyen a un ecosistema de información más resistente en general. En cambio, dice, la financiación debe destinarse a los medios de comunicación y las organizaciones de la sociedad civil que pueden generar un sentido de confianza pública. "No creo que sea ahí donde se esté destinando el dinero", dice. "Creo que se está destinando más a la detección".