Report 6813

Un gran conjunto de datos de imágenes utilizado para desarrollar herramientas de IA para la detección de desnudez contiene varias imágenes de material de abuso sexual infantil (MASI), según el Centro Canadiense para la Protección de la Infancia (C3P).

El conjunto de datos NudeNet, que contiene más de 700.000 imágenes extraídas de internet, se utilizó para entrenar un clasificador de imágenes de IA capaz de detectar automáticamente la desnudez en una imagen. C3P descubrió que más de 250 trabajos académicos citaron o utilizaron el conjunto de datos NudeNet desde que se pudo descargar de Academic Torrents, una plataforma para compartir datos de investigación, en junio de 2019.

"Una revisión no exhaustiva de 50 de estos proyectos académicos reveló que 13 utilizaron el conjunto de datos NudeNet y 29 se basaron en el clasificador o modelo NudeNet", declaró C3P en su comunicado.

C3P encontró más de 120 imágenes de víctimas identificadas o conocidas de abuso sexual infantil en el conjunto de datos, incluyendo casi 70 imágenes centradas en la zona genital o anal de niños con preadolescencia confirmada o aparente. "En algunos casos, imágenes que representan actos sexuales o abusivos que involucran a niños y adolescentes, como la felación o la penetración pene-vaginal", declaró C3P.

Las personas y organizaciones que descargaron el conjunto de datos no tendrían forma de saber que contenía material de abuso sexual infantil a menos que lo buscaran, y lo más probable es que no lo hicieran, pero tener esas imágenes en sus equipos sería técnicamente un delito.

"El material de abuso sexual infantil es ilegal, y su alojamiento y distribución generan enormes responsabilidades para los creadores e investigadores. Además, existe un problema ético mayor, ya que es casi seguro que las víctimas de estas imágenes no dieron su consentimiento para su distribución y uso en la formación", me explicó en un correo electrónico Hany Farid, profesor de la Universidad de California en Berkeley y uno de los principales expertos mundiales en imágenes manipuladas digitalmente. Farid también desarrolló PhotoDNA, una herramienta ampliamente utilizada de identificación de imágenes y filtrado de contenido. "Aunque el fin sea noble, en este caso no justifica los medios". Muchos de los modelos de IA utilizados para dar soporte a las funciones de aplicaciones e iniciativas de investigación se han entrenado con datos recopilados de forma indiscriminada o éticamente cuestionable. Esta falta de diligencia debida ha provocado la aparición de material conocido de abuso y explotación sexual infantil en este tipo de conjuntos de datos, algo que es en gran medida prevenible, declaró Lloyd Richardson, director de tecnología de C3P.

Academic Torrents eliminó el conjunto de datos después de que C3P emitiera un aviso de eliminación a sus administradores.

Al operar la línea nacional de denuncia de Canadá para denunciar la explotación sexual infantil, recibimos información o pistas del público a diario, me explicó Richardson por correo electrónico. En el caso del conjunto de datos de imágenes de NudeNet, una persona expresó su preocupación por la posibilidad de que el conjunto de datos contuviera material de abuso sexual infantil, lo que nos impulsó a investigarlo más a fondo.

Los hallazgos de C3P son similares a una investigación de 2023 del Centro de Política Cibernética de la Universidad de Stanford, que descubrió que LAION-5B, uno de los conjuntos de datos más grandes que alimentan imágenes generadas por IA, también contenía material de abuso sexual infantil (MASI) (https://www.404media.co/laion-datasets-removed-stanford-csam-child-abuse/). La organización que gestiona LAION-5B lo eliminó de internet tras ese informe y solo lo volvió a compartir una vez que eliminó las imágenes ofensivas.

"Estos conjuntos de datos de imágenes, que normalmente no han sido verificados, se promocionan y distribuyen en línea para que cientos de investigadores, empresas y aficionados los utilicen, a veces con fines comerciales", me explicó Richardson. A estas alturas, pocos consideran el posible daño o explotación que pueden causar sus productos. Tampoco podemos olvidar que muchas de estas imágenes son, en sí mismas, evidencia de delitos de abuso sexual infantil. En la fiebre de la innovación, estamos viendo muchos daños colaterales, pero muchos simplemente no los reconocen. En definitiva, creo que tenemos la obligación de desarrollar la tecnología de IA de forma responsable y ética.

Actualización: Esta historia ha sido actualizada con el comentario de Lloyd Richardson.

Problema 6813

Incidentes Asociados

Incidente 13491 Reporte
AI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims

Conjunto de datos de IA para detectar imágenes de abuso sexual infantil con desnudos

Problema 6813

Incidentes Asociados

Incidente 13491 ReporteAI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims

Conjunto de datos de IA para detectar imágenes de abuso sexual infantil con desnudos

Incidente 13491 Reporte
AI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims