Incidentes Asociados
Un conjunto de datos de entrenamiento popular para la generación de imágenes de IA contenía enlaces a imágenes de abuso infantil, [encontrado por el Observatorio de Internet de Stanford](https://cyber.fsi.stanford.edu/news/investigation-finds-ai-image-generation-models-trained- abuso infantil), permitiendo potencialmente que los modelos de IA creen contenido dañino.
LAION-5B, un conjunto de datos utilizado por el creador de Stable Diffusion, Stability AI, incluía al menos 1.679 imágenes ilegales extraídas de publicaciones en redes sociales y sitios web populares para adultos.
Los investigadores comenzaron a revisar el conjunto de datos de LAION en septiembre de 2023 para investigar cuánto material de abuso sexual infantil (CSAM), si es que había alguno, estaba presente. Revisaron hashes o identificadores de imágenes. Estos fueron enviados a plataformas de detección de CSAM como PhotoDNA y verificados por el Centro Canadiense para la Protección Infantil.
El conjunto de datos no mantiene repositorios de imágenes, según el sitio web de LAION. Indexa Internet y contiene enlaces a imágenes y texto alternativo que extrae. La versión inicial de Google de la herramienta de inteligencia artificial de texto a imagen Imagen, lanzada solo para investigación, se entrenó en una variante diferente de los conjuntos de datos de LAION llamada LAION-400M, una versión anterior de 5B. La compañía dijo que las iteraciones posteriores no utilizaron conjuntos de datos de LAION. El informe de Stanford señaló que los desarrolladores de Imagen descubrieron que 400M incluía "una amplia gama de contenido inapropiado que incluía imágenes pornográficas, insultos racistas y estereotipos sociales dañinos".
LAION, la organización sin fines de lucro que administra el conjunto de datos, [le dijo a Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child- abuse-images-researchers-find?sref=ExbtjcSG) tiene una política de “tolerancia cero” para el contenido dañino y eliminaría temporalmente los conjuntos de datos en línea. Stability AI dijo a la publicación que tiene pautas contra el mal uso de sus plataformas. La compañía dijo que mientras entrenaba sus modelos con LAION-5B, se centró en una parte del conjunto de datos y lo ajustó por razones de seguridad.
Los investigadores de Stanford dijeron que la presencia de CSAM no necesariamente influye en el resultado de los modelos entrenados en el conjunto de datos. Aún así, siempre existe la posibilidad de que la modelo haya aprendido algo de las imágenes.
"La presencia de repetidos casos idénticos de CSAM también es problemática, particularmente debido a que refuerza las imágenes de víctimas específicas", dice el informe.
Los investigadores reconocieron que sería difícil eliminar por completo el contenido problemático, especialmente de los modelos de IA entrenados en él. Recomendaron que los modelos entrenados en LAION-5B, como Stable Diffusion 1.5, "deberían quedar obsoletos y cesar su distribución cuando sea posible". Google lanzó una nueva versión de Imagen, pero no ha hecho público en qué conjunto de datos entrenó, aparte de no utilizar LAION.
Los fiscales generales de Estados Unidos han llamado al Congreso que establezca un comité para investigar el impacto de la IA en la explotación infantil y prohibir la creación de CSAM generado por IA.
Corrección, 20 de diciembre a las 2:42 p.m. ET: Actualizado para aclarar la primera versión de Imagen de Google entrenada en LAION-400M y no en LAION-5B, e incluye más información sobre LAION-400M del informe de Stanford. Lamentamos el error.