Incidentes Asociados
Investigadores del Observatorio de Internet de Stanford dicen que un conjunto de datos utilizado para entrenar herramientas de generación de imágenes de IA contiene al menos 1.008 casos validados de material de abuso sexual infantil. Los investigadores de Stanford señalan que la presencia de CSAM en el conjunto de datos podría permitir que los modelos de IA entrenados con los datos generen instancias nuevas e incluso realistas de CSAM.
LAION, la organización sin fines de lucro que creó el conjunto de datos, dijo 404 Media que "tiene un valor cero política de tolerancia para contenido ilegal y con mucha precaución, estamos eliminando temporalmente los conjuntos de datos de LAION para garantizar que estén seguros antes de volver a publicarlos". La organización añadió que, antes de publicar sus conjuntos de datos, creó filtros para detectar y eliminar contenido ilegal de ellos. Sin embargo, *404 *señala que los líderes de LAION han sido conscientes desde al menos 2021 de que existía la posibilidad de que sus sistemas detectaran CSAM mientras aspiraban miles de millones de imágenes de Internet.
[Según informes anteriores](https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns?leadSource =uverify%20wall&sref=10lNAhZ9), el conjunto de datos LAION-5B en cuestión contiene "millones de imágenes de pornografía, violencia, desnudez infantil, memes racistas, símbolos de odio, arte protegido por derechos de autor y obras extraídas de sitios web de empresas privadas". En general, incluye más de 5 mil millones de imágenes y títulos descriptivos asociados (el conjunto de datos en sí no incluye ninguna imagen, sino enlaces a imágenes extraídas y texto alternativo). El fundador de LAION, Christoph Schuhmann, dijo a principios de este año que, si bien no tenía conocimiento de ningún CSAM en el conjunto de datos, no los había examinado en profundidad.
Es ilegal que la mayoría de las instituciones en los EE. UU. vean CSAM con fines de verificación. Como tal, los investigadores de Stanford utilizaron varias técnicas para buscar CSAM potencial. Según su artículo, emplearon "detección basada en hash perceptivo, detección basada en hash criptográfico y análisis de vecinos más cercanos aprovechando las incrustaciones de imágenes en el propio conjunto de datos". Encontraron 3.226 entradas que contenían presuntos CSAM. Muchas de esas imágenes fueron confirmadas como CSAM por terceros como PhotoDNA y el Centro Canadiense para la Protección Infantil.
El fundador de Stability AI, Emad Mostaque, capacitó Stable Diffusion utilizando un subconjunto de datos de LAION-5B. La primera versión de investigación del modelo de texto a imagen Imagen de Google fue entrenada en LAION -400M, pero eso nunca fue lanzado; Google dice que ninguna de las siguientes iteraciones de Imagen utiliza ningún conjunto de datos de LAION. Un portavoz de Stability AI dijo [Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child-abuse-images (los investigadores encuentran) que prohíbe el uso de sus sistemas de prueba de imágenes para fines ilegales, como crear o editar CSAM. "Este informe se centra en el conjunto de datos LAION-5B en su conjunto", dijo el portavoz. "Los modelos de estabilidad de IA se entrenaron en un subconjunto filtrado de ese conjunto de datos. Además, ajustamos estos modelos para mitigar los comportamientos residuales".
Stable Diffusion 2 (una versión más reciente de la herramienta de generación de imágenes de Stability AI) se entrenó con datos que filtraron sustancialmente los materiales "inseguros" del conjunto de datos. Eso, *Bloomberg *señala, hace que a los usuarios les resulte más difícil generar imágenes explícitas. Sin embargo, se afirma que Stable Diffusion 1.5, que todavía está disponible en Internet, no tiene las mismas protecciones. "Los modelos basados en Stable Diffusion 1.5 a los que no se les han aplicado medidas de seguridad deben quedar obsoletos y cesar su distribución cuando sea posible", escribieron los autores del artículo de Stanford.
Corrección, 4:30 p.m. ET: Esta historia decía originalmente que la herramienta Imagen de Google utilizaba un subconjunto de datos de LAION-5B. La historia se actualizó para señalar que Imagen usó LAION-400M en su primera versión de investigación, pero no ha usado ningún dato de LAION desde entonces. Nos disculpamos por el error.