Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 3550

Incidentes Asociados

Incidente 62418 Reportes
Child Sexual Abuse Material Taints Image Generators

Loading...
Se descubrió que el conjunto de datos de entrenamiento de imágenes de IA incluye imágenes de abuso sexual infantil
theverge.com · 2023

Un conjunto de datos de entrenamiento popular para la generación de imágenes de IA contenía enlaces a imágenes de abuso infantil, [encontrado por el Observatorio de Internet de Stanford](https://cyber.fsi.stanford.edu/news/investigation-finds-ai-image-generation-models-trained- abuso infantil), permitiendo potencialmente que los modelos de IA creen contenido dañino.

LAION-5B, un conjunto de datos utilizado por el creador de Stable Diffusion, Stability AI, incluía al menos 1.679 imágenes ilegales extraídas de publicaciones en redes sociales y sitios web populares para adultos.

Los investigadores comenzaron a revisar el conjunto de datos de LAION en septiembre de 2023 para investigar cuánto material de abuso sexual infantil (CSAM), si es que había alguno, estaba presente. Revisaron hashes o identificadores de imágenes. Estos fueron enviados a plataformas de detección de CSAM como PhotoDNA y verificados por el Centro Canadiense para la Protección Infantil.

El conjunto de datos no mantiene repositorios de imágenes, según el sitio web de LAION. Indexa Internet y contiene enlaces a imágenes y texto alternativo que extrae. La versión inicial de Google de la herramienta de inteligencia artificial de texto a imagen Imagen, lanzada solo para investigación, se entrenó en una variante diferente de los conjuntos de datos de LAION llamada LAION-400M, una versión anterior de 5B. La compañía dijo que las iteraciones posteriores no utilizaron conjuntos de datos de LAION. El informe de Stanford señaló que los desarrolladores de Imagen descubrieron que 400M incluía "una amplia gama de contenido inapropiado que incluía imágenes pornográficas, insultos racistas y estereotipos sociales dañinos".

LAION, la organización sin fines de lucro que administra el conjunto de datos, [le dijo a Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child- abuse-images-researchers-find?sref=ExbtjcSG) tiene una política de “tolerancia cero” para el contenido dañino y eliminaría temporalmente los conjuntos de datos en línea. Stability AI dijo a la publicación que tiene pautas contra el mal uso de sus plataformas. La compañía dijo que mientras entrenaba sus modelos con LAION-5B, se centró en una parte del conjunto de datos y lo ajustó por razones de seguridad.

Los investigadores de Stanford dijeron que la presencia de CSAM no necesariamente influye en el resultado de los modelos entrenados en el conjunto de datos. Aún así, siempre existe la posibilidad de que la modelo haya aprendido algo de las imágenes.

"La presencia de repetidos casos idénticos de CSAM también es problemática, particularmente debido a que refuerza las imágenes de víctimas específicas", dice el informe.

Los investigadores reconocieron que sería difícil eliminar por completo el contenido problemático, especialmente de los modelos de IA entrenados en él. Recomendaron que los modelos entrenados en LAION-5B, como Stable Diffusion 1.5, "deberían quedar obsoletos y cesar su distribución cuando sea posible". Google lanzó una nueva versión de Imagen, pero no ha hecho público en qué conjunto de datos entrenó, aparte de no utilizar LAION.

Los fiscales generales de Estados Unidos han llamado al Congreso que establezca un comité para investigar el impacto de la IA en la explotación infantil y prohibir la creación de CSAM generado por IA.

Corrección, 20 de diciembre a las 2:42 p.m. ET: Actualizado para aclarar la primera versión de Imagen de Google entrenada en LAION-400M y no en LAION-5B, e incluye más información sobre LAION-400M del informe de Stanford. Lamentamos el error.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd