Report 3558

Un enorme conjunto de datos de IA de código abierto, LAION-5B, que se ha utilizado para entrenar generadores de texto a imágenes de IA populares como Stable Diffusion 1.5 e Imagen de Google, contiene al menos 1008 casos de material de abuso sexual infantil, [un nuevo informe] (https://purl.stanford.edu/kh752sm9123)[ del Observatorio de Internet de Stanford](https://cyber.fsi.stanford.edu/news/investigation-finds-ai-image-generation-models-trained-child -abuse) encontrado --- con miles de casos más sospechosos. El Observatorio de Internet de Stanford es un programa del Centro de Política Cibernética, una iniciativa conjunta del [Instituto Freeman Spogli de Estudios Internacionales](http://fsi.stanford .edu/) y Facultad de Derecho de Stanford.

El conjunto de datos LAION-5B, que se publicó en marzo de 2022 y contiene más de 5 mil millones de imágenes y subtítulos relacionados de Internet, también puede incluir miles de datos adicionales. piezas de material sospechoso de abuso sexual infantil, o CSAM, según el informe. El informe advirtió que el material CSAM en el conjunto de datos podría permitir que los productos de inteligencia artificial creados a partir de estos datos generen contenido nuevo y potencialmente realista sobre abuso infantil.

En respuesta, LAION dijo a 404 Media el martes que por "mucha precaución", estaba tomando eliminar temporalmente sus conjuntos de datos "para garantizar que estén seguros antes de volver a publicarlos".

Los conjuntos de datos de LAION han sido criticados antes

Pero esta no es la primera vez que los conjuntos de datos de imágenes de LAION son criticados. Ya en octubre de 2021, el científico cognitivo Abeba Birhane, actualmente investigador principal en IA confiable en Mozilla, publicó un artículo, Conjuntos de datos multimodales: misoginia, pornografía y estereotipos malignos, que examinó LAION-400M, un conjunto de datos de imágenes anterior. Encontró que el conjunto de datos contenía "imágenes y pares de textos problemáticos y explícitos de violación, pornografía, estereotipos malignos, insultos racistas y étnicos y otros contenidos extremadamente problemáticos".

En septiembre de 2022, hubo un caso en el que un [artista descubrió fotos de registros médicos privados](https://arstechnica.com/information-technology/2022/09/artist-finds-private-medical-record-photos-in-popular -ai-training-data-set/) tomada por su médico en 2013, referenciada en el conjunto de datos de imágenes LAION-5B. El artista Lapine descubrió las fotografías en [¿He sido entrenado?](https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool -lets-you-check/), que permite a las personas buscar su trabajo en conjuntos de datos de entrenamiento de IA populares.

Y una demanda colectiva, Andersen et al. Stability AI LTD et al., fue presentada por los artistas visuales Sarah Andersen, Kelly McKernan y Karla Ortiz contra Stability AI, Midjourney y DeviantArt en enero de 2023. Si bien LAION no fue demandada, sí fue nombrada en la demanda, que decía que "Se alega que Stability ha descargado copias adquiridas de otro modo de miles de millones de archivos protegidos por derechos de autor". imágenes sin permiso para crear Difusión Estable' conocidas como 'imágenes de entrenamiento'. Más de cinco mil millones de imágenes fueron extraídas (y por lo tanto copiadas) de Internet con fines de capacitación para Stable Diffusion a través de los servicios de una organización (LAION, Large-Scale Artificial Intelligence Open Network) pagada por Stability."

Ortiz, un artista galardonado que ha trabajado para Industrial Light & Magic (ILM), Marvel Film Studios, Universal Studios y HBO, habló en un panel virtual de la FTC en octubre y discutió la Conjunto de datos LAION-5B.

"LAION-5B es un conjunto de datos que contiene 5.800 millones de pares de texto e imágenes, que... incluye la totalidad de mi trabajo y el trabajo de casi todos los que conozco", dijo. "Más allá de la propiedad intelectual, conjuntos de datos como LAION-5B también contienen material profundamente preocupante, como registros médicos privados, pornografía no consensuada, imágenes de niños e incluso fotografías de nuestros rostros reales en las redes sociales".

El pionero de la IA, Andrew Ng, criticó la eliminación del acceso a LAION

Como VentureBeat informó en septiembre, Andrew Ng, ex cofundador y director de Google Brain, no ha ocultado el hecho de que los últimos avances en aprendizaje automático han dependido del acceso gratuito a grandes cantidades de datos, muchos de ellos extraídos de la Internet abierta.

En una edición de su boletín DeepLearning.ai, The Batch, titulada "[Es hora de actualizar los derechos de autor para la IA generativa](https://www.deeplearning.ai/the-batch/time-to-update-copyright-for- generative-ai/), escribió que la falta de acceso a conjuntos de datos populares masivos como [Common Crawl](https://info.deeplearning.ai/e3t/Ctc/LX+113/cJhC404/MVmLY3K1CLmW2S3Xqg2Hf-W4W72Qs8N519g86KqQ33q3n5V1-WJV7CgPWpW4KfMvK 2HqQXkW8FY- zt49PbszW4-jF1t7K4-4hW7ZmJzZ1DZpLBW7-bVjd19jz7RVvcM7z6hlK5-W75-Rn-5HfXlBW1B96zg3QLzKwVmzhN58nmfmZW90hRX57kwD1LW6dJtvS4LS99kW3z6zfX 7gs9yTW8X6yYT2gvfg9W6wgX-81XPrpFW89vsRS8yhmZgW31YhYq1xxVblW8ZV4tY5Nx2mvW4jV-3t2m0qdTW2cf6bw7GR3SgN7X4ZyXT2vHZ3jgf1), [La pila](https://info.deeplearning.ai/e3 t/Ctc/LX+113/cJhC404/MVmLY3K1CLmW2S3Xqg2Hf-W4W72Qs8N519g86KqQm3q3npV1-WJV7CgPrlW5KbvhX4X5qK3Vk8gDG5wWNd2W776frg5hW8C- W14dHxx2-81xpW2tsvlW7M8PX2W3WbNcm955t-JW4zvv8m6QNP4yN92X7zyzfHSnVBKQBl6vyB6QW33ZKhL3Dg58bW2rwCjQ3ygL7HW35SqSl6KtFb2VWdCFs8MVW87W5w3y6 x2gsD8MW3BtTlS4ZgTdQN886Q5xd5G9fVwGBf-5C0rDGW8KNnlK4WW_BrW4jWT3k8vZJx4W7vDQFY5H8NV7W4wDvcy9jwZGdW5WRFvg11HLbw3nlP1) y [LAION](https://info.deeplearning. ai/e3t/Ctc/LX+113/cJhC404/MVmLY3K1CLmW2S3Xqg2Hf-W4W72Qs8N519g86KqQm3q3npV1-WJV7CgLkWW34LtGc8lC301VR3Kbz1bKg_TW33wChm3hQnq2W2w_n1S4V Y3QfW5T5xb_6DjlWzW5dlprX8GTrrsV3YNGB9cNSkpW4fmVJ578zKfxW69dMGd3LgstjW7jQynl97sYk7VNq9-582TmNtW2NtCck9dKcf6W3wq2-H56GkXWW3wyls26Y-W64W2FlD 0F7dSNP1W7J8GWf6fkBZ3W6MJ90469lt52W3rPdpx8R-LcTMTrT6BxhP4KW5hVFdC1w8B81W59yY4G82b49LVVVfZF8WLjJv33Fl1) pondría los frenos al progreso o al menos alterar radicalmente la economía de la investigación actual.

"Esto degradaría los beneficios actuales y futuros de la IA en áreas como el arte, la educación, el desarrollo de fármacos y la fabricación, por nombrar algunas", afirmó.

Y en la edición del 7 de junio de The Batch, Ng admitió que la comunidad de IA está entrando en una era en la que será llamada a Ser más transparentes en nuestra recopilación y uso de datos. "No deberíamos dar por sentados recursos como LAION , porque es posible que no siempre tengamos permiso para usarlos", escribió.

LAION se fundó para crear un conjunto de datos de código abierto

El profesor de secundaria y actor formado en Hamburgo, Alemania, Christoph Schuhmann, ayudó a fundar [LAION](https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B- H-14&useMclip=false), abreviatura de "Red abierta de IA a gran escala". Según un [artículo de Bloomberg de abril de 2023](https://www.bloomberg.com/news/features/2023-04-24/a-high -school-teacher-s-free-image-database-powers-ai-unicorns), Schuhmann estaba en un servidor de Discord para entusiastas de la IA y se inspiró en la primera iteración de DALL-E de OpenAI para asegurarse de que hubiera una Conjunto de datos de código abierto para ayudar a entrenar modelos de difusión de imagen a texto.

"En unas pocas semanas, Schuhmann y sus colegas tenían 3 millones de pares de imagen y texto. Después de tres meses, publicaron un conjunto de datos con 400 millones de pares", decía el artículo de Bloomberg. "Ese número supera ahora los 5 mil millones, lo que convierte a LAION en el mayor conjunto de datos gratuitos de imágenes y leyendas".

Desde entonces, la organización sin fines de lucro LAION ha intervenido públicamente sobre temas de IA de código abierto: por ejemplo, después de una carta abierta en marzo de 2023 pidiendo una 'pausa' de la IA desencadenó una feroz debate en torno a los riesgos frente a las exageraciones, LAION llamado acelerar la investigación y establecer un grupo informático internacional conjunto para modelos de inteligencia artificial de código abierto a gran escala.

LAION fue eliminada de datos visuales en sitios de compras

LAION se eliminó, en parte, mediante el uso de datos visuales de servicios de compras en línea como Shopify, eBay y Amazon. En un artículo reciente del Instituto Allen de IA llamado "¿Qué hay en mi Big Data?", los investigadores estudiaron LAION-2B-en, un subconjunto de LAION- 5B, que son 2,32 mil millones de pies de foto en inglés. Descubrió, por ejemplo, que el 6% de los documentos en LAION-2B-en eran de Shopify.

"Eso fue una sorpresa porque nadie lo había observado antes", dijo a VentureBeat en noviembre Jesse Dodge, científico investigador del Instituto Allen para la IA. "Nadie había podido decir de qué partes de Internet se encuentran la mayor cantidad de imágenes de texto en este conjunto de datos".

Problema 3558

Incidentes Asociados

Incidente 62418 Reportes
Child Sexual Abuse Material Taints Image Generators

Un conjunto de datos de imágenes de IA gratuito, eliminado por imágenes de abuso sexual infantil, ha sido criticado antes

Los conjuntos de datos de LAION han sido criticados antes

LAION se fundó para crear un conjunto de datos de código abierto

Problema 3558

Incidentes Asociados

Incidente 62418 ReportesChild Sexual Abuse Material Taints Image Generators

Un conjunto de datos de imágenes de IA gratuito, eliminado por imágenes de abuso sexual infantil, ha sido criticado antes

Los conjuntos de datos de LAION han sido criticados antes

LAION se fundó para crear un conjunto de datos de código abierto

Incidente 62418 Reportes
Child Sexual Abuse Material Taints Image Generators