Incidentes Asociados
Se han descubierto más de 1.000 imágenes de niños abusados sexualmente dentro del conjunto de datos más grande utilizado para entrenar IA generadora de imágenes, sorprendiendo a todos, excepto a las personas que han advertido sobre este tipo exacto de cosas durante años.
El conjunto de datos fue creado por LAION, una organización sin fines de lucro detrás de los conjuntos de datos de imágenes masivos utilizados por sistemas de IA generativa como Stable Diffusion. Tras un informe de investigadores en la Universidad de Stanford, [404 Media informó](https://www.404media.co/laion-datasets-removed-stanford-csam- child-abuse/) que LAION confirmó la presencia de material de abuso sexual infantil (CSAM) en el conjunto de datos, llamado LAION-5B, y lo eliminó de sus canales en línea.
El conjunto de datos LAION-5B contiene enlaces a 5 mil millones de imágenes extraídas de Internet.
Los investigadores de ética de la IA han advertido durante mucho tiempo que la escala masiva de los conjuntos de datos de entrenamiento de la IA hace que sea efectivamente imposible filtrarlos o auditar los modelos de IA que los utilizan. Pero las empresas de tecnología, ansiosas por reclamar su parte del creciente mercado de la IA generativa, en gran medida han [ignorado estas preocupaciones](https://www.vice.com/en/article/88xdez/generative-ai-is-a-disaster- y-a-las-empresas-no-parece-realmente-les-importa), construyen sus diversos productos sobre modelos de IA que se entrenan utilizando estos conjuntos de datos masivos. Stable Diffusion, uno de los sistemas de generación de texto a imagen más utilizados, se basa, por ejemplo, en datos de LAION. Y varias otras herramientas de IA incorporan partes de los conjuntos de datos de LAION además de otras fuentes.
Esto, dicen los investigadores de ética de la IA, es el resultado inevitable de la apatía.
"No es sorprendente, [para ser honesto]. Encontramos numerosos contenidos inquietantes e ilegales en el conjunto de datos de LAION que no aparecieron en nuestro artículo", escribió Abeba Birhane, autor principal de un [artículo reciente](https:// arxiv.org/abs/2311.03449) examinando los enormes conjuntos de datos, en un tweet en respuesta al informe de Stanford. "El conjunto de datos de LAION nos da una [visión] de los conjuntos de datos corporativos bloqueados en laboratorios corporativos como los de OpenAI, Meta y Google. Puede estar seguro de que esos conjuntos de datos cerrados, rara vez examinados por auditores independientes, son mucho peores que el conjunto de datos abierto de LAION."
LAION le dijo a 404 Media que estaban eliminando el conjunto de datos "temporalmente" para eliminar el contenido CSAM que identificaron los investigadores. Pero los expertos en IA dicen que el daño ya está hecho.
"Es triste, pero en realidad no sorprende", dijo a Motherboard Sasha Luccioni, investigadora de inteligencia artificial y ética de datos en HuggingFace, coautora del artículo con Birhane. "Prácticamente todos los modelos de generación de imágenes utilizaron alguna versión de [LAION]. Y no se pueden eliminar cosas que ya han sido entrenadas en él".
El problema, dijo Luccioni, es que estos enormes tesoros de datos no se analizan adecuadamente antes de usarse, y la escala de los conjuntos de datos hace que filtrar el material no deseado sea extremadamente difícil. En otras palabras, incluso si LAION logra eliminar material específico no deseado después de ser descubierto, el gran tamaño de los datos significa que es prácticamente imposible asegurarse de que se haya deshecho de todo, especialmente si a nadie le importa lo suficiente como para siquiera intentarlo. antes de que un producto salga al mercado.
"Nadie quiere trabajar con datos porque no es atractivo", dijo Luccioni. "Nadie aprecia el trabajo con datos. Todo el mundo sólo quiere que los modelos funcionen mejor". ("Go brrr" es un meme refiriéndose a una hipotética máquina de imprimir dinero).
Los investigadores de ética de la IA han advertido durante años sobre los peligros de los modelos y conjuntos de datos de IA que contienen texto e imágenes racistas y sexistas extraídas de Internet, y estudio tras estudio demuestra cómo estos sesgos dan como resultado sistemas automatizados que replican y amplifican la discriminación en áreas como la atención médica. , vivienda y vigilancia. El conjunto de datos LAION es otro ejemplo de esta dinámica de "basura que entra, basura sale", donde conjuntos de datos llenos de material explícito, ilegal u ofensivo quedan arraigados en el proceso de IA, lo que da como resultado productos y software que heredan los mismos problemas y sesgos. .
Estos daños se pueden mitigar ajustando los sistemas después del hecho, para intentar evitar que generen resultados dañinos o no deseados. Pero investigadores como Luccioni advierten que estos ajustes tecnológicos en realidad no abordan la causa fundamental del problema.
"Creo que necesitamos repensar fundamentalmente la forma en que recopilamos y utilizamos conjuntos de datos en IA", dijo Luccioni. "De lo contrario, serán sólo soluciones tecnológicas las que no resolverán el problema subyacente".