Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 3553

Incidentes Asociados

Incidente 62418 Reportes
Child Sexual Abuse Material Taints Image Generators

Loading...
LAION-5B, Difusión Estable 1.5 y el pecado original de la IA generativa
techpolicy.press · 2024

En Los que se alejan de Omelas, la escritora de ficción Ursula K. Le Guin describe una ciudad fantástica donde el avance tecnológico ha asegurado una vida de abundancia para todos los que viven allí. Escondido debajo de la ciudad, donde nadie necesita confrontarla o reconocer su existencia, hay un niño humano que vive en dolor y suciedad, una cruel necesidad de la extraña infraestructura de Omelas. En el pasado, Omelas sirvió como advertencia sobre tecnología. Hoy en día, se ha convertido en una descripción adecuada para los sistemas de IA generativa. David Thiel, del Stanford Internet Observatory, basándose en trabajos previos cruciales de investigadores como Dr. Abeba Birhane --- confirmado recientemente [más de 1.000 URL que contienen material verificado de abuso sexual infantil](https://cyber.fsi.stanford.edu/news/investigation- finds-ai-image-generation-models-trained-child-abuse) (CSAM) está enterrado dentro de LAION-5B, el conjunto de datos de entrenamiento para Stable Diffusion 1.5, una herramienta de imágenes de IA que transformó la fotografía y la ilustración en 2023. Stable Diffusion es una modelo de código abierto y es un componente fundamental para miles de herramientas de generación de imágenes que se encuentran en aplicaciones y sitios web. Los conjuntos de datos son los componentes básicos de cada imagen y texto generados por IA. Los modelos de difusión descomponen las imágenes de estos conjuntos de datos en ruido y aprenden cómo se "difunden" las imágenes. A partir de esa información, los modelos pueden volver a ensamblarlos. Luego, los modelos abstraen esas fórmulas en categorías usando títulos relacionados, y esa memoria se aplica al ruido aleatorio, para no duplicar el contenido real de los datos de entrenamiento, aunque a veces sucede. Se crea una imagen de un niño generada por IA a partir de miles de abstracciones de estas fotografías genuinas de niños. En el caso de Stable Diffusion y Midjourney, estas imágenes provienen del conjunto de datos LAION-5B, una colección de títulos y enlaces a 2.300 millones de imágenes. Si hay cientos de imágenes de un solo niño en ese archivo de URL, ese niño podría influir en los resultados de estos modelos. La presencia de pornografía infantil en estos datos de formación es evidentemente inquietante. Un punto adicional de grave preocupación es la probabilidad de que las imágenes de niños que sufrieron abuso traumático influyan en la apariencia de los niños en las imágenes sintéticas del modelo resultante, incluso cuando esas imágenes generadas no sean ni remotamente sexuales. La presencia de este material en los datos de entrenamiento de IA apunta a una negligencia continua en el proceso de datos de IA. Esta crisis es en parte el resultado de con quién hablan los formuladores de políticas y con quién permiten definir la IA: con demasiada frecuencia, son los expertos de la industria los que tienen un interés personal en disuadir la atención del papel de los datos de entrenamiento y de los hechos que contienen. Al igual que Omelas, cada uno de nosotros enfrenta la decisión de qué hacer ahora que conocemos estos hechos. LAION-5B como Infraestructura ------------------------------ Los datos de LAION se recopilan de la Web sin supervisión: allí No hay ningún "humano en el circuito". Algunas empresas dependen de mano de obra mal remunerada para "limpiar" este conjunto de datos y utilizarlos en la generación de imágenes. Un [informe] anterior (https://www.noemamag.com/the-exploited-labor-behind-artificial-intelligence/) ha destacado que estos trabajadores están frecuentemente expuestos a contenidos traumáticos, incluidas imágenes de violencia y abuso sexual. Esto se sabe desde hace años. En 2022, el Centro Nacional para Niños Desaparecidos y Explotados identificó más de 32 millones de imágenes de CSAM en línea. El informe de Stanford señala que el conjunto de datos de LAION se recopiló de la web sin consultar a expertos en seguridad infantil y nunca se cotejó con listas conocidas de contenido abusivo. En cambio, LAION se filtró utilizando CLIP, un sistema automatizado de detección de contenido cuyos diseñadores, el Dr. Birhane señala, advirtieron contra su propia aptitud para fines de filtración cuando lo publicaron. En mi propio análisis del contenido de LAION --- antes de la eliminación del conjunto de datos -- - Me preocupó la inclusión de imágenes de atrocidades históricas, que se abstraen en categorías no relacionadas. En los datos de entrenamiento de "héroe", por ejemplo, se encuentran soldados nazis. Me refiero a estos ensamblajes como "collages de trauma", señalando que una sola imagen generada podría incorporar patrones aprendidos de imágenes de la Wehrmacht nazi de vacaciones, retratos de personas asesinadas en el Holocausto y prisioneros torturados en Abu Ghraib, junto con imágenes de escenas de el reinicio de Archie Comics "Riverdale" y la iconografía de la cultura pop. Tenemos poca comprensión de cómo estas imágenes se filtran en la exhibición de estas "hermosas" ilustraciones e imágenes, pero parece haber una falla en el reconocimiento cultural del hecho de que son Ingredientes podridos: El conocimiento de que los trabajadores estuvieron expuestos a contenidos traumáticos, hasta la fecha, no ha logrado movilizar a la industria (o a los formuladores de políticas) a la acción, para lidiar con los tipos de datos que se recopilan y el método para recolectarlos. Las preocupaciones de los artistas sobre el material protegido por derechos de autor contenido en LAION-5B han generado una respuesta igualmente tímida por parte de los legisladores. Si los formuladores de políticas y los periodistas hubieran tomado en serio las preocupaciones de los artistas e investigadores independientes, la presencia de material aún más profundamente inquietante no habría sido una sorpresa. Los medios de comunicación también tienen la culpa. La forma en que hemos enmarcado la inteligencia artificial desde el auge de la IA generativa ha sido profundamente defectuosa. En lugar de entender la IA como una forma automatizada de análisis de datos, desprovista de supervisión humana, hemos visto innumerables informes sobre sus capacidades y resultados. Girar nuestra comprensión de la recopilación de datos y los algoritmos al marco de la "IA generativa" ha cortado innecesariamente la comprensión de esta tecnología, borrando una década o más de estudios sobre sistemas algorítmicos y Big Data. Este giro ha creado un cambio de marco perjudicial a medida que los responsables de las políticas se esfuerzan por comprender esta tecnología supuestamente "sin precedentes". El motivo de este error es claro: tiene beneficios directos para los líderes de la industria. Este año, Sam Altman, director ejecutivo de OpenAI, fue [referido con el doble de frecuencia](https://www-forbes-com.cdn.ampproject.org/c/s/www.forbes.com/sites/hessiejones/2023 /12/23/un-llamado-a-un-desmantelamiento-sistémico-de-estas-mujeres-se-rechazan-a-ser-figuras-ocultas-en-el-desarrollo-de-la-ia/amp/) como las 42 mujeres en * "[Lista de los 100 principales influencers de IA] de la revista Time* (https://time.com/collection/time100-ai/)" combinada. Esa lista incluye al Dr. Birhane, cuyo crucial trabajo de investigación explorando LAION-5B ha recibido comparativamente poca atención de los medios y las políticas. Mientras tanto, la mayoría de los invitados a los "Foros de Insight" sobre IA del líder de la mayoría del Senado, Chuck Schumer (D-NY), representaron a [la industria] (https://www.techpolicy.press/us-senate-ai-insight-forum-tracker/ ), incluidas figuras como Altman y Elon Musk. Los expertos de la industria ciertamente tienen conocimientos que ofrecer. Pero también tienen interés en desviar las conversaciones de los derechos de datos y la transparencia. La firma de inversión de riesgo a16z anunció recientemente que "Imponer el costo de la responsabilidad de derechos de autor real o potencial a los creadores de IA "Los modelos matarán o obstaculizarán significativamente su desarrollo". En otras palabras: los datos no son inútiles, pero quieren que los tratemos así. Sin embargo, los llamados de los artistas a controlar el uso de sus datos en estos conjuntos de datos han sido en gran medida ignorados. La resistencia a abrir los datos de entrenamiento al escrutinio es difícil de aislar de la presencia de CSAM en ellos. En las dos semanas transcurridas desde la publicación del informe de Stanford, varios sitios web que habían ofrecido versiones exploratorias de LAION para artistas e investigadores independientes han utilizado estas herramientas. abajo. Esto tiene sentido: nadie quiere herramientas que permitan el abuso infantil o proporcionen acceso a estas imágenes. Pero es una profunda ironía que las mismas herramientas que hicieron posible que los investigadores examinaran e identificaran los datos de entrenamiento ahora estén fuera de línea. Eso significa que es literalmente imposible para los artistas y los titulares de derechos de autor ver si su trabajo se está utilizando para entrenar estos sistemas, o para los investigadores comprender qué materiales dañinos contienen. (Otro ejemplo: un informe que mostraba que el conjunto de datos contenía no solo fotografías de niños junto con [datos de ubicación] fácilmente identificables (https://interaktiv.br.de/ki-trainingsdaten/en/index.html)). En la carrera por recopilar la mayor cantidad de datos posible, las empresas han operado en un entorno que se beneficia de la ofuscación. El año pasado estuvo marcado por ilusiones y engaños de la inteligencia artificial general, la promesa de una sofisticación que emerge de algún concepto abstracto de "inteligencia" en una densa red de señales de encendido y apagado que llamamos redes neuronales. Hay una falta de seriedad en estas conversaciones, una falta de conexión entre estos sistemas y sus fuentes. Esa falta de seriedad es alentada por los jefes de las empresas que desarrollan estas tecnologías, quienes se benefician directamente de la confusión (e incluso [el miedo]) (https://www.techpolicy.press/is-openai-cultivating-fear-to- sell-ai/)) qué son estos sistemas y cómo funcionan. Con los objetivos de la industria en el centro del marco político, no es de extrañar que se haya prestado tanta atención de los medios a los riesgos teóricos a largo plazo y a la "[superalineación] tecno-solucionista (https://openai.com/blog/introtaining-superalignment) ". Esto es a expensas de un enfoque profundo en los datos y procesos de capacitación del mundo real que dan forma a los daños inmediatos y directos, como el abuso infantil, la vigilancia racista y la "predicción" de delitos, y la captura de datos personales sin consentimiento. **¿Cómo deberíamos enmarcar la IA? ** --------------------- ¿Cómo sería un mayor escrutinio sobre los conjuntos de datos? El equipo de Thiel en Stanford recomienda no entrenar conjuntos de datos con imágenes de niños, especialmente modelos de propósito general que combinen múltiples categorías de imágenes. Se trata tanto de una cuestión de derechos de datos como de seguridad infantil. Abordado como una cuestión de derechos de datos, las imágenes de los niños deben protegerse del robo de datos, ya que no hay forma de anticipar los usos de su imagen. Como cuestión de seguridad infantil, el riesgo de reproducir la cara de un niño real en una imagen generada por IA conlleva riesgos reales, especialmente ahora que vemos un auge en [las fábricas de pornografía deepfake respaldadas por VC] (https://www.404media.co/andreessen -horowitz-invierte-en-civitai-plataforma-clave-para-porno-deepfake/). No basta simplemente con confiar en las empresas que se forman con estos conjuntos de datos para regularse a sí mismas. No fueron Stability AI, OpenAI o Midjourney quienes informaron estos hallazgos, sino investigadores independientes. Sin modelos abiertos y con capacidad de búsqueda, es posible que nunca lo hubiéramos sabido. Además, es mucho más preferible que investigadores independientes puedan auditar conjuntos de formación que que las empresas abandonen la contabilidad responsable negando el acceso a sus modelos. Sin embargo, hay una contradicción en el centro de esta propuesta. Los investigadores utilizan conjuntos de datos abiertos como LAION-5B porque se utilizan para entrenar modelos de IA. Muchos temen que si los conjuntos de datos son abiertos, entonces se podrán construir todo tipo de variaciones, incluidos modelos diseñados específicamente para deepfakes, acoso o abuso infantil. El artículo de 2021 de la Dra. Birhane y sus coautores, trágicamente pasado por alto, evaluó esta cuestión: "Los modelos de IA a gran escala pueden verse, en el caso más simple, como representaciones comprimidas de los conjuntos de datos a gran escala en los que están entrenados. Bajo esta luz, Es importante preguntar qué se debe comprimir dentro de los pesos de una red neuronal y, por proxy, qué hay en un conjunto de datos de entrenamiento. A menudo, las grandes redes neuronales entrenadas en grandes conjuntos de datos amortizan el costo computacional del desarrollo mediante el despliegue masivo en millones (o incluso miles de millones). ) de usuarios en todo el mundo. Dado el uso generalizado y a gran escala de tales modelos, es aún más importante preguntarse qué información se comprime dentro de ellos y se difunde a sus usuarios". El documento plantea el desafío a los formuladores de políticas: ¿Deberían permitirse para investigación o comercializarse imágenes de trauma, que circulan en línea con contenido considerado ilegal? Si todos estamos de acuerdo en que no debería ser así, ¿por qué permitimos que grandes copias de Internet se incorporen a los sistemas de IA sin intervención ni supervisión? ¿Dónde debería ubicarse la rendición de cuentas? La Ley de Transparencia Modelo de la Fundación AI, propuesta por la representante Anna Eshoo (D-CA) y Don Beyer (D-VA), apenas un día después de la publicación del informe de Stanford, parece el comienzo de un compromiso decente. El proyecto de ley ordenaría a la "Comisión Federal de Comercio que establezca estándares para hacer pública la información sobre los datos de entrenamiento y los algoritmos utilizados en los modelos básicos de inteligencia artificial, y para otros fines", y solicita que la FTC establezca mecanismos para la transparencia y la presentación de informes de datos. Esto no sólo daría a los consumidores y usuarios de IA generativa información sobre el contenido de los datos de entrenamiento, sino que también enfrentaría a las empresas de IA generativa con la exigencia de que comprendan sus propios datos de entrenamiento. Si bien este proyecto de ley se centra en la gestión de los derechos de autor, es alentador ver precedentes legales y políticos que sitúan la responsabilidad en el lugar que corresponde. La rendición de cuentas no es tan desafiante como las empresas de IA quieren que creamos. Volar un avión comercial lleno de combustible experimental no probado es negligencia. Las normas que exigen a las aerolíneas que nos digan qué hay en el depósito de combustible no obstaculizan la innovación. Implementar modelos en la esfera pública sin supervisión también es negligencia. Los sistemas de inteligencia artificial pueden ser una caja negra, pero las decisiones humanas que intervienen en su construcción e implementación son muy claras. Implementar y automatizar una máquina que no rinde cuentas es una decisión de gestión y diseño. Estos gerentes e ingenieros deberían ser responsables de las consecuencias de construir e implementar sistemas que no pueden controlar. Asimismo, tal vez sea hora de abandonar la idea de que los datos no son más que escombros efímeros. Los datos están firmemente en el corazón de la IA actual, y a la industria le gustaría que los consumidores y los responsables políticos ignoraran las cuestiones espinosas que los rodean. El capital de riesgo y las grandes empresas tecnológicas se benefician cuando el resto de nosotros subestimamos nuestros datos. Pero nuestros datos, en conjunto, son inmensamente valiosos. Tiene valor bajo la rúbrica habitual de economía, pero también en nuestras esferas sociales. Los datos son la marca de nuestras vidas vividas en línea. Puede ser evidencia de expresión creativa o trauma. Si tenemos alguna esperanza de construir sistemas de IA éticos, debemos pensar detenidamente en las formas en que seleccionamos y aprovechamos estos conjuntos de datos. Una IA responsable exige más que la enorme extracción de nuestra información. Requiere enfoques reflexivos y toma de decisiones sobre los archivos que dan forma a sus resultados. Exige que nos preguntemos a quién sirven estos datos y a quién perjudican. Eso requerirá una participación mucho mayor de expertos interdisciplinarios, lo que incluye comunidades que lidian con las consecuencias del análisis de datos automatizado. Una industria que se enorgullece de su innovación creativa debería poder lidiar con las restricciones a los contenidos tóxicos, ilegales y violatorios. Debería apuntar a construir conjuntos de datos que centren el consentimiento, el respeto e incluso la alegría. Pero sin responsabilidad y compromiso más allá del mundo tecnológico, nunca podremos ver la IA a través de ningún otro lente que no sea el que prefiere la industria. Nunca combinaría la carga que estos sistemas imponen a los titulares de derechos de autor con el trauma de los niños abusados, y cada cuestión relacionada con los datos debe abordarse de acuerdo con la respuesta particular que exige. Pero en muchos casos, los medios y la comunidad política han descuidado una participación más amplia en su escrutinio del flujo de datos. Esto distorsiona los marcos conceptuales que utilizamos para comprender y regular la IA. Los sistemas de Inteligencia Artificial comienzan con datos, y las políticas también deberían hacerlo. Los datos son una pieza vital de nuestra [infraestructura digital] (https://www.siegelendowment.org/insights/ai-as-multidimensional-infrastructure/). Como toda infraestructura, está profundamente entrelazada con nuestros mundos sociales. Con demasiada frecuencia, nuestra infraestructura tecnológica se acumula, en lugar de diseñarse. Pero vale la pena dedicar tiempo al cuidado y a las dependencias reflexivas en nuestra vida digital. De lo contrario, corremos el riesgo de construir un futuro en el que el dolor de los demás esté arraigado por la negligencia. Corremos el riesgo de construir IA como se construyó Omelas.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd