Report 2599

A fines de la semana pasada, un artista de inteligencia artificial con sede en California, que se hace llamar Lapine [descubrió](https://twitter.com/LapineDeLaTerre/status/1570889343845404672?s=20&t =KThzGIaLvD7nV0GNxmu0UA) fotografías de registros médicos privados tomadas por su médico en 2013 a las que se hace referencia en el conjunto de imágenes LAION-5B, que es un fragmento de imágenes disponibles públicamente en la web. Los investigadores de IA descargan un subconjunto de esos datos para entrenar modelos de síntesis de imágenes de IA como Stable Diffusion y Google Imagen.

Lapine descubrió sus fotos médicas en un sitio llamado [Have I Been Trained](https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool- lets-you-check/), que permite a los artistas ver si su trabajo está en el conjunto de datos LAION-5B. En lugar de realizar una búsqueda de texto en el sitio, Lapine subió una foto reciente de sí misma utilizando la función de búsqueda inversa de imágenes del sitio. Se sorprendió al descubrir un conjunto de dos fotos médicas de su rostro de antes y después, que solo habían sido autorizadas para uso privado por su médico, como se refleja en un formulario de autorización que Lapine [twitteó] (https://twitter.com /LapineDeLaTerre/status/1570889343845404672) y también proporcionado a Ars.

🚩Mi rostro está en el conjunto de datos #LAION. En 2013 un médico fotografió mi rostro como parte de la documentación clínica. Murió en 2018 y de alguna manera esa imagen terminó en algún lugar en línea y luego terminó en el conjunto de datos, la imagen en la que firmé un formulario de consentimiento para mi médico, no para un conjunto de datos. pic.twitter.com/TrvjdZtyjD

— Lapine (@LapineDeLaTerre) 16 de septiembre de 2022

Lapine tiene una condición genética llamada Disqueratosis Congénita. "Afecta todo, desde mi piel hasta mis huesos y dientes", dijo Lapine a Ars Technica en una entrevista. "En 2013, me sometí a una pequeña serie de procedimientos para restaurar los contornos faciales después de haber pasado por tantas rondas de cirugías de boca y mandíbula. Estas imágenes son de mi última serie de procedimientos con este cirujano".

El cirujano que poseía las fotos médicas murió de cáncer en 2018, según Lapine, y ella sospecha que de alguna manera dejaron la custodia de su consultorio después de eso. "Es el equivalente digital de recibir propiedad robada", dice Lapine. "Alguien robó la imagen de los archivos de mi médico fallecido y terminó en algún lugar en línea, y luego se raspó en este conjunto de datos".

Lapine prefiere ocultar su identidad por razones de privacidad médica. Con registros y fotos proporcionados por Lapine, Ars confirmó que hay imágenes médicas de ella a las que se hace referencia en el conjunto de datos de LAION. Durante nuestra búsqueda de las fotos de Lapine, también descubrimos miles de fotos similares de registros médicos de pacientes en el conjunto de datos, cada una de las cuales puede tener un estado ético o legal cuestionable similar, muchas de las cuales probablemente se hayan integrado en modelos populares de síntesis de imágenes que les gustan a las empresas. Midjourney y Stability AI se ofrecen como un servicio comercial.

Esto no significa que cualquiera pueda crear repentinamente una versión de IA de la cara de Lapine (tal como está la tecnología en este momento), y su nombre no está vinculado a las fotos, pero le molesta que las imágenes médicas privadas se hayan convertido en un producto sin cualquier forma de consentimiento o recurso para eliminarlos. "Ya es bastante malo que se filtre una foto, pero ahora es parte de un producto", dice Lapine. "Y esto se aplica a las fotos de cualquier persona, con o sin registro médico. Y el potencial de abuso futuro es realmente alto".

¿Quién vigila a los vigilantes?

LAION se describe a sí misma como una organización sin fines de lucro con miembros en todo el mundo, "con el objetivo de poner a disposición del público en general modelos de aprendizaje automático, conjuntos de datos y código relacionado a gran escala". Sus datos se pueden utilizar en varios proyectos, desde el reconocimiento facial hasta la visión artificial y la síntesis de imágenes.

Por ejemplo, después de un proceso de entrenamiento de IA, algunas de las imágenes en el conjunto de datos LAION se convierten en la base de la [increíble capacidad] de Stable Diffusion (https://arstechnica.com/information-technology/2022/09/with-stable-diffusion -you-may-never-believe-what-you-see-online-again/) para generar imágenes a partir de descripciones de texto. Dado que LAION es un conjunto de URL que apunta a imágenes en la web, LAION no aloja las imágenes en sí. En cambio, LAION dice que los investigadores deben descargar las imágenes de varios lugares cuando quieran usarlas en un proyecto.

Bajo estas condiciones, la responsabilidad de la inclusión de una imagen en particular en el conjunto de LAION se convierte en un elegante juego de pasar la pelota. Un amigo de Lapine planteó una pregunta abierta en el canal #safety-and-privacy del servidor Discord de LAION el viernes pasado preguntando cómo eliminar sus imágenes del set. El ingeniero de LAION, Romain Beaumont, respondió: "La mejor manera de eliminar una imagen de Internet es pedirle al sitio web de alojamiento que deje de alojarla", escribió Beaumont. "No estamos alojando ninguna de estas imágenes".

En los EE. UU., extraer datos disponibles públicamente de Internet [parece ser legal] (https://medium.com/@tjwaterman99/web-scraping-is-now-legal-6bf0e5730a78), como resultado de un caso judicial de 2019 afirmar. Entonces, ¿es principalmente culpa del médico fallecido? ¿O el sitio que alberga las imágenes ilícitas de Lapine en la web?

Ars se puso en contacto con LAION para comentar sobre estas preguntas, pero no recibió una respuesta al cierre de esta edición. El sitio web de LAION proporciona [un formulario] (https://laion.ai/gdpr/) en el que los ciudadanos europeos pueden solicitar que se elimine información de su base de datos para cumplir con las leyes del RGPD de la UE, pero solo si una foto de una persona está asociada con un nombre en los metadatos de la imagen. Sin embargo, gracias a servicios como PimEyes, se ha vuelto trivial asociar la cara de alguien con nombres a través de otros medios.

En última instancia, Lapine entiende cómo falló la cadena de custodia de sus imágenes privadas, pero aún así le gustaría que sus imágenes fueran eliminadas del conjunto de datos de LAION. "Me gustaría tener una forma para que cualquier persona solicite que se elimine su imagen del conjunto de datos sin sacrificar la información personal. El hecho de que la hayan extraído de la web no significa que se suponga que sea información pública, o incluso en el web en absoluto".

En LAION Discord, cuando se le preguntó si había una manera de conectarse con Stability AI y eliminar las imágenes de su copia del conjunto de datos, Beaumont respondió: "Si desea pedirle a la gente que no use algunas URL de la web, una forma es crear una lista de este tipo y distribuirla... entonces los entrenadores de Stable Diffusion u otros entrenadores podrían decidir incluir estas muestras en la lista negra".

Ars Technica le preguntó al CEO de Stability AI, Emad Mostaque, sobre el caso de Lapine. En el pasado, Mostaque ha afirmado que el enfoque abierto de su empresa y LAION es más ético que el de las empresas de modelo cerrado como OpenAI que no hacen público lista de sus fuentes de datos. Mostaque dijo que no podía hablar por LAION, pero señaló un [artículo reciente de revisión de MIT Technology] (https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3- know-about-me/amp/) sobre problemas de privacidad relacionados con el modelo de lenguaje GPT-3. "Es una analogía interesante, ya que no tenemos idea de cuáles son esos conjuntos de datos. Mucha gente que conozco ha encontrado datos confidenciales en la salida".

Cuando preguntamos si es posible "desentrenar" Stable Diffusion para eliminar ciertas imágenes de su modelo de generación de imágenes de IA, la respuesta de Mostaque sugirió que es posible, pero dice que la tecnología Stable Diffusion actual no escupe copias exactas de los datos que aprende de "Ya puede hacer eso en un ajuste fino similar a hacer un peso negativo", dice, describiendo una forma de restar importancia a los datos aprendidos en el archivo de pesos de difusión estable, que es la suma de lo que ha aprendido un modelo de IA. "Sin embargo, no es como una base de datos o incluso GPT-3 en recuperación y memorización". Sin embargo, no proporcionó ningún plan para eliminar el conocimiento de imágenes particulares en respuesta a solicitudes de personas como Lapine.

El descubrimiento de Lapine se produce cuando la comunidad de artistas [lidia con](https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool-lets-you- check/) un tema relacionado sobre modelos de imágenes de IA que usan su trabajo para entrenamiento sin su consentimiento. Lapine ha reunido seguidores en Twitter para crear arte impulsado por IA. ¿Esto cambia cómo se siente al respecto? "Sí. Soy muy cautelosa a la hora de generar imágenes fotorrealistas de personas", respondió ella. "Me atengo a temas de animales, estatuas y arte que se ajusta a un estilo o período en lugar de un artista específico". Pero la experiencia la ha asustado un poco. "No he tocado el arte de la IA desde que encontré mi foto postoperatoria en el conjunto de datos de LAION".

Cada día es más evidente que estas herramientas creativas impulsadas por IA probablemente representen un avance tecnológico inevitable que puede llevar la productividad a nuevos niveles. Pero como sociedad, todavía tenemos preguntas difíciles que hacernos. ¿Es ético esperar que las personas que subieron una imagen a Internet hace una década, o que la subieron ilegalmente para ellos, acepten que sus datos ahora se están utilizando para entrenar el futuro de la IA sin recurso? ¿Y alguna vez importará si la respuesta es no?

Problema 2599

Incidentes Asociados

Incidente 4651 Reporte
Generative Models Reportedly Trained on Dataset Containing Private Medical Photos

Artista encuentra fotos de registros médicos privados en un popular conjunto de datos de entrenamiento de IA

¿Quién vigila a los vigilantes?

Problema 2599

Incidentes Asociados

Incidente 4651 ReporteGenerative Models Reportedly Trained on Dataset Containing Private Medical Photos

Artista encuentra fotos de registros médicos privados en un popular conjunto de datos de entrenamiento de IA

¿Quién vigila a los vigilantes?

Incidente 4651 Reporte
Generative Models Reportedly Trained on Dataset Containing Private Medical Photos