Report 2599

À la fin de la semaine dernière, un artiste IA basé en Californie qui s'appelle Lapine [découvert](https://twitter.com/LapineDeLaTerre/status/1570889343845404672?s=20&t =KThzGIaLvD7nV0GNxmu0UA) photos de dossiers médicaux privés prises par son médecin en 2013 référencées dans l'ensemble d'images LAION-5B, qui est une sélection d'images accessibles au public sur le la toile. Les chercheurs en IA téléchargent un sous-ensemble de ces données pour former des modèles de synthèse d'images IA tels que Stable Diffusion et Google Imagen.

Lapine a découvert ses photos médicales sur un site appelé [Have I Been Trained](https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool- laisse-vous-vérifier/), qui permet aux artistes de voir si leur travail se trouve dans l'ensemble de données LAION-5B. Au lieu de faire une recherche de texte sur le site, Lapine a téléchargé une photo récente d'elle-même en utilisant la fonction de recherche d'image inversée du site. Elle a été surprise de découvrir un ensemble de deux photos médicales avant-après de son visage, qui n'avaient été autorisées que pour un usage privé par son médecin, comme en témoigne un formulaire d'autorisation Lapine [tweeted](https://twitter.com /LapineDeLaTerre/status/1570889343845404672) et également fourni à Ars.

🚩Mon visage est dans le jeu de données #LAION. En 2013, un médecin a photographié mon visage dans le cadre de la documentation clinique. Il est décédé en 2018 et, d'une manière ou d'une autre, cette image s'est retrouvée quelque part en ligne, puis dans l'ensemble de données - l'image sur laquelle j'ai signé un formulaire de consentement pour mon médecin - et non pour un ensemble de données. pic.twitter.com/TrvjdZtyjD

— Lapine (@LapineDeLaTerre) 16 septembre 2022

Lapine a une maladie génétique appelée Dyskératose congénitale. "Cela affecte tout, de ma peau à mes os et mes dents", a déclaré Lapine à Ars Technica dans une interview. "En 2013, j'ai subi une petite série de procédures pour restaurer les contours du visage après avoir subi tant de chirurgies de la bouche et de la mâchoire. Ces photos proviennent de ma dernière série de procédures avec ce chirurgien."

Le chirurgien qui possédait les photos médicales est décédé d'un cancer en 2018, selon Lapine, et elle soupçonne qu'ils ont en quelque sorte quitté la garde de son cabinet après cela. "C'est l'équivalent numérique de la réception de biens volés", explique Lapine. "Quelqu'un a volé l'image dans les dossiers de mon médecin décédé et elle s'est retrouvée quelque part en ligne, puis elle a été intégrée à cet ensemble de données."

Lapine préfère cacher son identité pour des raisons de confidentialité médicale. Avec des enregistrements et des photos fournis par Lapine, Ars a confirmé qu'il existe des images médicales d'elle référencées dans l'ensemble de données LAION. Au cours de notre recherche des photos de Lapine, nous avons également découvert des milliers de photos de dossiers médicaux de patients similaires dans l'ensemble de données, chacune pouvant avoir un statut éthique ou juridique douteux similaire, dont beaucoup ont probablement été intégrées dans des modèles de synthèse d'images populaires que les entreprises aiment. Offre Midjourney et Stability AI en tant que service commercial.

Cela ne signifie pas que n'importe qui peut soudainement créer une version IA du visage de Lapine (dans l'état actuel de la technologie) - et son nom n'est pas lié aux photos - mais cela la dérange que des images médicales privées aient été intégrées dans un produit sans toute forme de consentement ou de recours pour les retirer. "C'est déjà assez grave d'avoir une photo divulguée, mais maintenant ça fait partie d'un produit", dit Lapine. "Et cela vaut pour les photos de n'importe qui, dossier médical ou non. Et le potentiel d'abus futur est vraiment élevé."

Qui surveille les observateurs ?

LAION se décrit comme une organisation à but non lucratif comptant des membres dans le monde entier, "visant à mettre à la disposition du grand public des modèles d'apprentissage automatique à grande échelle, des ensembles de données et le code associé". Ses données peuvent être utilisées dans divers projets, de la reconnaissance faciale à la vision par ordinateur en passant par la synthèse d'images.

Par exemple, après un processus de formation à l'IA, certaines des images de l'ensemble de données LAION deviennent la base de la [capacité étonnante] de Stable Diffusion (https://arstechnica.com/information-technology/2022/09/with-stable-diffusion -you-may-never-believe-what-you-see-online-again/) pour générer des images à partir de descriptions textuelles. Étant donné que LAION est un ensemble d'URL pointant vers des images sur le Web, LAION n'héberge pas les images elles-mêmes. Au lieu de cela, LAION dit que les chercheurs doivent télécharger les images à partir de divers endroits lorsqu'ils veulent les utiliser dans un projet.

Dans ces conditions, la responsabilité de l'inclusion d'une image particulière dans l'ensemble LAION devient alors un jeu fantaisiste de redistribution. Une amie de Lapine a posé une question ouverte sur la chaîne #safety-and-privacy du serveur Discord de LAION vendredi dernier demandant comment supprimer ses images du plateau. L'ingénieur du LAION, Romain Beaumont, a répondu : "La meilleure façon de supprimer une image d'Internet est de demander au site Web qui l'héberge de cesser de l'héberger", a écrit Beaumont. "Nous n'hébergeons aucune de ces images."

Aux États-Unis, le grattage de données accessibles au public sur Internet semble être légal, à la suite d'une affaire judiciaire de 2019 affirmer. Est-ce surtout la faute du médecin décédé, alors ? Ou le site qui héberge les images illicites de Lapine sur le web ?

Ars a contacté LAION pour commenter ces questions mais n'a pas reçu de réponse avant l'heure de presse. Le site Web de LAION fournit un formulaire où les citoyens européens peuvent demander des informations supprimées de leur base de données pour se conformer aux lois GDPR de l'UE, mais uniquement si une photo d'une personne est associée à un nom dans les métadonnées de l'image. Grâce à des services tels que PimEyes, il est cependant devenu trivial d'associer le visage de quelqu'un à des noms par d'autres moyens.

En fin de compte, Lapine comprend comment la chaîne de possession de ses images privées a échoué, mais aimerait toujours voir ses images supprimées de l'ensemble de données LAION. "J'aimerais avoir un moyen pour quiconque de demander que son image soit supprimée de l'ensemble de données sans sacrifier ses informations personnelles. Ce n'est pas parce qu'ils l'ont récupérée sur le Web qu'elle était censée être une information publique, ou même sur le Internet du tout."

Sur le LAION Discord, lorsqu'on lui a demandé s'il existait un moyen de se connecter à Stability AI et de supprimer les images de leur copie de l'ensemble de données, Beaumont a répondu : « Si vous souhaitez demander aux gens de ne pas utiliser certaines URL du Web, une façon est de créer une telle liste et de la diffuser... alors les formateurs de Stable Diffusion ou d'autres formateurs pourraient décider de mettre ces échantillons sur liste noire."

Ars Technica a interrogé le PDG de Stability AI, Emad Mostaque, sur le cas de Lapine. Dans le passé, Mostaque a affirmé que l'approche ouverte de son entreprise et de LAION était plus éthique que celle d'entreprises à modèle fermé comme OpenAI qui ne publient pas d'informations publiques. liste de leurs sources de données. Mostaque a déclaré qu'il ne pouvait pas parler au nom de LAION, mais il a souligné un [article récent de la revue MIT Technology](https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3- know-about-me/amp/) sur les problèmes de confidentialité liés au modèle de langage GPT-3. "C'est une analogie intéressante, car nous n'avons aucune idée de ce que sont ces ensembles de données. Beaucoup de gens que je connais ont trouvé des données confidentielles en sortie."

Lorsque nous avons demandé s'il était possible de "désentraîner" Stable Diffusion pour supprimer certaines images de son modèle de génération d'images AI, la réponse de Mostaque a suggéré que c'était possible, mais il dit que la technologie Stable Diffusion actuelle ne crache pas de copies exactes des données qu'il apprend de. "Vous pouvez déjà le faire en ajustant de manière similaire à un poids négatif", dit-il, décrivant un moyen de désaccentuer les données apprises dans le fichier de poids de diffusion stable, qui est la somme de ce qu'un modèle d'IA a appris. "Ce n'est pas comme une base de données ou même GPT-3 dans le rappel et la mémorisation." Cependant, il n'a fourni aucun plan pour supprimer la connaissance d'images particulières en réponse aux demandes de personnes comme Lapine.

La découverte de Lapine intervient alors que la communauté des artistes [se débat](https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool-lets-you- check/) un problème connexe concernant les modèles d'image AI utilisant leur travail pour la formation sans leur consentement. Lapine a rassemblé un public sur Twitter pour créer de l'art alimenté par l'IA. Cela change-t-il ce qu'elle ressent à ce sujet ? "Oui. Je me méfie beaucoup de générer des images photoréalistes de personnes", a-t-elle répondu. "Je m'en tiens aux sujets animaliers, aux statues et à l'art qui correspond à un style ou à une période plutôt qu'à un artiste spécifique." Mais l'expérience l'a quelque peu effrayée. "Je n'ai pas touché à l'art de l'IA depuis que j'ai trouvé ma photo post-opératoire dans l'ensemble de données LAION."

Il devient de plus en plus évident de jour en jour que ces outils créatifs alimentés par l'IA représentent probablement une avancée technologique inévitable qui peut pousser la productivité à de nouveaux niveaux. Mais en tant que société, nous avons encore des questions difficiles à nous poser. Est-il éthique de s'attendre à ce que les personnes qui ont téléchargé une image sur Internet il y a dix ans - ou qui l'ont fait télécharger illégalement pour eux - acceptent que leurs données soient désormais utilisées pour former l'avenir de l'IA sans recours ? Et cela importera-t-il jamais si la réponse est non?

Problème 2599

Incidents associés

Incident 4651 Rapport
Generative Models Reportedly Trained on Dataset Containing Private Medical Photos

Un artiste trouve des photos de dossiers médicaux privés dans un ensemble de données de formation d'IA populaire

Qui surveille les observateurs ?

Problème 2599

Incidents associés

Incident 4651 RapportGenerative Models Reportedly Trained on Dataset Containing Private Medical Photos

Un artiste trouve des photos de dossiers médicaux privés dans un ensemble de données de formation d'IA populaire

Qui surveille les observateurs ?

Incident 4651 Rapport
Generative Models Reportedly Trained on Dataset Containing Private Medical Photos