Report 3563

Des chercheurs de l'Observatoire Internet de Stanford affirment qu'un ensemble de données utilisé pour former les outils de génération d'images d'IA contient au moins 1 008 cas validés de matériel d'abus sexuel sur des enfants. Les chercheurs de Stanford notent que la présence de CSAM dans l’ensemble de données pourrait permettre aux modèles d’IA formés sur les données de générer de nouvelles instances de CSAM, même réalistes.

LAION, l'organisation à but non lucratif qui a créé l'ensemble de données, a déclaré 404 Media qu'il "a un zéro politique de tolérance pour les contenus illégaux et avec beaucoup de prudence, nous supprimons temporairement les ensembles de données LAION pour garantir leur sécurité avant de les republier. L’organisation a ajouté qu’avant de publier ses ensembles de données, elle avait créé des filtres pour détecter et supprimer le contenu illégal. Cependant, *404 * souligne que les dirigeants de LAION sont conscients depuis au moins 2021 de la possibilité que leurs systèmes détectent du CSAM alors qu'ils aspirent des milliards d'images sur Internet.

[Selon les rapports précédents](https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns?leadSource =uverify%20wall&sref=10lNAhZ9), l'ensemble de données LAION-5B en question contient « des millions d'images de pornographie, de violence, de nudité d'enfants, de mèmes racistes, de symboles de haine, d'art protégé par le droit d'auteur et d'œuvres récupérées sur les sites Web d'entreprises privées ». Au total, il comprend plus de 5 milliards d'images et les légendes descriptives associées (l'ensemble de données lui-même n'inclut aucune image mais plutôt des liens vers des images récupérées et du texte alternatif). Le fondateur de LAION, Christoph Schuhmann, a déclaré plus tôt cette année que même s'il n'était au courant d'aucun CSAM dans l'ensemble de données, il n'avait pas examiné les données de manière approfondie.

Il est illégal pour la plupart des institutions aux États-Unis de consulter des CSAM à des fins de vérification. Ainsi, les chercheurs de Stanford ont utilisé plusieurs techniques pour rechercher du CSAM potentiel. Selon leur article, ils ont utilisé « la détection perceptuelle basée sur le hachage, la détection cryptographique basée sur le hachage et analyse des voisins les plus proches exploitant les intégrations d'images dans l'ensemble de données lui-même. Ils ont trouvé 3 226 entrées contenant du CSAM suspecté. Bon nombre de ces images ont été confirmées comme étant CSAM par des tiers tels que PhotoDNA et le Centre canadien de protection de l'enfance.

Emad Mostaque, fondateur de Stability AI, a formé Stable Diffusion à l'aide d'un sous-ensemble de données LAION-5B. La première version de recherche du modèle texte-image Imagen de Google a été formée sur LAION -400M, mais cela n'a jamais été publié ; Google indique qu'aucune des itérations suivantes d'Imagen n'utilise d'ensembles de données LAION. Un porte-parole de Stability AI a déclaré [Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child-abuse-images - les chercheurs constatent) qu'il interdit l'utilisation de ses systèmes de test d'image à des fins illégales, telles que la création ou la modification de CSAM. "Ce rapport se concentre sur l'ensemble de données LAION-5B dans son ensemble", a déclaré le porte-parole. "Les modèles d'IA de stabilité ont été formés sur un sous-ensemble filtré de cet ensemble de données. De plus, nous avons affiné ces modèles pour atténuer les comportements résiduels."

Stable Diffusion 2 (une version plus récente de l'outil de génération d'images de Stability AI) a été formé sur des données qui filtraient considérablement les matériaux « dangereux » de l'ensemble de données. Cela, note *Bloomberg *, rend plus difficile pour les utilisateurs de générer des images explicites. Cependant, on prétend que Stable Diffusion 1.5, toujours disponible sur Internet, ne dispose pas des mêmes protections. "Les modèles basés sur Stable Diffusion 1.5 auxquels aucune mesure de sécurité n'a été appliquée devraient être obsolètes et la distribution doit être interrompue lorsque cela est possible", ont écrit les auteurs de l'article de Stanford.

Correction, 16h30 HE : Cet article indiquait à l'origine que l'outil Imagen de Google utilisait un sous-ensemble de données LAION-5B. L'histoire a été mise à jour pour noter qu'Imagen a utilisé LAION-400M dans sa première version de recherche, mais n'a utilisé aucune donnée LAION depuis lors. Nous nous excusons pour l'erreur.

Problème 3563

Incidents associés

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators

Les chercheurs ont trouvé du matériel pédopornographique dans le plus grand ensemble de données de génération d’images d’IA

Problème 3563

Incidents associés

Incident 62418 RapportsChild Sexual Abuse Material Taints Image Generators

Les chercheurs ont trouvé du matériel pédopornographique dans le plus grand ensemble de données de génération d’images d’IA

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators