Un ensemble de données de formation populaire pour la génération d'images d'IA contenait des liens vers des images de maltraitance d'enfants, [Observatoire Internet de Stanford trouvé](https://cyber.fsi.stanford.edu/news/investigation-finds-ai-image-generation-models-trained- la maltraitance des enfants), permettant potentiellement aux modèles d’IA de créer du contenu préjudiciable.
LAION-5B, un ensemble de données utilisé par le créateur de Stable Diffusion, Stability AI, comprenait au moins 1 679 images illégales extraites de publications sur les réseaux sociaux et de sites Web populaires pour adultes.
Les chercheurs ont commencé à parcourir l’ensemble de données LAION en septembre 2023 pour déterminer la quantité, le cas échéant, de matériel pédophile (CSAM) présent. Ils ont parcouru les hachages ou les identifiants de l’image. Ceux-ci ont été envoyés à des plateformes de détection CSAM comme PhotoDNA et vérifiés par le Centre canadien de protection de l'enfance.
L'ensemble de données ne conserve pas de référentiels d'images, selon le site Web LAION. Il indexe Internet et contient des liens vers des images et du texte alternatif qu’il récupère. La version initiale de Google de l'outil d'IA de synthèse texte-image Imagen, publiée uniquement à des fins de recherche, s'est entraînée sur une variante différente des ensembles de données de LAION appelée LAION-400M, une ancienne version de 5B. La société a déclaré que les itérations ultérieures n’utilisaient pas les ensembles de données LAION. Le rapport de Stanford indique que les développeurs d’Imagen ont découvert que 400 millions incluaient « un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et des stéréotypes sociaux préjudiciables ».
LAION, l'organisation à but non lucratif qui gère l'ensemble de données, [a déclaré à Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child- abuse-images-researchers-find?sref=ExbtjcSG), il applique une politique de « tolérance zéro » pour les contenus préjudiciables et supprimerait temporairement les ensembles de données en ligne. Stability AI a déclaré à la publication qu'elle avait des lignes directrices contre l'utilisation abusive de ses plateformes. La société a déclaré que tout en entraînant ses modèles avec LAION-5B, elle s'est concentrée sur une partie de l'ensemble de données et l'a peaufiné pour des raisons de sécurité.
Les chercheurs de Stanford ont déclaré que la présence de CSAM n’influence pas nécessairement la sortie des modèles formés sur l’ensemble de données. Pourtant, il est toujours possible que le modèle ait appris quelque chose des images.
« La présence de cas identiques et répétés de CSAM est également problématique, notamment en raison du renforcement des images de victimes spécifiques », indique le rapport.
Les chercheurs ont reconnu qu’il serait difficile de supprimer complètement le contenu problématique, en particulier des modèles d’IA formés dessus. Ils ont recommandé que les modèles formés sur LAION-5B, tels que Stable Diffusion 1.5, « soient obsolètes et que la distribution cesse lorsque cela est possible ». Google a publié une nouvelle version d'Imagen mais n'a pas rendu public l'ensemble de données sur lequel il s'est entraîné, mis à part le fait de ne pas utiliser LAION.
Les procureurs généraux américains ont appelé le Congrès à créer un comité chargé d'enquêter sur les l’impact de l’IA sur l’exploitation des enfants et interdire la création de contenus pédopornographiques générés par l’IA.
Correction, 20 décembre à 14 h 42 HE : Mise à jour pour clarifier la première version d'Imagen de Google formée sur LAION-400M et non sur LAION-5B, et inclut plus d'informations sur LAION-400M à partir du rapport de Stanford. Nous regrettons l'erreur.