Du matériel pédopornographique (CSAM) a été localisé dans LAION, un ensemble de données majeur utilisé pour entraîner l'IA.
L'Observatoire Internet de Stanford a révélé des milliers d'images d'abus sexuels sur des enfants dans l'ensemble de données LAION-5B, qui prend en charge de nombreux modèles d'IA différents.
Le rapport montre que des modèles d'IA tels que Stable Diffusion et Imagen de Google "ont été formés sur des milliards d'images récupérées dans l'ensemble de données LAION-5B". Cet ensemble de données aurait été créé grâce à « une exploration non guidée qui comprend une quantité importante de matériel explicite ».
Ces images ont permis aux systèmes d’IA de produire des images réalistes et explicites d’enfants imaginaires tout en transformant des images d’individus habillés en photos nues.
Des rapports précédents du Stanford Internet Observatory ont déduit que les modèles d’apprentissage automatique peuvent produire du CSAM. Cependant, les travaux supposaient que cela n'était possible qu'en combinant « deux concepts » tels que l'enfant et les actions explicites.
Malgré les tentatives de LAION pour déterminer si le contenu était sexuellement explicite ou si les données contenaient du contenu explicite pour des mineurs, les modèles ont été formés sur un large éventail de contenus inoffensifs et graphiques.
Le rapport conclut que la possession d'un ensemble de données LAION-5B implique la possession de « des milliers d'images illégales – sans compter toutes les images intimes publiées et recueillies de manière non consensuelle ».
Il n’existe aucune preuve suggérant que le CSAM influence les résultats du modèle, et la probabilité que le contenu CSAM exerce une influence est mince.
Malgré une « politique de tolérance zéro pour les contenus illégaux », une multitude d'images contenant du CSAM sont présentes dans l'ensemble de données open source LAION.
L'ensemble de données 5B de LAION a depuis été mis hors ligne, et l'organisation à but non lucratif travaille en étroite collaboration avec l'Internet Watch Foundation, une organisation caritative dédiée à la protection des enfants du monde entier en supprimant et en prévenant les contenus abusifs en ligne.