Un ensemble de données d'intelligence artificielle largement utilisé pour former Stable Diffusion, Imagen et d'autres modèles de générateurs d'images d'IA a été supprimé par son créateur après qu'une étude a révélé qu'il contenait des milliers d'exemples de matériel présumé d'abus sexuel sur des enfants.
LAION --- également connu sous le nom de Réseau ouvert d'intelligence artificielle à grande échelle, est une organisation allemande à but non lucratif qui crée des modèles d'intelligence artificielle open source et des ensembles de données utilisés pour entraîner plusieurs modèles texte-image populaires.
Un rapport du 20 décembre rédigé par des chercheurs du Cyber Policy Center de l'Observatoire Internet de Stanford indique qu'ils ont identifié 3 226 cas présumés de CSAM --- ou de matériel d'abus sexuel sur des enfants --- dans l'ensemble de données LAION-5B, "dont une grande partie a été confirmée comme CSAM". par des tiers", selon David Thiel, architecte Big Data et technologue en chef du Stanford Cyber Policy Center.
Thiel a noté que même si la présence du CSAM ne signifie pas nécessairement qu'il influencera « considérablement » la sortie des modèles formés sur l'ensemble de données, cela pourrait quand même avoir un certain effet.
"Bien que la quantité de CSAM présente n'indique pas nécessairement que la présence de CSAM influence considérablement le résultat du modèle au-delà de la capacité du modèle à combiner les concepts d'activité sexuelle et d'enfants, elle exerce probablement toujours une influence", a déclaré Thiel.
« La présence de cas répétés et identiques de CSAM est également problématique, notamment en raison du renforcement des images de victimes spécifiques », a-t-il ajouté.
L'ensemble de données LAION-5B a été publié en mars 2022 et comprend 5,85 milliards de paires image-texte, selon LAION.
Dans un communiqué, LAION a déclaré avoir [supprimé](https://www.theguardian.com/technology/2023/dec/20/ai-image-generators-child-sexual-abuse#:~:text=LAION%2C %20qui%20représente%20pour%20the,sont%20sûrs%20avant%20de%20republier%20les%E2%80%9D.) les ensembles de données par "une grande prudence", y compris à la fois LAION-5B et son LAION-400M, " pour garantir leur sécurité avant de les republier.