
Une enquête du Stanford Internet Observatory (SIO) a identifié des centaines d'images connues de matériel pédopornographique (CSAM) dans un ensemble de données ouvertes utilisé pour entraîner des modèles populaires de génération de texte en image par l'IA, tels que [Stable Diffusion](https://stability .ai/stable-diffusion).
Un rapport précédent du SIO avec le groupe en ligne à but non lucratif sur la sécurité des enfants Thorn ont découvert que les progrès rapides de l'apprentissage automatique génératif permettent de créer des images réalistes qui facilitent l'exploitation sexuelle des enfants à l'aide de modèles de génération d'images d'IA open source. Notre nouvelle enquête révèle que ces modèles sont formés directement sur le CSAM présent dans un ensemble de données publiques de milliards d'images, connu sous le nom de LAION-5B. L’ensemble de données comprenait des CSAM connus provenant d’un large éventail de sources, notamment des sites Web de médias sociaux grand public et des sites de vidéos pour adultes populaires.
La suppression du matériel source identifié est actuellement en cours alors que les chercheurs ont signalé les URL des images au Centre national pour les enfants disparus et exploités (NCMEC) aux États-Unis et au [Centre canadien pour les enfants disparus et exploités]. Centre de protection de l'enfance](https://www.protectchildren.ca/en/) (C3P). L’étude a été principalement menée à l’aide d’outils de hachage tels que PhotoDNA, qui associent l’empreinte digitale d’une image à des bases de données gérées par des organisations à but non lucratif qui reçoivent et traitent les rapports d’exploitation et d’abus sexuels sur enfants en ligne. Les chercheurs n’ont pas vu de contenu abusif et les correspondances ont été signalées au NCMEC et confirmées par le C3P lorsque cela était possible.
Il existe des méthodes pour minimiser le CSAM dans les ensembles de données utilisés pour entraîner les modèles d’IA, mais il est difficile de nettoyer ou d’arrêter la distribution d’ensembles de données ouverts sans autorité centrale hébergeant les données réelles. Le rapport présente des recommandations de sécurité pour la collecte d'ensembles de données, la formation de modèles et l'hébergement de modèles formés sur des ensembles de données récupérés. Les images collectées dans les futurs ensembles de données doivent être comparées aux listes connues de CSAM en utilisant des outils de détection tels que Microsoft's PhotoDNA ou en partenariat avec des organisations de sécurité des enfants telles que NCMEC et C3P.