
Un ensemble de données d'apprentissage automatique influent, qui a été utilisé pour former de nombreuses applications populaires de génération d'images, comprend des milliers d'images suspectées d'abus sexuels sur des enfants, révèle un nouveau rapport universitaire.
Le rapport, rédigé par l'Observatoire Internet de l'Université de Stanford, indique que LAION-5B, une tranche massive de médias visuels, comprend un nombre important de images d'abus illégaux.
LAION-5B est géré par l'organisation à but non lucratif LAION (abréviation de Large-scale Artificial Intelligence Open Network) et n'est pas réellement une collection d'images stockée, mais plutôt une liste de liens vers des images qui ont été indexées par l'organisation. Les liens incluent des métadonnées pour chaque image, ce qui aide les modèles d'apprentissage automatique à trouver des images sur lesquelles s'appuyer pour la formation.
Pour passer au crible cette vaste tranche de données, les chercheurs ont utilisé PhotoDNA, un outil de filtrage de contenu exclusif développé par Microsoft pour aider les organisations à identifier et signaler certains types de contenu interdit. , y compris CSAM. Au cours de leur navigation dans l’ensemble de données de LAION, les chercheurs affirment que PhotoDNA a trouvé quelque 3 226 cas de matériel suspecté d’abus sur des enfants. En consultant des organisations extérieures, les chercheurs ont pu déterminer que bon nombre de ces images étaient des cas confirmés de CSAM. Bien que l’ensemble de données en question implique des milliards d’images, l’existence d’une quelconque quantité de contenu abusif dans son contenu devrait être troublante.
Mardi, après avoir reçu une copie sous embargo du rapport de Stanford, LAION a mis l'ensemble de données hors ligne et a publié une déclaration pour répondre à la controverse. On y lit, en partie :
LAION a une politique de tolérance zéro pour les contenus illégaux. Nous travaillons avec des organisations comme IWF et d'autres pour surveiller et valider en permanence les liens dans les ensembles de données LAION accessibles au public. Les ensembles de données sont également validés grâce à des outils de filtrage intensifs développés par notre communauté et nos organisations partenaires pour garantir qu'ils sont sûrs et conformes à la loi.
...Avec beaucoup de prudence, nous avons mis LAION 5B hors ligne et travaillons rapidement avec l'IWF et d'autres pour trouver et supprimer les liens qui peuvent encore pointer vers du contenu suspect et potentiellement illégal sur le Web public.
LAION-5B a été utilisé pour former de nombreuses applications d'IA, [y compris la populaire application de génération d'images Stable Diffusion](https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam -google-stability-stanford) créé par Stability AI. Gizmodo a contacté Stability AI pour commentaires et mettra à jour cette histoire s'il répond.