Report 6813

Selon le Centre canadien de protection de l'enfance (C3P), un vaste ensemble de données d'images utilisé pour développer des outils d'IA de détection de nudité contient de nombreuses images à caractère pédopornographique.

L'ensemble de données NudeNet, qui comprend plus de 700 000 images extraites d'Internet, a servi à entraîner un classificateur d'images par IA capable de détecter automatiquement la nudité. Le C3P a constaté que plus de 250 travaux universitaires ont cité ou utilisé l'ensemble de données NudeNet depuis sa mise en ligne sur Academic Torrents, une plateforme de partage de données de recherche, en juin 2019.

« Un examen non exhaustif de 50 de ces projets universitaires a révélé que 13 d'entre eux utilisaient l'ensemble de données NudeNet et que 29 s'appuyaient sur le classificateur ou le modèle NudeNet », a indiqué le C3P dans son communiqué.

(https://protectchildren.ca/en/press-and-media/news-releases/2025/csam-nude-net?ref=404media.co) Le programme C3P a découvert plus de 120 images de victimes identifiées ou connues de pédopornographie dans l'ensemble de données, dont près de 70 images centrées sur la région génitale ou anale d'enfants prépubères ou paraissant l'être. « Dans certains cas, les images représentaient des actes sexuels ou abusifs impliquant des enfants et des adolescents, tels que des fellations ou des pénétrations vaginales », a déclaré C3P.

Les personnes et les organisations ayant téléchargé l'ensemble de données n'avaient aucun moyen de savoir qu'il contenait de la pédopornographie à moins de la rechercher activement, ce qu'elles ne faisaient probablement pas. Cependant, la présence de ces images sur leurs ordinateurs constitue un délit.

« La pédopornographie est illégale et son hébergement et sa distribution exposent les créateurs et les chercheurs à d'importantes responsabilités. Un problème éthique majeur se pose également : les victimes figurant sur ces images n'ont presque certainement pas consenti à leur distribution et à leur utilisation à des fins de formation », m'a expliqué par courriel Hany Farid, professeur à l'UC Berkeley et l'un des plus grands experts mondiaux en images manipulées numériquement. Farid a également développé PhotoDNA, un outil d'identification d'images et de filtrage de contenu largement utilisé. « Même si la fin est noble, elle ne justifie pas les moyens dans ce cas-ci. »

« De nombreux modèles d'IA utilisés pour les fonctionnalités des applications et des projets de recherche ont été entraînés sur des données collectées sans discernement ou de manière éthiquement douteuse. Ce manque de diligence raisonnable a conduit à la présence de matériel pédopornographique dans ce type d'ensembles de données, ce qui est largement évitable », a déclaré Lloyd Richardson, directeur de la technologie chez C3P.

Academic Torrents a retiré l'ensemble de données après que C3P a émis un avis de retrait à ses administrateurs.

« Dans le cadre de la gestion de la ligne d'assistance téléphonique nationale du Canada pour le signalement de l'exploitation sexuelle des enfants, nous recevons quotidiennement des informations ou des signalements du public », m'a expliqué M. Richardson par courriel. « Dans le cas de l'ensemble de données d'images NudeNet, une personne a signalé la possibilité qu'il contienne du matériel pédopornographique, ce qui nous a incités à examiner la question de plus près. »

Les conclusions de C3P rejoignent celles d'une étude menée en 2023 par le Centre de politique cybernétique de l'Université de Stanford. Cette étude avait révélé que LAION-5B, l'un des plus importants ensembles de données alimentant les images générées par l'IA, contenait également des images pédopornographiques. Suite à ce rapport, l'organisation gérant LAION-5B l'a retiré d'Internet et ne l'a partagé à nouveau qu'après avoir supprimé les images incriminées.

« Ces ensembles de données d'images, généralement non vérifiés, sont promus et diffusés en ligne auprès de centaines de chercheurs, d'entreprises et d'amateurs, parfois à des fins commerciales », m'a expliqué Richardson. À ce stade, rares sont ceux qui prennent en compte les risques de préjudice ou d'exploitation que leurs produits peuvent engendrer. Il ne faut pas oublier non plus que nombre de ces images constituent elles-mêmes des preuves de crimes d'abus sexuels sur mineurs. Dans cette course à l'innovation, les dommages collatéraux sont considérables, mais beaucoup préfèrent les ignorer. En définitive, je pense que nous avons l'obligation de développer l'intelligence artificielle de manière responsable et éthique.

Mise à jour : Cet article a été mis à jour avec les commentaires de Lloyd Richardson.

Problème 6813

Incidents associés

Incident 13491 Rapport
AI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims

Ensemble de données d'IA pour la détection d'images d'abus sexuels sur enfants contenant de la nudité

Problème 6813

Incidents associés

Incident 13491 RapportAI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims

Ensemble de données d'IA pour la détection d'images d'abus sexuels sur enfants contenant de la nudité

Incident 13491 Rapport
AI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims