Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 6813

Incidents associés

Incident 13491 Rapport
AI Training Dataset for Detecting Nudity Allegedly Found to Contain CSAM Images of Identified Victims

Loading...
Ensemble de données d'IA pour la détection d'images d'abus sexuels sur enfants contenant de la nudité
404media.co · 2025

Selon le Centre canadien de protection de l'enfance (C3P), un vaste ensemble de données d'images utilisé pour développer des outils d'IA de détection de nudité contient de nombreuses images à caractère pédopornographique.

L'ensemble de données NudeNet, qui comprend plus de 700 000 images extraites d'Internet, a servi à entraîner un classificateur d'images par IA capable de détecter automatiquement la nudité. Le C3P a constaté que plus de 250 travaux universitaires ont cité ou utilisé l'ensemble de données NudeNet depuis sa mise en ligne sur Academic Torrents, une plateforme de partage de données de recherche, en juin 2019.

« Un examen non exhaustif de 50 de ces projets universitaires a révélé que 13 d'entre eux utilisaient l'ensemble de données NudeNet et que 29 s'appuyaient sur le classificateur ou le modèle NudeNet », a indiqué le C3P dans son communiqué.

(https://protectchildren.ca/en/press-and-media/news-releases/2025/csam-nude-net?ref=404media.co) Le programme C3P a découvert plus de 120 images de victimes identifiées ou connues de pédopornographie dans l'ensemble de données, dont près de 70 images centrées sur la région génitale ou anale d'enfants prépubères ou paraissant l'être. « Dans certains cas, les images représentaient des actes sexuels ou abusifs impliquant des enfants et des adolescents, tels que des fellations ou des pénétrations vaginales », a déclaré C3P.

Les personnes et les organisations ayant téléchargé l'ensemble de données n'avaient aucun moyen de savoir qu'il contenait de la pédopornographie à moins de la rechercher activement, ce qu'elles ne faisaient probablement pas. Cependant, la présence de ces images sur leurs ordinateurs constitue un délit.

« La pédopornographie est illégale et son hébergement et sa distribution exposent les créateurs et les chercheurs à d'importantes responsabilités. Un problème éthique majeur se pose également : les victimes figurant sur ces images n'ont presque certainement pas consenti à leur distribution et à leur utilisation à des fins de formation », m'a expliqué par courriel Hany Farid, professeur à l'UC Berkeley et l'un des plus grands experts mondiaux en images manipulées numériquement. Farid a également développé PhotoDNA, un outil d'identification d'images et de filtrage de contenu largement utilisé. « Même si la fin est noble, elle ne justifie pas les moyens dans ce cas-ci. »

« De nombreux modèles d'IA utilisés pour les fonctionnalités des applications et des projets de recherche ont été entraînés sur des données collectées sans discernement ou de manière éthiquement douteuse. Ce manque de diligence raisonnable a conduit à la présence de matériel pédopornographique dans ce type d'ensembles de données, ce qui est largement évitable », a déclaré Lloyd Richardson, directeur de la technologie chez C3P.

Academic Torrents a retiré l'ensemble de données après que C3P a émis un avis de retrait à ses administrateurs.

« Dans le cadre de la gestion de la ligne d'assistance téléphonique nationale du Canada pour le signalement de l'exploitation sexuelle des enfants, nous recevons quotidiennement des informations ou des signalements du public », m'a expliqué M. Richardson par courriel. « Dans le cas de l'ensemble de données d'images NudeNet, une personne a signalé la possibilité qu'il contienne du matériel pédopornographique, ce qui nous a incités à examiner la question de plus près. »

Les conclusions de C3P rejoignent celles d'une étude menée en 2023 par le Centre de politique cybernétique de l'Université de Stanford. Cette étude avait révélé que LAION-5B, l'un des plus importants ensembles de données alimentant les images générées par l'IA, contenait également des images pédopornographiques. Suite à ce rapport, l'organisation gérant LAION-5B l'a retiré d'Internet et ne l'a partagé à nouveau qu'après avoir supprimé les images incriminées.

« Ces ensembles de données d'images, généralement non vérifiés, sont promus et diffusés en ligne auprès de centaines de chercheurs, d'entreprises et d'amateurs, parfois à des fins commerciales », m'a expliqué Richardson. À ce stade, rares sont ceux qui prennent en compte les risques de préjudice ou d'exploitation que leurs produits peuvent engendrer. Il ne faut pas oublier non plus que nombre de ces images constituent elles-mêmes des preuves de crimes d'abus sexuels sur mineurs. Dans cette course à l'innovation, les dommages collatéraux sont considérables, mais beaucoup préfèrent les ignorer. En définitive, je pense que nous avons l'obligation de développer l'intelligence artificielle de manière responsable et éthique.

Mise à jour : Cet article a été mis à jour avec les commentaires de Lloyd Richardson.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd