Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 3562

Incidents associés

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators

Loading...
Erreur majeure détectée dans le plus grand ensemble de données de formation de Stable Diffusion
analyticsvidhya.com · 2023

L'intégrité d'un important ensemble de données de formation d'images d'IA, LAION-5B, utilisé par des modèles d'IA influents comme Stable Diffusion, a été compromise après la découverte de milliers de liens vers du matériel d'abus sexuel sur enfants (CSAM). Cette révélation a suscité des inquiétudes quant aux ramifications potentielles d’un tel contenu infiltrant l’écosystème de l’IA.

Le dévoilement de contenus dérangeants

Les chercheurs du Stanford Internet Observatory sont ceux qui ont découvert la vérité troublante derrière l’ensemble de données LAION-5B. Ils ont révélé que l’ensemble de données contenait plus de 3 000 cas suspects de CSAM. Ce vaste ensemble de données, faisant partie intégrante de l’écosystème de l’IA, a été supprimé à la suite de la découverte choquante faite par l’équipe de Stanford.

Retrait temporaire de LAION-5B

LAION est une organisation à but non lucratif chargée de créer des outils open source pour l'apprentissage automatique. En réponse à ces découvertes, l'organisation a décidé de supprimer temporairement ses ensembles de données, notamment LAION-5B et un autre nommé LAION-400M. L'organisation a exprimé son engagement à assurer la sécurité de ses ensembles de données avant de les republier.

La méthodologie derrière la découverte

Les chercheurs de Stanford ont utilisé une combinaison de méthodes de détection perceptuelles et cryptographiques basées sur le hachage pour identifier les instances de CSAM suspectées dans l'ensemble de données LAION-5B. Leur étude a soulevé des inquiétudes concernant le grattage aveugle d’Internet à des fins de formation à l’IA. Il a en outre souligné les dangers associés à de telles pratiques.

L’effet d’entraînement sur les entreprises d’IA

De grandes entreprises d'IA générative, dont Stable Diffusion, se sont appuyées sur LAION-5B pour entraîner leurs modèles. L'article de Stanford a souligné l'influence potentielle du CSAM sur les résultats du modèle d'IA et le renforcement des images nuisibles au sein de l'ensemble de données. Les répercussions se sont étendues à d'autres modèles, comme Imagen de Google, qui a découvert un contenu inapproprié dans les ensembles de données de LAION lors d'un audit.

Notre mot

Les révélations sur l'inclusion de matériel d'abus sexuel sur des enfants dans l'ensemble de données LAION-5B soulignent la nécessité de pratiques responsables dans le développement et l'utilisation des ensembles de données de formation à l'IA. L'incident soulève des questions sur l'efficacité des mécanismes de filtrage existants et sur la responsabilité des organisations de consulter des experts pour garantir la sécurité et la légalité de leurs ensembles de données. Alors que la communauté de l’IA est aux prises avec ces défis, une réévaluation complète des processus de création d’ensembles de données est impérative pour empêcher la perpétuation par inadvertance de contenus illégaux et préjudiciables via les modèles d’IA.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd