Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 3558

Incidents associés

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators

Loading...
Un ensemble de données d’images gratuites d’IA, supprimé pour les images d’abus sexuels sur des enfants, a déjà été critiqué
venturebeat.com · 2023

Un énorme ensemble de données d'IA open source, LAION-5B, qui a été utilisé pour former des générateurs de texte-image d'IA populaires tels que Stable Diffusion 1.5 et Imagen de Google, contient au moins 1 008 cas de matériel d'abus sexuel sur des enfants, [un nouveau rapport] (https://purl.stanford.edu/kh752sm9123)[ du Stanford Internet Observatory](https://cyber.fsi.stanford.edu/news/investigation-finds-ai-image-generation-models-trained-child -abus) trouvés --- et des milliers d'autres cas sont suspectés. L'Observatoire Internet de Stanford est un programme du Cyber Policy Center, une initiative conjointe de l'[Institut Freeman Spogli d'études internationales](http://fsi.stanford .edu/) et Stanford Law School.

L'ensemble de données LAION-5B, qui a été publié en mars 2022 et contient plus de 5 milliards d'images et de légendes associées provenant d'Internet, peut également inclure des milliers d'autres des morceaux de matériel suspecté d'abus sexuel sur des enfants, ou CSAM, selon le rapport. Le rapport avertit que le matériel CSAM contenu dans l’ensemble de données pourrait permettre aux produits d’IA construits sur ces données de produire de nouveaux contenus potentiellement réalistes sur la maltraitance des enfants.

En réponse, LAION a déclaré mardi à 404 Media que par "beaucoup de prudence", il prenait temporairement ses ensembles de données "pour garantir leur sécurité avant de les republier".

Les ensembles de données LAION ont déjà été critiqués

Mais ce n’est pas la première fois que les ensembles de données d’images de LAION sont critiqués. Dès octobre 2021, le scientifique cognitif Abeba Birhane, actuellement chercheur principal en IA fiable chez Mozilla, publié un article intitulé Ensembles de données multimodaux : misogynie, pornographie et stéréotypes malins, qui ont examiné LAION-400M, un ensemble de données d'images antérieur. Il a constaté que l'ensemble de données contenait « des images et des paires de textes gênants et explicites de viol, de pornographie, de stéréotypes malveillants, d'insultes racistes et ethniques et d'autres contenus extrêmement problématiques ».

En septembre 2022, il y a eu le cas d'un [artiste découvrant des photos de dossiers médicaux privés](https://arstechnica.com/information-technology/2022/09/artist-finds-private-medical-record-photos-in-popular -ai-training-data-set/) prise par son médecin en 2013 et référencée dans l'ensemble de données d'images LAION-5B. L'artiste Lapine a découvert les photos sur [Have I Been Trained](https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool -lets-you-check/), qui permet aux utilisateurs de rechercher leur travail dans des ensembles de données de formation à l'IA populaires.

Et un recours collectif, Andersen et al. c. Stability AI LTD et al., a été intentée par les artistes visuelles Sarah Andersen, Kelly McKernan et Karla Ortiz contre Stability AI, Midjourney et DeviantArt en janvier 2023. Bien que LAION n'ait pas été poursuivi, il a été nommé dans le procès, qui disait que « Stability aurait « téléchargé des copies autrement acquises de milliards d'œuvres protégées par le droit d'auteur ». images sans autorisation pour créer une diffusion stable », appelées « images d'entraînement ». Plus de cinq milliards d'images ont été récupérées (et donc copiées) sur Internet à des fins de formation pour la diffusion stable via les services d'une organisation (LAION, Large-Scale Artificial Intelligence Open Network) payée par Stability.

Ortiz, un artiste primé qui a travaillé pour Industrial Light & Magic (ILM), Marvel Film Studios, Universal Studios et HBO,  a pris la parole lors d'un panel virtuel de la FTC en octobre et a discuté de la Ensemble de données LAION-5B.

"LAION-5B est un ensemble de données contenant 5,8 milliards de paires de textes et d'images, qui... incluent l'intégralité de mon travail et celui de presque toutes les personnes que je connais", a-t-elle déclaré. "Au-delà de la propriété intellectuelle, des ensembles de données comme LAION-5B contiennent également des éléments profondément préoccupants tels que des dossiers médicaux privés, de la pornographie non consensuelle, des images d'enfants, voire des photos de nos vrais visages sur les réseaux sociaux."

Andrew Ng, pionnier de l'IA, a critiqué la suppression de l'accès à LAION


Comme VentureBeat rapporté en septembre, Andrew Ng, ancien co-fondateur et directeur de Google Brain, n'a pas caché que les dernières avancées en matière d'apprentissage automatique reposaient sur le libre accès à de grandes quantités de données, dont une grande partie était extraite de l'Internet ouvert.

Dans un numéro de sa newsletter DeepLearning.ai, The Batch, intitulé « [Il est temps de mettre à jour les droits d'auteur pour l'IA générative](https://www.deeplearning.ai/the-batch/time-to-update-copyright-for- generative-ai/), il a écrit que le manque d'accès à des ensembles de données populaires tels que  [Common Crawl](https://info.deeplearning.ai/e3t/Ctc/LX+113/cJhC404/MVmLY3K1CLmW2S3Xqg2Hf-W4W72Qs8N519g86KqQ33q3n5V1-WJV7CgPWpW4KfMv K2HqQXkW8FY- zt49PbszW4-jF1t7K4-4hW7ZmJzZ1DZpLBW7-bVjd19jz7RVvcM7z6hlK5-W75-Rn-5HfXlBW1B96zg3QLzKwVmzhN58nmfmZW90hRX57kwD1LW6dJtvS4LS99kW3z6zfX7 gs9yTW8X6yYT2gvfg9W6wgX-81XPrpFW89vsRS8yhmZgW31YhYq1xxVblW8ZV4tY5Nx2mvW4jV-3t2m0qdTW2cf6bw7GR3SgN7X4ZyXT2vHZ3jgf1), [La pile](https://info.deeplearning.ai/e3t /Ctc/LX+113/cJhC404/MVmLY3K1CLmW2S3Xqg2Hf-W4W72Qs8N519g86KqQm3q3npV1-WJV7CgPrlW5KbvhX4X5qK3Vk8gDG5wWNd2W776frg5hW8C- W14dHxx2-81xpW2tsvlW7M8PX2W3WbNcm955t-JW4zvv8m6QNP4yN92X7zyzfHSnVBKQBl6vyB6QW33ZKhL3Dg58bW2rwCjQ3ygL7HW35SqSl6KtFb2VWdCFs8MVW87W5w3y 6x2gsD8MW3BtTlS4ZgTdQN886Q5xd5G9fVwGBf-5C0rDGW8KNnlK4WW_BrW4jWT3k8vZJx4W7vDQFY5H8NV7W4wDvcy9jwZGdW5WRFvg11HLbw3nlP1) et [LAION](https://info.deeplearning.ai/e 3t/Ctc/LX+113/cJhC404/MVmLY3K1CLmW2S3Xqg2Hf-W4W72Qs8N519g86KqQm3q3npV1-WJV7CgLkWW34LtGc8lC301VR3Kbz1bKg_TW33wChm3hQnq2W2w_n1S4VY3Q fW5T5xb_6DjlWzW5dlprX8GTrrsV3YNGB9cNSkpW4fmVJ578zKfxW69dMGd3LgstjW7jQynl97sYk7VNq9-582TmNtW2NtCck9dKcf6W3wq2-H56GkXWW3wyls26Y-W64W2FlD0F7 dSNP1W7J8GWf6fkBZ3W6MJ90469lt52W3rPdpx8R-LcTMTrT6BxhP4KW5hVFdC1w8B81W59yY4G82b49LVVVfZF8WLjJv33Fl1) mettrait freiner le progrès ou, du moins, modifier radicalement l'économie de la recherche actuelle.

"Cela dégraderait les avantages actuels et futurs de l'IA dans des domaines tels que l'art, l'éducation, le développement de médicaments et la fabrication, pour n'en nommer que quelques-uns", a-t-il déclaré.

Et dans édition du 7 juin de The Batch, Ng a admis que la communauté de l'IA entre dans une ère dans laquelle elle sera appelée à être plus transparent dans notre collecte et notre utilisation des données. "Nous ne devrions pas considérer des ressources comme LAION pour acquises, car nous n'avons pas toujours la permission de les utiliser", a-t-il écrit.

LAION a été fondée pour créer un ensemble de données open source

Christoph Schuhmann, professeur de lycée et acteur de formation basé à Hambourg, en Allemagne, a contribué à la création de [LAION](https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B- H-14&useMclip=false), abréviation de « Large-scale AI Open Network ». Selon un [article Bloomberg d'avril 2023](https://www.bloomberg.com/news/features/2023-04-24/a-high -school-teacher-s-free-image-database-powers-ai-unicorns), Schuhmann traînait sur un serveur Discord pour les passionnés d'IA et s'est inspiré de la première itération du DALL-E d'OpenAI pour s'assurer qu'il y aurait un Ensemble de données open source pour aider à former des modèles de diffusion image-texte.

"En quelques semaines, Schuhmann et ses collègues disposaient de 3 millions de paires image-texte. Après trois mois, ils ont publié un ensemble de données contenant 400 millions de paires", indique l'article de Bloomberg. "Ce nombre dépasse désormais les 5 milliards, ce qui fait de LAION le plus grand ensemble de données gratuites d'images et de légendes."

Depuis lors, LAION à but non lucratif s'est prononcé publiquement sur des sujets liés à l'IA open source : par exemple, après une lettre ouverte en mars 2023 appelant à une « pause » dans l'IA a suscité une vive polémique débat autour des risques par rapport au battage médiatique, LAION appelé à pour accélérer la recherche et la création d’un cluster informatique international commun pour les modèles d’intelligence artificielle open source à grande échelle.

LAION a été supprimé des données visuelles des sites commerciaux


LAION a été récupéré, en partie, en utilisant des données visuelles provenant de services d'achat en ligne tels que Shopify, eBay et Amazon. Dans un article récent de l'Allen Institute for AI intitulé « What's in My Big Data ? », les chercheurs ont étudié LAION-2B-en, un sous-ensemble de LAION- 5B, soit 2,32 milliards de légendes de photos en anglais. Il a par exemple été constaté que 6 % des documents du LAION-2B-fr provenaient de Shopify.

"C'était une surprise parce que personne n'avait étudié cela auparavant", a déclaré Jesse Dodge, chercheur scientifique à l'Allen Institute pour AI, à VentureBeat en novembre. "Personne n'avait été en mesure de dire, de quelles parties d'Internet proviennent le plus d'images de texte dans cet ensemble de données ?"

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd