Report 3559

Plus de 1 000 images d’enfants victimes d’abus sexuels ont été découvertes dans le plus grand ensemble de données utilisé pour entraîner l’IA génératrice d’images, choquant tout le monde, à l’exception de ceux qui mettent en garde contre ce genre de choses depuis des années.

L'ensemble de données a été créé par LAION, une organisation à but non lucratif à l'origine des ensembles de données d'images massifs utilisés par les systèmes d'IA générative comme Stable Diffusion. À la suite d'un rapport de chercheurs de l'Université de Stanford, [404 Media a rapporté](https://www.404media.co/laion-datasets-removed-stanford-csam- child-abuse/) que LAION a confirmé la présence de matériel pédopornographique (CSAM) dans l'ensemble de données, appelé LAION-5B, et l'a supprimé de ses canaux en ligne.

L'ensemble de données LAION-5B contient des liens vers 5 milliards d'images récupérées sur Internet.

Les chercheurs en éthique de l’IA avertissent depuis longtemps que l’échelle massive des ensembles de données de formation à l’IA rend effectivement impossible leur filtrage ou l’audit des modèles d’IA qui les utilisent. Mais les entreprises technologiques, désireuses de revendiquer leur part du marché croissant de l'IA générative, ont largement [ignoré ces préoccupations](https://www.vice.com/en/article/88xdez/generative-ai-is-a-disaster- et les entreprises ne semblent pas vraiment s'en soucier), construisant leurs différents produits sur des modèles d'IA formés à l'aide de ces ensembles de données massifs. Stable Diffusion, l'un des systèmes de génération de texte en image les plus couramment utilisés, s'appuie par exemple sur les données LAION. Et divers autres outils d'IA intègrent des parties des ensembles de données de LAION en plus d'autres sources.

Selon les chercheurs en éthique de l’IA, c’est le résultat inévitable de l’apathie.

"Pas surprenant, [pour être honnête]. Nous avons trouvé de nombreux contenus dérangeants et illégaux dans l'ensemble de données LAION qui n'ont pas été inclus dans notre article", a écrit Abeba Birhane, l'auteur principal d'un [article récent](https:// arxiv.org/abs/2311.03449) examinant les énormes ensembles de données, dans un tweet en réponse au rapport de Stanford. "L'ensemble de données LAION nous donne un [aperçu] des ensembles de données d'entreprise verrouillés dans des laboratoires d'entreprise comme ceux d'OpenAI, Meta et Google. Vous pouvez être sûr que ces ensembles de données fermés --- rarement examinés par des auditeurs indépendants --- sont bien pires que l'ensemble de données ouvert LAION."

LAION a déclaré à 404 Media qu'ils supprimaient l'ensemble de données « temporairement » afin de supprimer le contenu CSAM identifié par les chercheurs. Mais les experts en IA affirment que le mal est déjà fait.

"C'est triste mais vraiment pas surprenant", a déclaré à Carte mère Sasha Luccioni, chercheuse en IA et en éthique des données chez HuggingFace et co-auteur de l'article avec Birhane. "Presque tous les modèles de génération d'images utilisaient une version de [LAION]. Et vous ne pouvez pas supprimer des éléments qui ont déjà été entraînés dessus."

Le problème, a déclaré Luccioni, est que ces énormes quantités de données ne sont pas correctement analysées avant d'être utilisées, et l'ampleur des ensembles de données rend extrêmement difficile le filtrage des éléments indésirables. En d'autres termes, même si LAION parvient à supprimer des éléments indésirables spécifiques après leur découverte, la taille même des données signifie qu'il est pratiquement impossible de garantir que vous vous en êtes débarrassé dans son intégralité, surtout si personne ne s'en soucie suffisamment pour même essayer. avant qu'un produit soit mis sur le marché.

"Personne ne veut travailler sur des données parce que ce n'est pas sexy", a déclaré Luccioni. "Personne n'apprécie le travail sur les données. Tout le monde veut juste faire fonctionner les modèles brrr." ("Go brrr" est un mème faisant référence à une hypothétique machine à imprimer de l'argent).

Les chercheurs en éthique de l’IA mettent en garde depuis des années contre les dangers des modèles et des ensembles de données d’IA contenant des textes et des images racistes et sexistes extraits d’Internet, étude après étude démontrant comment ces préjugés aboutissent à des systèmes automatisés qui reproduisent et amplifient la discrimination dans des domaines tels que les soins de santé. , le logement et la police. L'ensemble de données LAION est un autre exemple de cette dynamique de « garbage-in, garbage-out », où des ensembles de données remplis de matériel explicite, illégal ou offensant s'enracinent dans le pipeline de l'IA, ce qui donne lieu à des produits et des logiciels qui héritent de tous les mêmes problèmes et préjugés. .

Ces préjudices peuvent être atténués en ajustant les systèmes après coup, pour tenter de les empêcher de générer des résultats nuisibles ou indésirables. Mais des chercheurs comme Luccioni préviennent que ces ajustements technologiques ne s’attaquent pas réellement à la cause profonde du problème.

"Je pense que nous devons fondamentalement repenser la façon dont nous collectons et utilisons les ensembles de données dans l'IA", a déclaré Luccioni. "Sinon, ce ne sont que des solutions technologiques qui ne résolvent pas le problème sous-jacent."

Problème 3559

Incidents associés

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators

Du matériel d’abus sexuel sur des enfants a été trouvé dans un ensemble de données majeur sur l’IA. Les chercheurs ne sont pas surpris.

Problème 3559

Incidents associés

Incident 62418 RapportsChild Sexual Abuse Material Taints Image Generators

Du matériel d’abus sexuel sur des enfants a été trouvé dans un ensemble de données majeur sur l’IA. Les chercheurs ne sont pas surpris.

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators