L'intégrité d'un important ensemble de données de formation d'images d'IA, LAION-5B, utilisé par des modèles d'IA influents comme Stable Diffusion, a été compromise après la découverte de milliers de liens vers du matériel d'abus sexuel sur enfants (CSAM). Cette révélation a suscité des inquiétudes quant aux ramifications potentielles d’un tel contenu infiltrant l’écosystème de l’IA.
Le dévoilement de contenus dérangeants
Les chercheurs du Stanford Internet Observatory sont ceux qui ont découvert la vérité troublante derrière l’ensemble de données LAION-5B. Ils ont révélé que l’ensemble de données contenait plus de 3 000 cas suspects de CSAM. Ce vaste ensemble de données, faisant partie intégrante de l’écosystème de l’IA, a été supprimé à la suite de la découverte choquante faite par l’équipe de Stanford.
Retrait temporaire de LAION-5B
LAION est une organisation à but non lucratif chargée de créer des outils open source pour l'apprentissage automatique. En réponse à ces découvertes, l'organisation a décidé de supprimer temporairement ses ensembles de données, notamment LAION-5B et un autre nommé LAION-400M. L'organisation a exprimé son engagement à assurer la sécurité de ses ensembles de données avant de les republier.
La méthodologie derrière la découverte
Les chercheurs de Stanford ont utilisé une combinaison de méthodes de détection perceptuelles et cryptographiques basées sur le hachage pour identifier les instances de CSAM suspectées dans l'ensemble de données LAION-5B. Leur étude a soulevé des inquiétudes concernant le grattage aveugle d’Internet à des fins de formation à l’IA. Il a en outre souligné les dangers associés à de telles pratiques.
L’effet d’entraînement sur les entreprises d’IA
De grandes entreprises d'IA générative, dont Stable Diffusion, se sont appuyées sur LAION-5B pour entraîner leurs modèles. L'article de Stanford a souligné l'influence potentielle du CSAM sur les résultats du modèle d'IA et le renforcement des images nuisibles au sein de l'ensemble de données. Les répercussions se sont étendues à d'autres modèles, comme Imagen de Google, qui a découvert un contenu inapproprié dans les ensembles de données de LAION lors d'un audit.
Notre mot
Les révélations sur l'inclusion de matériel d'abus sexuel sur des enfants dans l'ensemble de données LAION-5B soulignent la nécessité de pratiques responsables dans le développement et l'utilisation des ensembles de données de formation à l'IA. L'incident soulève des questions sur l'efficacité des mécanismes de filtrage existants et sur la responsabilité des organisations de consulter des experts pour garantir la sécurité et la légalité de leurs ensembles de données. Alors que la communauté de l’IA est aux prises avec ces défis, une réévaluation complète des processus de création d’ensembles de données est impérative pour empêcher la perpétuation par inadvertance de contenus illégaux et préjudiciables via les modèles d’IA.