Des articles ont été publiés dans la presse sur les résultats d'un projet de recherche à l'Université de Stanford, selon lesquels l'ensemble de formation LAION 5B contient des contenus potentiellement illégaux sous forme de CSAM. Nous aimerions commenter ceci de la manière suivante :
LAION est une organisation à but non lucratif qui fournit des ensembles de données, des outils et des modèles pour l'avancement de la recherche sur l'apprentissage automatique. Nous nous engageons en faveur d’une éducation publique ouverte et d’une utilisation respectueuse de l’environnement des ressources grâce à la réutilisation des ensembles de données et des modèles existants.
Les ensembles de données LAION (plus de 5,85 milliards d'entrées) proviennent de l'index Web Common Crawl disponible gratuitement et proposent uniquement des liens vers du contenu sur le Web public, sans images. Nous avons développé et publié nos propres filtres rigoureux pour détecter et supprimer le contenu illégal des ensembles de données LAION avant de les publier.
LAION collabore avec des universités, des chercheurs et des ONG pour améliorer ces filtres et travaille actuellement avec la Internet Watch Foundation (IWF) pour identifier et supprimer les contenus soupçonnés de violer les lois. LAION invite les chercheurs de Stanford à rejoindre sa Communauté pour améliorer nos ensembles de données et développer des filtres efficaces pour détecter les contenus nuisibles.
LAION a une politique de tolérance zéro pour les contenus illégaux et, par prudence, nous supprimons temporairement les ensembles de données LAION pour garantir leur sécurité avant de les republier.
Suite à un entretien avec le commissaire à la protection des données de l'État de Hambourg, nous attirons également votre attention sur le fait que les données CSAM sont des données qui doivent être immédiatement supprimées pour des raisons de protection des données conformément à l'art. 17 RGPD.