Report 3553

Dans Ceux qui s'éloignent d'Omelas, l'écrivaine de fiction Ursula K. Le Guin décrit une ville fantastique dans laquelle les progrès technologiques ont assuré une vie d'abondance à tous ceux qui y vivent. Cachée sous la ville, où personne n'a besoin de l'affronter ou de reconnaître son existence, se trouve une enfant humaine vivant dans la douleur et la crasse, une cruelle nécessité de l'étrange infrastructure d'Omelas. Dans le passé, Omelas servait d'avertissement concernant la technologie. Aujourd’hui, c’est devenu une description appropriée pour les systèmes d’IA générative. David Thiel de l'Observatoire Internet de Stanford --- s'appuyant sur des travaux antérieurs cruciaux réalisés par des chercheurs dont Dr. Abeba Birhane --- récemment confirmé [plus de 1 000 URL contenant du matériel vérifié sur les abus sexuels sur enfants](https://cyber.fsi.stanford.edu/news/investigation- finds-ai-image-generation-models-trained-child-abuse) (CSAM) est enfoui dans LAION-5B, l'ensemble de données de formation pour Stable Diffusion 1.5, un outil d'image d'IA qui a transformé la photographie et l'illustration en 2023. Stable Diffusion est un modèle open source, et il s'agit d'un composant fondamental pour des milliers d'outils de génération d'images trouvés dans les applications et les sites Web. Les ensembles de données sont les éléments constitutifs de chaque image et texte générés par l’IA. Les modèles de diffusion décomposent les images de ces ensembles de données en bruit, apprenant comment les images « diffusent ». A partir de ces informations, les modèles peuvent les réassembler. Les modèles résument ensuite ces formules en catégories en utilisant des légendes associées, et cette mémoire est appliquée au bruit aléatoire, afin de ne pas dupliquer le contenu réel des données d'entraînement, même si cela arrive parfois. Une image d’enfant générée par l’IA est assemblée à partir de milliers d’abstractions de ces véritables photographies d’enfants. Dans le cas de Stable Diffusion et Midjourney, ces images proviennent de l'ensemble de données LAION-5B, une collection de légendes et de liens vers 2,3 milliards d'images. S’il existe des centaines d’images d’un seul enfant dans ces archives d’URL, cet enfant pourrait influencer les résultats de ces modèles. La présence de pédopornographie dans ces données de formation est évidemment inquiétante. Un autre point très préoccupant est la probabilité que les images d'enfants ayant subi des abus traumatisants influencent l'apparence des enfants dans les images synthétiques du modèle résultant, même lorsque ces images générées ne sont pas du tout sexuelles. La présence de ce matériel dans les données de formation de l’IA indique une négligence persistante du pipeline de données de l’IA. Cette crise est en partie le résultat de la manière dont les décideurs politiques discutent et permettent de définir l'IA : trop souvent, ce sont les experts du secteur qui ont tout intérêt à détourner l'attention du rôle des données de formation et des faits sur ce qu'elles contiennent. Comme pour Omelas, nous sommes chacun confrontés à une décision sur ce que nous devons faire maintenant que nous connaissons ces faits. LAION-5B comme infrastructure ----------------------------------- Les données de LAION sont collectées à partir du Web sans supervision : là il n'y a pas d'"humain dans le circuit". Certaines entreprises s'appuient sur une main-d'œuvre sous-payée pour « nettoyer » cet ensemble de données afin de l'utiliser dans la génération d'images. Un [reportage] précédent (https://www.noemamag.com/the-exploited-labor-behind-artificial-intelligence/) a souligné que ces travailleurs sont fréquemment exposés à des contenus traumatisants, notamment des images de violence et d'abus sexuels. Cela est connu depuis des années. En 2022, le Centre national pour les enfants disparus et exploités a identifié plus de 32 millions d'images d'images pédopornographiques en ligne. Le rapport de Stanford note que l'ensemble de données de LAION a été collecté sur le Web sans aucune consultation d'experts en sécurité des enfants et n'a jamais été comparé à des listes connues de contenus abusifs. Au lieu de cela, LAION a été filtré à l'aide de CLIP, un système automatisé de détection de contenu dont les concepteurs, le Dr Birhane le souligne, ont mis en garde contre sa propre aptitude à des fins de filtration lorsqu'ils l'ont publié. Dans ma propre analyse du contenu de LAION --- avant la suppression de l'ensemble de données -- - J'ai été troublé par l'inclusion d'images d'atrocités historiques, qui sont résumées en catégories sans rapport entre elles. Les soldats nazis figurent par exemple dans les données d’entraînement du « héros ». Je qualifie ces assemblages de « collages de traumatismes », en soulignant qu'une seule image générée pourrait incorporer des motifs tirés d'images de la Wehrmacht nazie en vacances, de portraits de personnes tuées pendant l'Holocauste et de prisonniers torturés à Abu Ghraib, ainsi que d'images de scènes de l'Holocauste. le redémarrage d'Archie Comics "Riverdale" et l'iconographie de la culture pop. Nous comprenons mal comment ces images se répercutent dans l'affichage de ces "belles" illustrations et images, mais il semble y avoir un échec de la prise en compte culturelle du fait que celles-ci sont Le fait de savoir que les travailleurs ont été exposés à des contenus traumatisants n’a, jusqu’à présent, pas réussi à mobiliser l’industrie (ou les décideurs politiques) à l’action – pour s’attaquer aux types de données collectées et à la méthode de collecte. Des chercheurs indépendants tels que le Dr Birhane, qui a documenté le contenu misogyne et raciste de LAION, n'ont pas réussi à inciter à l'action. Les inquiétudes des artistes concernant le matériel protégé par le droit d'auteur détenu dans LAION-5B ont donné lieu à une réponse tout aussi timide de la part des législateurs. Si les décideurs politiques et les journalistes avaient pris au sérieux les préoccupations des artistes et des chercheurs indépendants, la présence d’éléments encore plus troublants n’aurait pas été une surprise. Les médias sont également à blâmer. La manière dont nous avons défini l’intelligence artificielle depuis le boom de l’IA générative est profondément erronée. Plutôt que de comprendre l’IA comme une forme automatisée d’analyse de données, dépourvue de supervision humaine, nous avons vu d’innombrables rapports sur ses capacités et ses résultats. Faire pivoter notre compréhension de la collecte de données et des algorithmes dans le cadre de « l’IA générative » a inutilement interrompu la compréhension de cette technologie, effaçant une décennie ou plus d’études sur les systèmes algorithmiques et le Big Data. Ce pivot a créé un changement de cadre préjudiciable alors que les décideurs politiques se démènent pour comprendre cette technologie soi-disant « sans précédent ». La raison de cette erreur est claire : elle présente des avantages directs pour les leaders de l’industrie. Cette année, Sam Altman, PDG d'OpenAI, a été [référencé deux fois plus souvent](https://www-forbes-com.cdn.ampproject.org/c/s/www.forbes.com/sites/hessiejones/2023 /12/23/un-appel-au-démantèlement-systémique-ces-femmes-refusent-d'être-cachées-figures-dans-le-développement-de-l'ai/amp/) comme les 42 femmes en * "Liste des 100 meilleurs influenceurs de l'IA" du magazine Time* combiné. Cette liste comprend le Dr Birhane, dont les travaux de recherche cruciaux sur LAION-5B ont reçu relativement peu d'attention médiatique et politique. Pendant ce temps, la majorité des personnes invitées aux « Forums d'analyse » sur l'IA du chef de la majorité au Sénat Chuck Schumer (Démocrate-NY) représentaient l'industrie, parmi lesquels des personnalités comme Altman et Elon Musk. Les experts du secteur ont certainement des connaissances à offrir. Mais ils ont également intérêt à éloigner les discussions des droits des données et de la transparence. La société d'investissement en capital-risque a16z a récemment annoncé que « imposer le coût de la responsabilité réelle ou potentielle en matière de droits d'auteur aux créateurs d'IA ces modèles tueront ou entraveront considérablement leur développement. » En d’autres termes : les données ne sont pas sans valeur, mais ils veulent que nous les traitions de cette façon. Pourtant, les appels des artistes au contrôle de l’utilisation de leurs données dans ces ensembles de données ont été largement ignorés. La résistance à l’ouverture des données de formation à un examen minutieux est difficile à isoler de la présence de CSAM en leur sein. Au cours des deux semaines qui ont suivi la publication du rapport de Stanford, un certain nombre de sites Web qui proposaient des versions exploratoires de LAION aux artistes et aux chercheurs indépendants ont utilisé ces outils. vers le bas. Cela a du sens : personne ne veut d’outils permettant la maltraitance des enfants ou donnant accès à ces images. Mais il est ironique de constater que les outils mêmes qui ont permis aux chercheurs d’examiner et d’identifier les données de formation sont désormais hors ligne. Cela signifie qu’il est littéralement impossible pour les artistes et les détenteurs de droits d’auteur de voir si leurs œuvres sont utilisées pour entraîner ces systèmes, ou pour les chercheurs de comprendre quels éléments nuisibles ils contiennent. (Autre exemple : un rapport montrant que l'ensemble de données contenait non seulement des photographies d'enfants ainsi que des [données de localisation] facilement identifiables (https://interaktiv.br.de/ki-trainingsdaten/en/index.html)). Dans la course pour collecter autant de données que possible, les entreprises ont opéré dans un environnement qui profite de l’obscurcissement. L’année dernière a été marquée par les illusions et les délires de l’intelligence artificielle générale, la promesse d’une sophistication qui émerge d’un concept abstrait d’« intelligence » dans un réseau dense de signaux marche/arrêt que nous appelons réseaux neuronaux. Il y a un manque de sérieux dans ces conversations, une incapacité à faire le lien entre ces systèmes et leurs sources. Ce manque de sérieux est encouragé par les dirigeants des entreprises développant ces technologies, qui profitent directement de la confusion sur (et même de la [peur de](https://www.techpolicy.press/is-openai-cultivating-fear-to- sell-ai/)) quels sont ces systèmes et comment ils fonctionnent. Les objectifs de l'industrie étant au centre de l'élaboration des politiques, il n'est pas étonnant que tant d'attention médiatique ait été accordée aux risques théoriques à long terme et au « superalignment » techno-solutionniste ". Cela se fait au détriment d'une attention particulière portée aux données et processus de formation du monde réel qui façonnent les préjudices immédiats et directs, tels que la maltraitance des enfants, la surveillance raciste et la « prévision » de la criminalité, ainsi que la capture de données personnelles sans consentement. **Comment devrions-nous encadrer l'IA ? ** --------------------------- À quoi pourrait ressembler un examen plus approfondi des ensembles de données ? L'équipe de Thiel à Stanford déconseille complètement la formation d'ensembles de données sur des images d'enfants, en particulier les modèles à usage général qui mélangent plusieurs catégories d'images. Il s’agit à la fois d’une question de droits en matière de données et d’une question de sécurité des enfants. Abordée comme une question de droit aux données, l'image des enfants doit être protégée contre le grattage de données, car il n'existe aucun moyen d'anticiper les utilisations de leur image. En tant que problème de sécurité des enfants, le risque de reproduire le visage d'un véritable enfant dans une image générée par l'IA comporte des risques réels, d'autant plus que nous constatons un boom des [usines de deepfake pornographie soutenues par VC](https://www.404media.co/andreessen -horowitz-investit-dans-civitai-key-platform-for-deepfake-porn/). Il ne suffit pas de faire confiance aux entreprises qui s’entraînent sur ces ensembles de données pour s’autoréguler. Ce ne sont pas Stability AI, OpenAI ou Midjourney qui ont rapporté ces résultats, mais des chercheurs indépendants. Sans modèles ouverts et consultables, nous ne l’aurions peut-être jamais su. En outre, il est de loin préférable que des chercheurs indépendants puissent auditer des ensembles de formation plutôt que que des entreprises se retirent d'une comptabilité responsable en refusant l'accès à leurs modèles. Pourtant, il y a une contradiction au cœur de cette proposition. Les ensembles de données ouverts tels que LAION-5B sont utilisés par les chercheurs car ils sont utilisés pour former des modèles d'IA. Si les ensembles de données sont ouverts, craignent beaucoup, alors toutes sortes de variantes peuvent être créées, y compris des modèles spécifiquement conçus pour les deepfakes, le harcèlement ou la maltraitance des enfants. L'article tragiquement négligé de 2021 du Dr Birhane et de ses coauteurs évaluait ce problème : « Les modèles d'IA à grande échelle peuvent être considérés, dans le cas le plus simple, comme des représentations compressées des ensembles de données à grande échelle sur lesquels ils sont formés. Il est important de se demander ce qui doit être compressé dans les poids d'un réseau de neurones et, par procuration, ce que contient un ensemble de données d'entraînement. Souvent, les grands réseaux de neurones formés sur de grands ensembles de données amortissent le coût de calcul du développement via un déploiement massif à des millions (voire des milliards). ) des utilisateurs du monde entier. Compte tenu de l'utilisation à grande échelle et omniprésente de tels modèles, il est encore plus important de se demander quelles informations y sont compressées et diffusées à leurs utilisateurs. L’article pose un défi aux décideurs politiques : les images de traumatismes, diffusées en ligne dans un contenu jugé illégal, devraient-elles être autorisées à des fins de recherche ou commercialisées ? Si nous sommes tous d’accord sur le fait que ce n’est pas le cas, alors pourquoi permettons-nous que de vastes copies d’Internet soient incorporées dans les systèmes d’IA sans intervention ni surveillance ? Où faut-il placer la responsabilité ? La AI Foundation Model Transparency Act, proposée par la représentante Anna Eshoo (D-CA) et Don Beyer (D-VA), environ un jour après la publication du rapport de Stanford, semble être le début d'un compromis décent. Le projet de loi ordonnerait à la « Commission fédérale du commerce d'établir des normes pour rendre publiques les informations sur les données de formation et les algorithmes utilisés dans les modèles de base de l'intelligence artificielle, et à d'autres fins », et demande à la FTC d'établir des mécanismes de transparence et de reporting des données. Cela donnerait non seulement aux consommateurs et aux utilisateurs d'IA générative un aperçu du contenu des données de formation, mais confronterait les entreprises d'IA générative à l'exigence qu'elles comprennent leurs propres données de formation. Bien que ce projet de loi soit axé sur la gestion des droits d’auteur, il est encourageant de constater des précédents juridiques et politiques qui placent la responsabilité à sa place. La responsabilité n’est pas aussi difficile que les sociétés d’IA voudraient nous le faire croire. Faire voler un avion de ligne commercial rempli de carburant expérimental non testé est une négligence. Les règles qui demandent aux compagnies aériennes de nous dire ce qu'il y a dans le réservoir de carburant n'entravent pas l'innovation. Déployer des modèles dans la sphère publique sans surveillance est également une négligence. Les systèmes d’intelligence artificielle sont peut-être une boîte noire, mais les décisions humaines nécessaires à leur construction et à leur déploiement sont claires. Le déploiement et l'automatisation d'une machine irresponsable sont une décision de gestion et de conception. Ces gestionnaires et ingénieurs doivent être tenus responsables des conséquences de la construction et du déploiement de systèmes qu'ils ne peuvent pas contrôler. De même, il est peut-être temps d’abandonner l’idée selon laquelle les données ne sont que des débris éphémères. Les données sont fermement au cœur de l’IA d’aujourd’hui, et l’industrie aimerait que les consommateurs et les décideurs politiques ignorent les questions épineuses qui les entourent. Le capital-risque et les grandes entreprises technologiques profitent du fait que nous sous-évaluons nos données. Mais nos données, collectivement, sont extrêmement précieuses. Il a de la valeur sous la rubrique habituelle de l’économie, mais aussi dans nos sphères sociales. Les données sont la marque de nos vies vécues en ligne. Cela peut être une preuve d’expression créative ou un traumatisme. Si nous avons le moindre espoir de construire des systèmes d’IA éthiques, nous devons réfléchir attentivement à la manière dont nous conservons et exploitons ces ensembles de données. Une IA responsable exige plus que la vaste extraction de nos informations. Cela nécessite des approches réfléchies et une prise de décision concernant les archives qui façonnent leurs résultats. Cela exige que nous nous demandions à qui servent ces données et à qui elles nuisent. Cela nécessitera un engagement beaucoup plus important d'experts interdisciplinaires, y compris des communautés aux prises avec les conséquences de l'analyse automatisée des données. Une industrie qui se targue de son innovation créative devrait être capable de faire face aux restrictions imposées aux contenus toxiques, illégaux et violants. Il devrait viser à créer des ensembles de données centrés sur le consentement, le respect et même la joie. Mais sans responsabilité et engagement au-delà du monde de la technologie, nous ne pourrons jamais voir l’IA sous un autre angle que celui que préfère l’industrie. Je ne confondrais jamais le fardeau que ces systèmes imposent aux titulaires de droits d’auteur avec le traumatisme des enfants maltraités, et chaque problème lié aux données doit être traité en fonction de la réponse particulière qu’il exige. Mais dans de nombreux cas, les médias et la communauté politique ont négligé un engagement plus large dans leur examen du pipeline de données. Cela déforme les cadres conceptuels que nous utilisons pour comprendre et réguler l’IA. Les systèmes d’intelligence artificielle commencent par les données, et les politiques devraient également le faire. Les données sont un élément essentiel de notre infrastructure numérique. Comme toute infrastructure, elle est profondément liée à nos mondes sociaux. Trop souvent, notre infrastructure technologique est accumulée plutôt que conçue. Mais cela vaut la peine de consacrer du temps aux soins et aux dépendances réfléchies dans nos vies numériques. Autrement, nous risquons de construire un avenir dans lequel la souffrance des autres est ancrée dans la négligence. Nous risquons de construire l’IA comme l’a été Omelas.

Problème 3553

Incidents associés

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators

LAION-5B, Stable Diffusion 1.5 et le péché originel de l'IA générative

Problème 3553

Incidents associés

Incident 62418 RapportsChild Sexual Abuse Material Taints Image Generators

LAION-5B, Stable Diffusion 1.5 et le péché originel de l'IA générative

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators