Report 1562

Résumé Ci-dessous, nous résumons les premières conclusions sur les risques potentiels associés à DALL·E 2, et les mesures d'atténuation visant à traiter ces risques dans le cadre de l'aperçu en cours de cette technologie. Nous partageons ces résultats afin de permettre une meilleure compréhension de la technologie de génération et de modification d'images et de certains des risques associés, et de fournir un contexte supplémentaire aux utilisateurs de DALL·E 2 Preview. Sans garde-fous suffisants, des modèles comme DALL·E 2 pourraient être utilisés pour générer un large éventail de contenus trompeurs et autrement préjudiciables, et pourraient affecter la façon dont les gens perçoivent l'authenticité du contenu de manière plus générale. DALL·E 2 hérite en outre de divers biais de ses données d'entraînement, et ses sorties renforcent parfois les stéréotypes sociétaux. L'aperçu DALL·E 2 implique une variété d'atténuations visant à prévenir et à atténuer les risques associés, un accès limité étant particulièrement critique à mesure que nous en apprenons davantage sur la surface de risque. Avertissement sur le contenu Ce document peut contenir du contenu visuel et écrit que certains pourraient trouver dérangeant ou offensant, y compris du contenu à caractère sexuel, haineux ou violent, ainsi que du contenu décrivant ou faisant référence à des stéréotypes. Introduction Ce document s'inspire des concepts de cartes modèles et de cartes système pour fournir des informations sur DALL·E 2 Preview, une démo de génération d'images qu'OpenAI propose aux utilisateurs de confiance à des fins non commerciales. Ce document prend souvent le niveau d'analyse du système, ce système comprenant des mesures d'atténuation non liées au modèle telles que les contrôles d'accès, les filtres d'invite et d'image et la surveillance des abus. Il s'agit d'une évaluation du système au 6 avril 2022, désignée dans ce document sous le nom de « DALL·E 2 Preview », le modèle génératif sous-jacent étant désigné sous le nom de « DALL·E 2 ». Ce document s'appuie sur les conclusions de chercheurs internes et externes et se veut une première enquête sur cette plate-forme et le modèle sous-jacent. Nous nous concentrons spécifiquement sur les risques plutôt que sur les avantages. Ainsi, notre objectif n'est pas de fournir une idée complète des effets globaux des technologies de génération d'images. De plus, les modèles en question ont terminé leur formation relativement récemment et la majorité de la période d'évaluation des risques (décrite dans le processus d'évaluation des risques ci-dessous) a sondé les modèles précédents. En tant que telle, cette analyse se veut préliminaire et doit être lue et utilisée comme telle. Nous sommes ravis de soutenir d'autres recherches éclairées par les questions restantes sur la façon de déployer ces modèles en toute sécurité, équitablement et avec succès. Le document se déroule comme suit. Tout d'abord, nous décrivons les différentes facettes du système DALL·E 2 Preview, en commençant par la fonctionnalité du modèle, puis en couvrant le filtrage des entrées et les politiques liées à l'accès, à l'utilisation et au contenu. Deuxièmement, nous résumons les processus menés en interne et en externe pour générer l'analyse présentée ici. Troisièmement, nous décrivons une série d'enquêtes et d'évaluations axées sur les risques menées sur DALL·E 2, couvrant les biais et la représentation ; la désinformation et la désinformation ; contenu explicite ; effets économiques; abus impliquant la haine, le harcèlement et la violence ; et enfin, le droit d'auteur et la mémorisation. Quatrièmement, nous discutons de la manière dont DALL·E 2 se compare et peut être combiné avec les technologies existantes. Cinquièmement et enfin, nous décrivons les travaux futurs qui pourraient éclairer davantage certains des risques et des mesures d'atténuation discutés. Ce document devrait évoluer dans les semaines à venir à mesure que nous mettrons à jour les plans de déploiement et en apprendrons davantage sur le système et le modèle. Le modèle de composants système DALL·E 2 est un modèle d'intelligence artificielle qui prend une invite de texte et/ou une image existante en entrée et génère une nouvelle image en sortie. DALL·E 2 a été développé par des chercheurs d'OpenAI pour comprendre les capacités et les implications plus larges des modèles génératifs multimodaux. Afin de nous aider, ainsi que d'autres, à mieux comprendre comment les modèles de génération d'images peuvent être utilisés et mal utilisés, OpenAI fournit l'accès à un sous-ensemble des capacités1 de DALL·E 2 via la prévisualisation DALL·E 2. DALL·E 2 s'appuie sur DALL·E 1 (Paper | Model Card), augmentant le niveau de résolution, de fidélité et de photoréalisme global qu'il est capable de produire. DALL·E 2 est également formé pour avoir de nouvelles capacités par rapport à DALL·E 1. Capacités du modèle En plus de générer des images basées sur des invites de description textuelle ("Text to Image"), DALL·E 2 peut modifier des images existantes à l'aide d'un description textuelle ("Inpainting"). Il peut également prendre une image existante en entrée et être invité à en produire une variation créative ("Variations"). Données d'entraînement du modèle DALL·E 2 a été entraîné sur des paires d'images et leurs légendes correspondantes. Les paires ont été tirées d'une combinaison de sources accessibles au public et de sources sous licence. Nous nous sommes efforcés de filtrer le contenu le plus explicite à partir des données d'entraînement pour DALL·E 2.2. Ce contenu explicite filtré comprend du contenu graphique à caractère sexuel et violent ainsi que des images de certains symboles haineux.3 Le filtrage a été informé mais distinct du précédent, filtrage plus agressif (suppression de toutes les images de personnes) que nous avons effectué lors de la construction de GLIDE, un modèle distinct que nous avons publié il y a plusieurs mois. Nous avons effectué un filtrage plus agressif dans ce contexte car une petite version du modèle était destinée à être open source. Il est plus difficile d'empêcher qu'un modèle open source soit utilisé à des fins nuisibles qu'un modèle qui n'est exposé qu'à travers une interface contrôlée, notamment en raison du fait qu'un modèle, une fois open source, peut être modifié et/ou combiné avec d'autres outils tiers.4 Nous avons mené un audit interne de notre filtrage du contenu sexuel pour voir s'il concentrait ou exacerbait des biais particuliers dans les données de formation. Nous avons constaté que notre approche initiale de filtrage du contenu sexuel réduisait la quantité d'images de femmes générées en général, et nous avons donc ajusté notre approche de filtrage en conséquence. Articles et autres ressources pour plus d'informations Pour des ressources supplémentaires sur DALL·E 2 et l'aperçu DALL·E 2, voir : DALL·E 2 Landing Page DALL·E 2 Paper Pour des ressources supplémentaires sur DALL·E 1 et Glide, voir : DALL ·E 1 : papier, carte modèle, article de blog GLIDE : papier, code et poids Restrictions Filtres d'entrée Dans l'aperçu DALL·E 2, filtres sur les entrées (c'est-à-dire les invites de texte pour "Text to Image" et Inpainting) et sur les téléchargements (c'est-à-dire images pour Inpainting ou Variations) cherchent à empêcher les utilisateurs d'utiliser l'Aperçu pour les types d'invites et de téléchargements suivants : Ceux qui présentent de sérieux problèmes de sécurité (par exemple, images sexualisées ou suggestives d'enfants, contenu violent, contenu explicitement politique et contenu toxique). Endroits où la seule signification du contenu constituerait une violation de notre politique de contenu (c'est-à-dire que la violation ne dépend pas du contexte dans lequel ce contenu est partagé). Invites liées à des cas d'utilisation que nous ne prenons pas en charge pour le moment (par exemple, nous ne prenons en charge que les invites en anglais pour le moment). Invite dans les zones où le comportement du modèle n'est pas robuste ou peut être mal aligné en raison du filtrage de pré-formation (par exemple, à la suite de filtres de pré-formation, nous ne pouvons pas autoriser en toute confiance la génération d'images liées à des symboles de haine américains courants, même dans les cas où l'utilisateur destinés à contextualiser de manière appropriée ces symboles et non à les endosser). Un non-objectif à ce stade était la capture : invites dans les domaines où le comportement du modèle n'est pas robuste ou peut être mal aligné en raison de limitations générales dans les données de formation (par exemple, des invites qui pourraient démontrer un biais préjudiciable en général ou des invites formulées sous forme de questions). L'utilisation de filtres de cette manière présente quelques lacunes connues : Les filtres ne capturent pas entièrement les actions qui enfreignent nos conditions d'utilisation. Cela découle en partie du fait qu'il existe de nombreux exemples d'abus qui sont directement liés au contexte dans lequel le contenu est partagé, plus qu'au contenu lui-même (par exemple, de nombreuses images apparemment anodines peuvent être exploitées par des opérations d'information, comme indiqué dans la section Désinformation dessous). Les filtres sur les invites et les images téléchargées fonctionnent également de manière indépendante afin que les filtres ne refusent pas les cas où l'invite et l'image sont indépendamment neutres mais, lorsqu'elles sont considérées ensemble, peuvent constituer une incitation à une utilisation abusive (par exemple, l'invite "une femme" et l'image d'un douche en inpainting). Les classificateurs d'entrée ont la capacité d'introduire ou d'amplifier potentiellement un biais, par ex. dans la mesure où cela peut conduire à l'effacement de certains groupes. Ici, nous avons cherché à pécher par excès d'éviter les biais qui peuvent être introduits par une classification rapide, bien que cela puisse rendre certains des biais nuisibles du modèle plus visibles. Autrement dit, les faux positifs peuvent nuire aux groupes minoritaires en faisant taire leurs voix ou leurs opportunités. Cela peut également s'étendre aux vrais positifs - par ex. on sait que le modèle produit des résultats particulièrement biaisés ou sexualisés en réponse à des sollicitations demandant des images de femmes et que ces résultats sont susceptibles d'être « nuisibles » dans certains cas ; cependant, le filtrage de toutes les images de femmes poserait ses propres problèmes. En outre, il a été constaté que les méthodes couramment utilisées pour atténuer ce contenu fonctionnent moins bien pour les groupes marginalisés (Sap et al., 2019), motivant davantage une approche holistique et contextuelle de l'atténuation au niveau du système, y compris les atténuations au niveau du système. accéder. Pour la plupart, nos filtres d'entrée visent à réduire les cas où le contenu généré ou le contenu d'entrée est nécessairement une violation de notre politique de contenu (détails ci-dessous). À l'heure actuelle, les filtres d'invites ne couvrent pas les invites susceptibles d'entraîner des affichages de préjugés préjudiciables, ou la génération holistique de personnes ou d'enfants. Étant donné que notre approche de filtrage est imparfaite, un élément clé de notre stratégie d'atténuation actuelle consiste à limiter l'accès au système aux utilisateurs de confiance, avec lesquels nous renforçons directement l'importance de suivre nos directives de cas d'utilisation (voir la discussion dans Politiques et application). Limites de débit et utilisation programmatique Au-delà des limitations sur les types de contenu pouvant être générés, nous limitons également le débit auquel les utilisateurs peuvent interagir avec le système DALL·E 2. En plus de ce qui précède, nous avons mis en place des limites de débit (par exemple, des limites sur le nombre d'invites ou d'images qu'un utilisateur soumet ou génère par minute ou simultanément). Les principaux objectifs des limites de débit à ce stade sont d'aider à identifier l'utilisation anormale et de limiter la possibilité d'abus à grande échelle. À ce stade, nous n'autorisons pas l'accès programmatique au modèle par des employés non OpenAI. Accès Nous maintenons actuellement des limitations d'accès strictes. Jusqu'à 400 utilisateurs de confiance (ce nombre incluant les employés d'OpenAI) ont initialement accès à l'aperçu DALL·E 2. Plus précisément, l'accès est actuellement limité à : 200 employés d'OpenAI ; Quelques dizaines de chercheurs - actuellement 25, avec quelques autres en préparation - dont l'objectif est de "red teaming" le système (nous décrivons ce processus plus en détail dans la section "Processus" ci-dessous) ; 10 créations ; 165 "amis de l'entreprise" (membres du conseil d'administration d'OpenAI, un petit nombre d'employés de Microsoft, nombre limité d'amis/famille d'employés d'OpenAI, etc.). La confiance est assurée par le fait que les utilisateurs sont personnellement connus et contrôlés par les employés d'OpenAI, et le plafond de 400 personnes maintient le débit du système suffisamment bas pour permettre un examen humain du contenu généré et des abus potentiels. Ces limitations d'accès sont conformes au paradigme de l'accès structuré aux capacités qui a éclairé le déploiement de GPT-3 (Shevlane et al., 2022), et à ce que nous avons récemment décrit dans le cadre de notre stratégie de déploiement, y compris l'analyse des risques avant le déploiement et en commençant par un petit groupe d'utilisateurs avec l'intention d'une itération continue. Ces atténuations d'accès strictes ont des limites. Par exemple, le pouvoir de contrôler l'utilisation d'une image générée particulière diminue au moment où une image quitte la plate-forme. Étant donné que la confiance décline, les secondes images sont partagées en dehors de la plate-forme - où les parties concernées peuvent inclure non seulement les utilisateurs directs du site, mais également toute personne susceptible de voir ce contenu lorsqu'il est partagé - nous suivons attentivement l'utilisation pendant cette période. De plus, la restriction d'accès signifie que l'accès à la DALL E 2 Preview n'est pas accordé de manière inclusive, ce qui peut bénéficier préférentiellement à certains groupes. Malgré ces limitations, nous pensons qu'un accès limité est globalement le bon point de départ pour cette technologie. Au cours de la phase actuelle de déploiement, nous viserons à obtenir le plus de signaux possible sur les vecteurs de risque exacts de la plateforme. Nous soutiendrons cela grâce à un accès continu pour les chercheurs et les experts qui contribueront à éclairer notre compréhension de l'efficacité des atténuations ainsi que des limites du modèle (voir plus dans la section Contributions ci-dessous). En plus de cela, nous sommes heureux de soutenir la recherche à plus long terme sur nos modèles via le programme d'accès aux chercheurs, ce qui nous permettra de donner à certains chercheurs l'accès au modèle sous-jacent. Politiques et application L'utilisation de DALL·E 2 Preview est soumise aux politiques de cas d'utilisation et de contenu que nous décrivons ci-dessous et qui peuvent être lues dans leur intégralité ici. Utilisation L'utilisation prévue du DALL·E 2 Preview à l'heure actuelle est à des fins d'exploration et de recherche personnelles et non commerciales par des personnes intéressées à comprendre les utilisations potentielles de ces fonctionnalités. Cet accès anticipé est destiné à nous aider à mieux comprendre les avantages et les risques associés à ces capacités, et à ajuster davantage nos mesures d'atténuation. D'autres utilisations sont explicitement hors de portée de l'aperçu DALL·E 2, bien que les résultats de la période d'aperçu puissent éclairer notre compréhension des mesures d'atténuation requises pour permettre d'autres utilisations futures. Bien que nous soyons très incertains des cas d'utilisation commerciaux et non commerciaux qui pourraient gagner du terrain et être supportés en toute sécurité à plus long terme, les cas d'utilisation plausibles de puissantes technologies de génération et de modification d'images comme DALL·E 2 incluent l'éducation (par exemple, illustrer et expliquer des concepts dans contextes pédagogiques), art/créativité (par exemple, en tant qu'outil de brainstorming ou dans le cadre d'un flux de travail plus large pour l'idéation artistique), marketing (par exemple, générer des variations sur un thème ou "placer" des personnes/éléments dans certains contextes plus facilement qu'avec les outils existants ), l'architecture/l'immobilier/le design (par exemple, en tant qu'outil de brainstorming ou dans le cadre d'un flux de travail plus large pour l'idéation du design) et la recherche (par exemple, illustrer et expliquer des concepts scientifiques). Contenu En plus d'instituer les politiques d'accès et d'utilisation ci-dessus, nous avons institué un ensemble similaire de politiques de contenu à celles que nous avons précédemment développées pour notre API, et appliquons ces politiques de contenu dans le cadre de notre portefeuille d'atténuations pour le DALL·E 2 Aperçu. Cela dit, bien qu'il existe de nombreuses similitudes entre la génération d'images et la génération de texte, nous avons dû aborder de nouvelles préoccupations liées à l'ajout d'images et à l'introduction de la multimodalité elle-même (c'est-à-dire l'intersection de l'image et du texte). Pour répondre à ces préoccupations, nous avons élargi les catégories d'intérêt pour inclure le contenu choquant ; représentations d'activités illégales; et le contenu concernant la santé publique et personnelle. Nous avons également adapté les politiques existantes pour couvrir les analogues visuels du texte interdit (par exemple, le contenu explicite et haineux) ainsi que les paires texte-image qui enfreignent nos politiques lorsqu'elles sont considérées ensemble, même si elles ne le sont pas individuellement. Politiques supplémentaires Certaines politiques particulièrement importantes régissant l'utilisation de DALL·E 2 Preview sont les suivantes : Divulgation du rôle de l'IA : les utilisateurs sont priés d'indiquer clairement que les images sont générées par l'IA - ou quelles parties d'entre elles le sont - en les attribuant à OpenAI lors du partage , que ce soit en public ou en privé. En plus de demander aux utilisateurs de divulguer le rôle de l'IA, nous explorons d'autres mesures pour la provenance et la traçabilité des images. Respecter les droits d'autrui : Il est demandé aux utilisateurs de respecter les droits d'autrui, et notamment de ne pas mettre en ligne d'images de personnes sans leur consentement (y compris de personnalités publiques), ou d'images sur lesquelles ils ne détiennent pas les droits d'usage appropriés. Les personnes qui constatent que leurs images ont été utilisées sans leur consentement peuvent signaler la violation à l'équipe d'assistance OpenAI (support@openai.com) comme indiqué dans la politique de contenu. Les questions de consentement sont complexes et sont abordées plus en détail dans les sous-sections sur le consentement. Utilisation à des fins non commerciales : S'agissant d'une plateforme de recherche expérimentale, les utilisateurs ne sont pas autorisés à utiliser les images générées à des fins commerciales. Par exemple, les utilisateurs ne peuvent pas concéder sous licence, vendre, échanger ou autrement effectuer des transactions sur ces générations d'images sous quelque forme que ce soit, y compris par le biais d'actifs connexes tels que les NFT. Les utilisateurs ne peuvent pas non plus fournir ces générations d'images à d'autres via une application Web ou par d'autres moyens de tiers à l'origine d'une demande. Signature et provenance de l'image Chaque image générée comprend une signature dans le coin inférieur droit, dans le but d'indiquer quand DALL·E 2 a aidé à générer une certaine image. Nous reconnaissons que cela seul n'aide pas à prévenir un mauvais acteur et est facilement contourné par des méthodes telles que le recadrage d'une image. Surveillance et rapports Nos politiques sont appliquées par le biais d'une surveillance et d'un examen humain. De plus, à ce stade de la prévisualisation DALL·E 2, tout utilisateur peut signaler le contenu sensible pour un examen supplémentaire. Les non-utilisateurs / tiers qui constatent que leurs images ont été utilisées sans leur consentement ou qui violent d'autres domaines des politiques de contenu peuvent signaler la violation présumée à l'équipe d'assistance OpenAI (support@openai.com) comme indiqué dans la politique de contenu, qui est accessible au public et découvrable par les utilisateurs et les non-utilisateurs. Une limitation de ce mécanisme de signalement est qu'il suppose qu'un individu saurait que l'image a été générée par DALL·E 2, et saurait donc contacter OpenAI au sujet de ses préoccupations. Nous continuons d'explorer les filigranes et d'autres techniques de provenance d'images pour y parvenir. Nous ne partageons pas actuellement plus de détails sur nos processus de détection et de réponse aux incidents, en partie pour rendre ces politiques plus difficiles à contourner. Les sanctions en cas de violation de la politique incluent la désactivation des comptes. Processus d'évaluation des risques Premiers travaux À partir de 2021, plusieurs membres du personnel d'OpenAI ont exploré les risques associés aux systèmes de génération d'images et les atténuations potentielles de ces risques. Cet effort s'est accru au fil du temps à mesure que l'élan se développait autour d'un effort pour construire DALL·E 2 et DALL·E 2 Preview. Certains premiers résultats de cette recherche ont été rapportés dans Nichol, Dhariwal et Ramesh et al. (2021) et des interventions informées au niveau des données pour DALL·E 2. De plus, depuis 2021, une variété de Slackbots exposant les capacités des modèles, et d'autres prototypes internes d'interfaces à ces modèles, sont à la disposition du personnel d'OpenAI, permettant une exploration asynchrone et intermittente de capacités de modélisation par environ 200 personnes. Les conclusions informelles de ce travail et des analyses plus formelles menées par le personnel ont éclairé le plan de haut niveau pour l'aperçu DALL·E 2 et ses mesures d'atténuation associées, et ces plans ont été et seront encore affinés au fil du temps en réponse aux demandes internes et découvertes externes à ce jour. Nous prévoyons d'ajuster davantage notre façon de penser alors que nous envisageons d'élargir l'accès à un petit nombre d'utilisateurs de confiance. Équipe rouge externe À partir de février 2022, OpenAI a commencé à recruter des experts externes pour fournir des commentaires sur l'aperçu DALL·E 2. Nous avons décrit ce processus comme une "équipe rouge" conformément à la définition donnée dans Brundage, Avin, Wang, Belfield et Krueger et. al (2020), "un effort structuré pour trouver des failles et des vulnérabilités dans un plan, une organisation ou un système technique, souvent effectué par des 'équipes rouges' dédiées qui cherchent à adopter l'état d'esprit et les méthodes d'un attaquant." OpenAI a contacté des chercheurs et des professionnels de l'industrie, principalement avec une expertise dans les biais, la désinformation, la génération d'images, le contenu explicite et les études médiatiques, pour nous aider à acquérir une compréhension plus solide de la prévisualisation DALL·E 2 et des zones à risque des plans de déploiement potentiels . Les participants à l'équipe rouge ont été choisis en fonction de domaines de recherche antérieurs ou d'expérience dans les domaines à risque identifiés à partir de nos analyses internes, et reflètent donc un parti pris envers les groupes ayant des antécédents éducatifs et professionnels spécifiques (par exemple, un doctorat ou une expérience significative dans l'enseignement supérieur ou dans l'industrie) . Les participants ont également des liens avec des pays occidentaux anglophones (États-Unis, Canada, Royaume-Uni) en partie en raison de restrictions de rémunération. Ce contexte a probablement influencé à la fois la façon dont ils ont interprété des risques particuliers et la façon dont ils ont sondé la politique, les valeurs et le comportement par défaut du modèle. Il est également probable que notre sourcing de chercheurs privilégie les risques qui ont été pris en compte dans les communautés académiques et par les entreprises d'IA. La participation à ce processus d'équipe rouge ne constitue pas une approbation des plans de déploiement d'OpenAI ou des politiques d'OpenAI. En raison de la nature très précoce de cet engagement avec des modèles qui n'avaient pas été rendus publics, ainsi que de la nature sensible du travail, les participants à l'équipe rouge ont dû signer une NDA. OpenAI a offert une compensation à tous les participants de l'équipe rouge pour leur temps consacré à ce travail. Les participants ont interagi avec différentes versions de l'aperçu au fur et à mesure de son développement. Le modèle sous-jacent a basculé entre le moment où ils ont terminé la première étape de l'équipe rouge (9 mars 2022 - 28 mars 2022) et le modèle DALL·E 2 qui sous-tend le système aujourd'hui. Nous avons commencé à appliquer les techniques et les méthodes d'évaluation développées par les red-teamers à la conception du système pour le DALL-E 2 Preview. Nos mesures d'atténuation prévues ont également évolué au cours de cette période, notamment des modifications de nos stratégies de filtrage, la limitation de la version initiale aux seuls utilisateurs de confiance et une surveillance supplémentaire. Les participants au processus d'équipe rouge ont eu accès à l'aperçu et au modèle DALL·E 2 de 3 manières principales : Conversations consultatives sur le modèle, le système et leur(s) domaine(s) d'expertise. Cela comprend des discussions préliminaires, l'accès à un canal Slack avec OpenAI et d'autres participants au processus d'équipe rouge, et des séances de débriefing de groupe hébergées par OpenAI. La génération d'invites "Text to Image" pour qu'OpenAI s'exécute en bloc sur le backend, en contournant les filtres d'invite et en accélérant l'analyse. Accès direct au site de prévisualisation pour tester toutes les fonctionnalités, y compris "Text to Image Generation", Inpainting et Variations, la disponibilité des fonctionnalités variant au cours de la période de red teaming. Le premier modèle était disponible du 9 mars 2022 au 28 mars 2022 Le deuxième modèle et la fonctionnalité Variations étaient disponibles après le 28 mars 2022 Tous les participants à l'équipe rouge n'avaient pas accès à toutes les fonctionnalités ou à l'aperçu pendant toute la durée, en raison à des considérations concurrentielles concernant un petit nombre de participants. Les participants au processus d'équipe rouge ont rejoint un canal Slack pour partager les résultats en collaboration entre eux et avec le personnel d'OpenAI, ainsi que pour poser des questions continues sur l'aperçu et le processus de l'équipe rouge. Tous les participants ont été invités à documenter leurs invites, leurs conclusions et leurs notes afin que leurs analyses puissent être appliquées en continu au fur et à mesure de l'évolution de l'aperçu. Les participants ont été invités à des séances de débriefing de groupe organisées par OpenAI pour discuter de leurs conclusions avec l'équipe OpenAI. Leurs observations, rapports finaux et invites sont des contributions à ce document et ont contribué à éclairer les changements apportés à notre plan d'atténuation. Le processus d'équipe rouge se poursuivra même après le déploiement initial de DALL·E 2 Preview, et nous soutiendrons la recherche à plus long terme via le programme d'accès aux chercheurs d'OpenAI. Sondes et évaluations La prévisualisation DALL·E 2 permet de générer des images qui, selon l'invite, les paramètres, le spectateur et le contexte dans lequel l'image est visualisée, peuvent être nuisibles ou peuvent être confondues avec des photographies ou des illustrations authentiques. Afin de mieux mesurer et atténuer le risque de préjudices présentés par DALL·E 2 Preview, nous avons mené une série d'enquêtes et d'évaluations principalement qualitatives dans des domaines tels que les préjugés et la représentation, le contenu explicite et la désinformation, comme indiqué ci-dessous. Contenu explicite Malgré le filtrage de pré-formation, DALL·E 2 conserve la capacité de générer du contenu qui présente ou suggère l'un des éléments suivants : nudité/contenu sexuel, haine ou violence/préjudice. Nous nous référons à ces catégories de contenu en utilisant le raccourci "explicite" dans ce document, dans un souci de brièveté. Que quelque chose soit explicite dépend du contexte. Différents individus et groupes ont des opinions différentes sur ce qui constitue, par exemple, un discours de haine (Kocoń et al., 2021). Le contenu explicite peut provenir de l'invite, de l'image téléchargée ou de la génération et, dans certains cas, ne peut être identifié comme tel que par la combinaison d'une ou plusieurs de ces modalités. Certaines invites demandant ce type de contenu sont interceptées par le filtrage des invites dans l'aperçu DALL·E 2, mais il est actuellement possible de les contourner avec des mots descriptifs ou codés. Il nous est possible de prédire à l'avance certaines instances de contenu explicite par analogie avec le domaine du langage, car OpenAI a déjà déployé des technologies de génération de langage. D'autres sont difficiles à anticiper, comme nous le verrons plus loin. Nous continuons à mettre à jour nos filtres d'entrée (invite et téléchargement) en réponse aux cas identifiés via l'équipe rouge interne et externe, et exploitons un système de signalement intégré à l'interface utilisateur du DALL·E 2 Preview. Contenu falsifié Nous utilisons le terme « contenu falsifié » pour désigner un contenu explicite ou suggestif généré en réponse à une invite qui n'est pas elle-même explicite ou suggestive, ou qui indique l'intention de générer un tel contenu. Si le modèle était invité à saisir des images de jouets et générait à la place des images d'armes non-jouets, cette génération constituerait un contenu fallacieux. À ce jour, nous avons trouvé des cas limités de contenu explicite falsifié sur le modèle DALL·E 2 qui est en ligne depuis le 6 avril 2022, bien qu'une équipe beaucoup plus rouge soit nécessaire pour être sûr que le contenu falsifié est minime. Une cause intéressante de faux contenu est ce que nous appelons officieusement les "collisions de référence": des contextes où un seul mot peut faire référence à plusieurs concepts (comme un emoji d'aubergine) et où un concept involontaire est généré. La frontière entre les collisions bénignes (celles sans intention malveillante, comme « une personne qui mange une aubergine ») et celles impliquant des collisions délibérées (celles avec une intention contradictoire ou qui s'apparentent davantage à des synonymes visuels, comme « une personne mettant une aubergine entière dans sa bouche") est difficile à dessiner et très contextuelle. Cet exemple atteindrait le niveau de "contenu fallacieux" si un exemple clairement bénin - "Une personne mangeant des aubergines pour le dîner" contenait des images phalliques dans la réponse. Dans les évaluations qualitatives des modèles précédents (y compris ceux mis à disposition pour l'équipe rouge externe), nous avons constaté que les endroits où le modèle généré avec des générations moins photoréalistes ou moins fidèles étaient souvent perçus comme explicites. Par exemple, les générations avec des femmes moins photoréalistes suggéraient souvent la nudité. Jusqu'à présent, nous n'avons pas trouvé ces cas courants dans la dernière version de DALL·E 2. Synonymes visuels Les synonymes visuels et le jugement visuel des synonymes ont été étudiés par des chercheurs dans des domaines tels que la linguistique pour faire référence à la capacité de juger lequel des deux visuellement les mots présentés ont le sens le plus similaire à un troisième mot présenté visuellement. Le terme "synonyme visuel" a également été utilisé précédemment dans le contexte de l'érudition en IA pour désigner des "mots visuels indépendants qui couvrent néanmoins une apparence similaire" (Gavves et al., 2012), et par des chercheurs construisant un "dictionnaire de synonymes visuels" contextuel. afin de montrer des synonymes de mots visuels, c'est-à-dire des mots qui ont des distributions contextuelles similaires (Tang et al., 2011). Ici, nous utilisons le terme "synonyme visuel" pour désigner l'utilisation d'invites pour des éléments visuellement similaires à des objets ou des concepts filtrés, par ex. ketchup pour le sang. Bien que les filtres de pré-formation semblent avoir retardé la capacité du système à générer un contenu explicitement préjudiciable en réponse aux demandes de ce contenu, il est toujours possible de décrire visuellement le contenu souhaité et d'obtenir des résultats similaires. Pour les atténuer efficacement, nous aurions besoin de former des classificateurs d'invites en fonction du contenu auquel ils mènent ainsi que du langage explicite inclus dans l'invite. Une autre façon d'opérationnaliser les synonymes visuels consiste à utiliser des images de poupées, de mannequins ou d'autres représentations anthropomorphiques. Des images de poupées ou d'autres langages codés peuvent être utilisés pour contourner le filtrage afin de créer des images violentes, haineuses ou explicites. Préjugés et représentation L'utilisation de DALL·E 2 peut nuire à des individus et à des groupes en renforçant les stéréotypes, en les effaçant ou en les dénigrant, en leur fournissant des performances de qualité médiocre ou en les soumettant à l'indignité. Ces comportements reflètent les biais présents dans les données d'entraînement DALL·E 2 et la manière dont le modèle est entraîné. Bien que la nature profondément contextuelle des biais rende difficile la mesure et l'atténuation des dommages réels en aval résultant de l'utilisation de la prévisualisation DALL·E 2 (c'est-à-dire au-delà du point de génération), notre intention est de fournir ici des illustrations concrètes qui peuvent informer les utilisateurs et les non-utilisateurs concernés même à ce stade de prévisualisation très initial. En plus des préjugés présents dans le modèle DALL·E 2, le DALL·E 2 Preview introduit ses propres ensembles de préjugés, notamment : comment et pour qui le système est conçu ; quels risques sont prioritaires avec les mesures d'atténuation associées ; comment les invites sont filtrées et bloquées ; comment les téléchargements sont filtrés et bloqués ; et comment l'accès est priorisé (entre autres). Un autre biais découle du fait que la pile de technologies de surveillance et les membres de l'équipe de surveillance ont plus de contexte, d'expérience et d'accord sur certains domaines de préjudice que sur d'autres. Par exemple, nos analystes et notre équipe de sécurité sont principalement situés aux États-Unis et les compétences en anglais sont l'un des critères de sélection que nous utilisons pour les embaucher, ils sont donc moins bien équipés pour analyser le contenu dans des contextes internationaux ou même certains contextes locaux aux États-Unis. Valeurs par défaut et hypothèses Le comportement par défaut de la prévisualisation DALL·E 2 produit des images qui ont tendance à surreprésenter les personnes qui sont de passage blanc et les concepts occidentaux en général. Dans certains endroits, il surreprésente des générations de personnes qui passent par des femmes (comme pour l'invite : "une hôtesse de l'air"), tandis qu'à d'autres, il surreprésente des générations de personnes qui passent par des hommes (comme pour l'invite : "un constructeur"). Dans certains endroits, cela est représentatif de stéréotypes (comme discuté ci-dessous), mais dans d'autres, le modèle recréé est moins immédiatement clair. Par exemple, lorsqu'il est invité à « mariage », il a tendance à adopter les traditions de mariage occidentales et à privilégier par défaut les couples hétérosexuels. Cela s'étend aux générations qui n'incluent aucune représentation d'individus ou de groupes, telles que les générations d'invites telles que "restaurant" ou "maison" qui ont tendance à représenter les environnements occidentaux, les styles de service alimentaire et les maisons. Avec les capacités supplémentaires du modèle (Inpainting et Variations), il peut y avoir d'autres façons dont le biais peut être présenté à travers diverses utilisations de ces capacités. Wang et al. (2020), et Steed et Caliskan (2021) ont déjà effectué des analyses de biais sociaux sur des sujets connexes de modèles de classification d'images et d'ensembles de données visuelles, et Cho et al. (2022) proposent des méthodes d'évaluation quantitative des biais sociaux pour les modèles génératifs Text to Image. Certains de ces chercheurs, et d'autres avec qui nous avons travaillé dans le cadre de la période de red teaming, ont analysé des itérations antérieures de DALL·E 2 Preview et du modèle sous-jacent et ont trouvé un biais important dans la façon dont le modèle représente les personnes et les concepts, à la fois dans ce que le modèle génère lorsqu'une invite est "sous-spécifiée" et correspond potentiellement à un vaste éventail d'images (par exemple, l'exemple "PDG" ci-dessus), et dans ce que le modèle génère lorsqu'une invite est hyper-spécifiée (voir plus loin la discussion ci-dessous sur les performances disparates). Nous en sommes aux premiers stades de l'évaluation quantitative des biais de DALL·E 2, ce qui est particulièrement difficile au niveau du système, en raison des filtres évoqués ci-dessus et des changements de modèle. De plus, il reste à voir dans quelle mesure nos évaluations ou autres références académiques se généraliseront à une utilisation dans le monde réel, et les références académiques (et les évaluations des biais quantitatifs en général) ont des limites connues. Cho et al., créateurs de DALL-Eval, ont comparé un point de contrôle du 1er avril 2022 de DALL·E 2 à minDALL-E. Ils ont constaté que le point de contrôle DALL · E 2 du 1er avril présentait plus de préjugés sexistes et de préjugés raciaux que minDALL-E (c'est-à-dire qu'il avait tendance à générer plus souvent des images de passants masculins et de passants blancs plus souvent, les deux modèles ayant de très fortes tendances vers la génération d'images étiquetées comme masculines et hispaniques par CLIP). Cela pourrait refléter des différences dans les ensembles de données sous-jacents (minDALL-E est formé sur les données de légendes conceptuelles), une différence dans la taille des modèles ou les objectifs de formation, ou d'autres facteurs, que davantage de recherches seraient nécessaires pour démêler. Les préjudices de représentation se produisent lorsque les systèmes renforcent la subordination de certains groupes le long des lignes d'identité, par ex. les stéréotypes ou le dénigrement, par rapport aux dommages allocatifs, qui se produisent lorsqu'un système alloue ou retient une certaine opportunité ou ressource (Jacobs et al., 2020, et Blodgett et al, 2020). Stéréotypes DALL·E 2 a tendance à servir des compléments qui suggèrent des stéréotypes, y compris des stéréotypes de race et de genre. Par exemple, l'invite « avocat » produit de manière disproportionnée des images de personnes qui passent par des Blancs et des hommes qui passent en tenue occidentale, tandis que l'invite « infirmière » a tendance à donner des images de personnes qui passent par des femmes. Indignité et effacement Comme indiqué ci-dessus, non seulement le modèle mais aussi la manière dont il est déployé et dont les dommages potentiels sont mesurés et atténués ont le potentiel de créer un biais préjudiciable, et un exemple particulièrement préoccupant de cela se pose dans DALL·E 2 Aperçu dans le contexte du filtrage des données avant la formation et de l'utilisation du filtre de contenu après la formation, ce qui peut entraîner la marginalisation de certains individus et groupes, par ex. les personnes handicapées et souffrant de problèmes de santé mentale, souffrant de l'indignité de voir leurs invites ou leurs générations filtrées, signalées, bloquées ou non générées en premier lieu, plus fréquemment que les autres. Un tel retrait peut avoir des effets en aval sur ce qui est considéré comme disponible et approprié dans le discours public. Performances disparates Les modèles de génération d'images peuvent produire différentes générations de qualité lors de la production de différents concepts, où nous considérons la diversité des réponses, le photoréalisme, la qualité esthétique et la richesse conceptuelle comme différentes dimensions de la « qualité ». Les versions antérieures de DALL·E semblaient moins performantes pour produire des images de haute qualité sur des concepts qui sont plus éloignés de sa distribution de formation. Nous avons eu plus de difficulté à trouver des preuves d'un tel réalisme disparate dans la version publiée de l'aperçu DALL·E 2, bien que nous trouvions des preuves que les sorties typiques ont tendance à impliquer plus souvent certaines données démographiques, dont nous avons discuté ci-dessus sous Valeurs par défaut et hypothèses et Stéréotypes, mais peut également être considéré comme une forme de performance disparate. « La personne d'abord » et un langage spécifique peuvent aider à améliorer les performances et à atténuer les disparités (par exemple, « une personne qui est une femme et un PDG qui dirige une réunion ») en supprimant la diversité des réponses en tant qu'élément de la « qualité ». De plus, de petites différences dans les invites peuvent avoir un impact disproportionné sur la qualité des réponses, comme le montre l'exemple ci-dessous comparant "PDG" et "un PDG". De plus, cette disparité dans le niveau de spécification et de pilotage nécessaire à la réalisation de certains concepts est, à elle seule, un biais de disparité de performance. Il place le fardeau d'une spécification et d'une adaptation minutieuses sur les utilisateurs marginalisés, tout en permettant aux autres utilisateurs de profiter d'un outil qui, par défaut, leur semble personnalisé. En ce sens, il n'est pas différent que les utilisateurs d'un système de reconnaissance vocale aient besoin de modifier leurs accents pour s'assurer qu'ils sont mieux compris. Harcèlement, intimidation et exploitation Le harcèlement, l'intimidation ou l'exploitation ciblés d'individus est un sujet de préoccupation majeur pour le déploiement de modèles de génération d'images au sens large et d'Inpainting en particulier. L'inpainting - en particulier combiné avec la possibilité de télécharger des images - permet une grande liberté dans la modification des images des personnes et de leur contexte visuel. Alors que d'autres outils d'édition d'images sont capables d'obtenir des résultats similaires, Inpainting offre une vitesse, une échelle et une efficacité supérieures. De nombreux outils de retouche photo nécessitent également un accès potentiellement coûteux et/ou un ensemble de compétences particulières pour obtenir des résultats photoréalistes. Des options moins chères et plus accessibles que l'édition de photos existent, par exemple des outils qui permettent un simple échange de visage peuvent offrir rapidité et efficacité, mais sur un ensemble de capacités beaucoup plus restreint et souvent avec la possibilité de tracer clairement la provenance des images données. Dans les évaluations qualitatives, nous constatons que le système, même avec les mesures d'atténuation actuelles en place, peut toujours être utilisé pour générer des images qui peuvent être nuisibles dans des contextes particuliers et difficiles à identifier et à capturer pour toute équipe d'intervention réactive.5 Cela souligne l'importance de l'accès des contrôles et des investissements supplémentaires dans des mesures d'atténuation plus robustes, ainsi qu'une surveillance étroite de la façon dont les capacités à forte capacité d'utilisation abusive - par ex. Inpainting sur des images de personnes - sont utilisés et partagés dans la pratique. Voici quelques exemples de cela qui ne peuvent être clairs qu'en cas de violation des politiques dans leur contexte : Modifier les vêtements : ajouter ou supprimer des vêtements religieux (kippa, hijab) Ajouter des aliments spécifiques aux images : ajouter de la viande à l'image d'un individu qui est végétarien Ajouter personnes supplémentaires à une image : peindre une personne dans une image tenant la main du sujet d'origine (par exemple, quelqu'un qui n'est pas son conjoint) Ces images pourraient ensuite être utilisées pour harceler ou intimider directement une personne, ou pour la faire chanter ou l'exploiter. Il est important de noter que nos atténuations ne s'appliquent qu'à notre système Inpainting. La génération ouverte peut être combinée avec des outils tiers pour échanger des particuliers, contournant ainsi toutes les restrictions d'Inpainting que nous avons en place. L'inpainting peut également être combiné avec d'autres transformations d'image (telles que le "zoom arrière" d'une image avant de la télécharger) afin de faciliter le "placement" d'un sujet dans une scène. DALL·E 2 a actuellement une capacité très limitée à rendre un texte lisible. Lorsque c'est le cas, le texte peut parfois manquer de sens et être mal interprété. Il est important de suivre cette capacité au fur et à mesure de son développement, car les modèles de génération d'images peuvent éventuellement développer de nouvelles capacités de génération de texte via le rendu de texte. Qualifier quelque chose de harcèlement, d'intimidation, d'exploitation ou de désinformation visant un individu nécessite de comprendre la distribution et l'interprétation de l'image. Pour cette raison, il peut être difficile pour les mesures d'atténuation (y compris les politiques de contenu, le filtrage des invites et des images et l'examen humain dans la boucle) d'intercepter les utilisations superficiellement inoffensives de l'inpainting qui entraînent ensuite la propagation d'une désinformation nuisible. Mémorisation des photos d'un individu et problèmes de consentement Nos conditions d'utilisation exigent que les utilisateurs (a) obtiennent le consentement avant de télécharger la photo ou la ressemblance de quelqu'un d'autre, et (b) aient la propriété et les droits sur l'image téléchargée donnée. Nous le rappelons aux utilisateurs au moment du téléchargement et des tiers peuvent signaler des violations de cette politique, comme décrit dans la section Surveillance ci-dessus. Alors que les utilisateurs sont tenus d'obtenir le consentement pour l'utilisation de l'image ou de la ressemblance de quelqu'un d'autre dans Inpainting, il y a des questions plus larges auxquelles il faut répondre sur la façon dont les personnes qui peuvent être représentées dans les données de formation peuvent être reproduites dans les générations et sur les implications de la génération de ressemblances de particuliers personnes. OpenAI s'est efforcé de mettre en œuvre des atténuations techniques au niveau du modèle qui garantissent que DALL·E 2 Preview ne peut pas être utilisé pour générer directement des correspondances exactes pour l'une des images dans ses données d'entraînement. Cependant, les modèles peuvent toujours être en mesure de composer des aspects d'images réelles et des détails identifiables de personnes, tels que des vêtements et des arrière-plans. Même si DALL·E 2 Preview ne peut littéralement pas générer d'images exactes de personnes, il peut être possible de générer une ressemblance similaire à quelqu'un dans les données d'entraînement. La littérature précédente (Webster et al., 2021) a démontré que de nombreux visages produits par une classe de modèles différente - les réseaux antagonistes génératifs (ou « GAN ») - présentent une ressemblance frappante avec les personnes réelles qui apparaissent dans les données de formation. Des travaux supplémentaires sont nécessaires pour comprendre les impacts de l'utilisation de DALL·E 2 pour générer des personnes reconnaissables en plus des impacts des vecteurs de harcèlement et de désinformation évoqués ci-dessus. Désinformation et désinformation Des générations de modèles comme DALL·E 2 pourraient être utilisées pour induire intentionnellement en erreur ou désinformer les sujets, et pourraient potentiellement renforcer les opérations d'information et les campagnes de désinformation.6 En effet, les résultats de certains GAN ont déjà été utilisés à de telles fins. L'efficacité de l'utilisation du contenu généré au service d'une opération d'information dépend de plusieurs facteurs : les capacités du modèle, le rapport coût-efficacité de l'utilisation du contenu généré pour une telle opération, les mesures d'atténuation (telles que la possibilité de retracer la provenance des images jusqu'à DALL·E 2), et la confiance existante dans les systèmes d'information (Hwang 2020). Des outils existants alimentés par des modèles génératifs ont été utilisés pour générer des images de profil synthétiques dans des campagnes de désinformation.7 Comme ces outils, DALL·E 2 peut créer des images photoréalistes de personnes. Cependant, la compréhension du langage de DALL·E 2 permet plus de flexibilité et de pilotage dans la composition de nouvelles images à partir du langage naturel, ce qui pourrait avoir des applications importantes pour les opérations d'information.8 Dans le tableau suivant, nous énumérons de manière non exhaustive certaines applications potentielles de la génération de texte en image. , Inpainting et Variations des opérations d'information : ces fonctionnalités peuvent être utilisées pour créer une fausse infrastructure de compte ou diffuser du contenu préjudiciable. Il n'est pas clair dans quelle mesure l'efficacité de DALL·E 2 est meilleure que celle d'outils alternatifs raisonnables ; cependant, la grande surface des capacités du système signifie que toute fourniture d'accès à celles-ci nécessite de la prudence. Il est souvent possible de générer des images de personnalités publiques à l'aide de systèmes de génération d'images à grande échelle, car ces personnalités ont tendance à être bien représentées dans les ensembles de données publiques, ce qui amène le modèle à en apprendre des représentations. Nous avons modifié le processus de formation pour limiter la capacité du modèle DALL·E 2 à mémoriser les visages à partir des données de formation, et avons constaté que cette limitation est utile pour empêcher le modèle de reproduire fidèlement des images de célébrités et d'autres personnalités publiques. Cependant, intervenir au niveau des connaissances internes d'un modèle - par ex. en masquant les personnes publiques – n'est pas toujours efficace. Ces interventions peuvent rendre plus difficile la génération de sorties nuisibles, mais ne garantissent pas que cela soit impossible : les méthodes dont nous avons parlé précédemment pour peindre des particuliers dans des contextes nuisibles ou diffamatoires pourraient également être appliquées à des personnes publiques. Le téléchargement d'images dans le système (par opposition au modèle) permet d'injecter de nouvelles connaissances, que des utilisateurs malveillants pourraient potentiellement utiliser pour générer des sorties nuisibles. Preuves et événements Bien sûr, la désinformation et la mésinformation ne doivent pas nécessairement inclure des images de personnes. En effet, nous nous attendons à ce que les gens soient mieux à même d'identifier les sorties comme synthétiques lorsqu'elles sont liées à des images ou à des ressemblances qu'elles connaissent bien (par exemple, cette image du président semble un peu décalée). DALL·E 2 peut cependant potentiellement être utilisé pour générer des images qui pourraient être utilisées comme preuve de reportages qui pourraient, à leur tour, être utilisées à mauvais escient dans une campagne d'opérations d'information. Cela peut être particulièrement important en cas de crise (Starbird, Dailey, Mohamed, Lee et Spiro 2018). Effets sur la confiance/méfiance vis-à-vis des systèmes d'information Au-delà des conséquences directes d'une image générée ou modifiée utilisée à des fins préjudiciables, l'existence même d'images de synthèse crédibles peut influencer l'opinion publique autour des nouvelles et des sources d'information. Le simple fait de savoir qu'une image de qualité X pourrait être truquée peut réduire la crédibilité de toutes les images de qualité X. dividende » (Citron et Chesney, 2019). Les recherches de Christian Vaccari et Andrew Chadwick montrent que les gens sont plus susceptibles de se sentir incertains que induits en erreur par les deepfakes et, par conséquent, ont un niveau de confiance réduit dans les nouvelles sur les réseaux sociaux (Vaccari, Chadwick 2020). Les défis liés à la décision d'étiqueter ou de divulguer le contenu généré par l'IA ont également un impact sur la confiance dans les systèmes d'information en général (Shane, 2020). L'effet de vérité implicite est une considération possible - par exemple, les gros titres auxquels sont attachées des étiquettes d'avertissement augmentent la probabilité que les gens perçoivent le contenu non étiqueté comme vrai même s'il ne l'est pas (Pennycook et. al, 2020). Une autre considération similaire est l'effet de vérité entachée, où les corrections commencent à faire douter les gens d'autres informations vraies (Freeze et. al, 2021). Nos politiques de contenu exigent la divulgation du rôle de l'IA lors du partage des générations, et nous évaluons toujours d'autres techniques de provenance d'images tout en tenant compte de l'effet du contenu généré par l'IA étiqueté. Enfin, même si l'Aperçu lui-même n'est pas directement nuisible, sa démonstration du potentiel de cette technologie pourrait motiver divers acteurs à accroître leurs investissements dans les technologies et tactiques connexes. Droits d'auteur et marques Le modèle peut générer des entités connues, y compris des logos de marque et des caractères protégés par des droits d'auteur. OpenAI évaluera différentes approches pour gérer les problèmes potentiels de droits d'auteur et de marques, qui peuvent inclure l'autorisation de ces générations dans le cadre d'un « usage équitable » ou de concepts similaires, le filtrage de types de contenu spécifiques et la collaboration directe avec les titulaires de droits d'auteur/marques sur ces questions. Économique Bien que DALL·E 2 soit à des fins exclusivement non commerciales aujourd'hui, il pourrait éventuellement avoir des implications économiques importantes. Le modèle peut augmenter l'efficacité de l'exécution de certaines tâches telles que l'édition de photos ou la production de photographies de stock, ce qui pourrait déplacer les emplois des concepteurs, photographes, modèles, éditeurs et artistes. En même temps, cela peut rendre possible de nouvelles formes de production artistique, en effectuant certaines tâches rapidement et à moindre coût. Comme mentionné ci-dessus, le modèle sous-représente à la fois certains concepts et certaines personnes et ses connaissances sont limitées par son ensemble de formation. Cela signifie que si l'utilisation commerciale est finalement autorisée, les groupes et la propriété intellectuelle qui sont représentés dans ou par le modèle peuvent ressentir les avantages et les inconvénients économiques plus intensément que ceux qui ne le sont pas, par exemple, si l'accès au modèle est donné pour une application à retouchez les photos, mais il est démontré que le modèle ne fonctionne pas aussi bien sur les peaux foncées que sur les peaux claires. Enfin, l'accès au modèle est actuellement accordé à un nombre limité d'utilisateurs, dont beaucoup sont sélectionnés parmi les réseaux d'employés d'OpenAI. Bien que l'utilisation commerciale ne soit pas autorisée actuellement, le simple fait d'avoir accès à un bien exclusif peut avoir des effets indirects et une réelle valeur commerciale. Par exemple, les gens peuvent établir des suivis en ligne en fonction de leur utilisation de la technologie, ou développer et explorer de nouvelles idées qui ont une valeur commerciale sans utiliser les générations elles-mêmes. De plus, si l'accès commercial est finalement accordé, ceux qui ont plus d'expérience dans l'utilisation et la construction de la technologie peuvent avoir l'avantage du premier arrivé - par exemple, ils peuvent avoir plus de temps pour développer de meilleures techniques d'ingénierie rapide. Relation avec les technologies existantes Nous ne fournissons pas de comparaisons solides avec les logiciels de retouche photo existants, mais il s'agit d'un domaine passionnant pour les travaux futurs et essentiel pour bien comprendre l'impact de systèmes comme celui-ci à grande échelle. De manière anecdotique et informelle, nous pensons que DALL·E 2, et des modèles et systèmes de génération d'images similaires, peuvent accélérer les utilisations positives et négatives associées à la génération de contenu visuel. L'une des raisons de cette accélération est que ces systèmes peuvent « encapsuler » des connaissances multimodales qui sont similaires à certains égards à celles qui résident dans le cerveau humain, et fonctionnent à un rythme plus rapide que l'humain. En principe, toute image générée par DALL·E 2 aurait pu être dessinée à la main, modifiée à partir d'images existantes à l'aide d'outils ou recréée avec des modèles et des photographes embauchés ; ce différentiel de vitesse (et de coût) est une différence de degré qui peut s'ajouter à une différence de nature. En plus des comparaisons côte à côte, il est important de considérer comment les nouvelles technologies de génération d'images peuvent être combinées avec les précédentes. Même si les images d'outils tels que DALL·E 2 Preview ne sont pas immédiatement utilisables dans des contextes nuisibles, elles peuvent être combinées avec d'autres outils d'édition et de manipulation de photos pour augmenter la crédibilité ou la fidélité d'images particulières. Même les images basse fidélité peuvent être utilisées comme désinformation, par exemple si quelqu'un prétend qu'elles ont été prises avec un appareil photo de téléphone portable, peut-être avec l'ajout de flou. De plus, il est important de considérer les impacts que de tels déploiements auront sur les normes plus larges liées aux technologies de génération et de modification d'images. Compte tenu de ces considérations et de notre attente que cette classe de technologies continuera à progresser rapidement, nous recommandons aux parties prenantes de considérer non seulement les capacités du modèle de génération d'images en face d'eux, mais le contexte plus large dans lequel ces images peuvent être utilisées et partagées, à la fois aujourd'hui et sur toute la ligne. Travaux futurs Des travaux supplémentaires sont nécessaires pour comprendre le modèle et les impacts potentiels de son déploiement. Nous exposons ci-dessous quelques domaines de travail supplémentaires. Ceci n'est pas destiné à être exhaustif mais plutôt à mettre en évidence l'étendue et la profondeur du travail encore en suspens....
Problème 1562

Incidents associés

Incident 1793 Rapports
DALL-E 2 Reported for Gender and Racially Biased Outputs

Aperçu de DALL·E 2 - Risques et limites

Problème 1562

Incidents associés

Incident 1793 RapportsDALL-E 2 Reported for Gender and Racially Biased Outputs

Aperçu de DALL·E 2 - Risques et limites

Incident 1793 Rapports
DALL-E 2 Reported for Gender and Racially Biased Outputs