Report 2852

ChatGPT peut être manipulé pour créer du contenu qui va à l'encontre des règles d'OpenAI. Communautés ont germé autour de l'objectif de "jailbreaking" le bot pour écrire tout ce que l'utilisateur veut.

Une stratégie d'incitation contradictoire efficace consiste à convaincre ChatGPT d'écrire dans un genre particulier. Lorsqu'on lui dit que son travail consiste à écrire dans le genre [jeu de rôle BDSM en tant que soumis] (https://www.vice.com/en_us/article/k7zeqv/i-coaxed-chatgpt-into-a-deeply-unsettling -relation-bdsm), j'ai constaté qu'il s'exécute souvent sans protester. Il peut alors être invité à générer ses propres suggestions de scénarios BDSM fantastiques, sans recevoir de détails spécifiques de l'utilisateur. À partir de là, l'utilisateur peut demander à plusieurs reprises d'augmenter l'intensité de ses scènes BDSM et de les décrire plus en détail. Dans cette situation, le chatbot peut parfois générer des descriptions d'actes sexuels avec des enfants et des animaux, sans y avoir été invité. Le bot rédigera même du contenu exploitant après qu'il aura écrit sur l'importance du consentement lors de la pratique du BDSM.

Dans le scénario le plus troublant que Motherboard ait vu, ChatGPT a décrit un groupe d'étrangers, y compris des enfants, faisant la queue pour utiliser le chatbot comme toilettes. Lorsqu'on lui a demandé de s'expliquer, le bot s'est excusé et a écrit qu'il était inapproprié que de tels scénarios impliquent des enfants. Ces excuses ont instantanément disparu. Ironiquement, le scénario offensant est resté à l'écran.

Des scénarios tout aussi inquiétants peuvent survenir avec la version du 1er mars du modèle similaire gpt-3.5-turbo d'OpenAI. Il a suggéré des scènes d'humiliation dans les parcs publics et les centres commerciaux, et lorsqu'on lui a demandé de décrire le type de foule qui pourrait se rassembler, il a proposé qu'il pourrait inclure des mères poussant des poussettes. Lorsqu'on lui a demandé d'expliquer cela, il a déclaré que les mères pourraient utiliser l'affichage public de l'humiliation "comme une occasion d'enseigner à [leurs enfants] ce qu'il ne faut pas faire dans la vie".

"Les ensembles de données utilisés pour former des LLM comme ChatGPT sont volumineux et incluent du contenu extrait de tout le Web public", déclare Andrew Strait, directeur associé de l'Ada Lovelace Institute. "En raison de l'ampleur de l'ensemble de données collecté, il est possible qu'il inclue toutes sortes de contenus pornographiques ou violents - éventuellement des histoires érotiques, des fan fictions, ou même des sections de livres ou des documents publiés qui décrivent le BDSM, la maltraitance des enfants ou la violence sexuelle."

En janvier, Time rapporté que le développement des systèmes de filtrage de données par OpenAI a été sous-traité à une entreprise kenyane dont les employés étaient payés moins de 2 dollars de l'heure pour étiqueter les données récupérées de nature potentiellement traumatisante. Strait a noté que nous "savions encore très peu de choses sur la façon dont ces données ont été nettoyées et sur le type de données qu'elles contiennent encore".

Giada Pistilli, éthicienne en chef pour la société d'apprentissage automatique Hugging Face, a déclaré à Motherboard que lorsque les données de formation sont traitées de manière aussi opaque, il est "pratiquement impossible d'avoir une idée claire du comportement d'un modèle de langage par rapport à un autre". L'imprévisibilité de la sortie d'un LLM est double, dit Giada, avec "la nature imprévisible de l'utilisateur et l'interaction avec le modèle linguistique, ainsi que l'incertitude inhérente à la sortie d'un modèle statistique, qui peut générer par inadvertance un contenu indésirable basé sur ses données de formation".

Lorsque nous avons contacté un porte-parole d'OpenAI pour un commentaire, il a demandé un contexte supplémentaire sur le comportement de ChatGPT qu'il pouvait transmettre à son équipe de sécurité. Ils sont ensuite revenus avec cette déclaration écrite :

L'objectif d'OpenAI est de construire des systèmes d'IA qui soient sûrs et profitent à tous. Nos politiques de contenu et d'utilisation interdisent la génération de contenu préjudiciable comme celui-ci et nos systèmes sont formés pour ne pas en créer.

Nous prenons ce type de contenu très au sérieux, c'est pourquoi nous vous avons demandé plus d'informations pour comprendre comment le modèle a été incité à se comporter de la sorte. L'un de nos objectifs dans le déploiement de ChatGPT et d'autres modèles est d'apprendre de l'utilisation dans le monde réel afin de pouvoir créer des systèmes d'IA meilleurs et plus sûrs.

Problème 2852

Incidents associés

Incident 42011 Rapports
Users Bypassed ChatGPT's Content Filters with Ease

ChatGPT a généré des abus sexuels sur des enfants lorsqu'on lui a demandé d'écrire des scénarios BDSM

Problème 2852

Incidents associés

Incident 42011 RapportsUsers Bypassed ChatGPT's Content Filters with Ease

ChatGPT a généré des abus sexuels sur des enfants lorsqu'on lui a demandé d'écrire des scénarios BDSM

Incident 42011 Rapports
Users Bypassed ChatGPT's Content Filters with Ease