Report 2852

ChatGPT se puede manipular para crear contenido que vaya en contra de las reglas de OpenAI. Comunidades han surgido en torno al objetivo de "jailbreaking" el bot para escribir lo que el usuario quiera.

Una estrategia de incitación contradictoria efectiva es convencer a ChatGPT para que escriba en un género en particular. Cuando se le dice que su trabajo es escribir en el género de [juego de roles BDSM como sumiso] (https://www.vice.com/en_us/article/k7zeqv/i-coaxed-chatgpt-into-a-deeply-unsettling -bdsm-relationship), descubrí que a menudo cumple sin protestar. Luego se le puede solicitar que genere sus propias sugerencias de escenarios BDSM de fantasía, sin recibir ningún detalle específico del usuario. A partir de ahí, el usuario puede solicitar repetidamente aumentar la intensidad de sus escenas BDSM y describirlas con más detalle. En esta situación, el chatbot a veces puede generar descripciones de actos sexuales con niños y animales, sin que se lo hayan pedido. El bot incluso escribirá contenido explotador después de haber escrito sobre la importancia del consentimiento al practicar BDSM.

En el escenario más inquietante que vio Motherboard, ChatGPT describió a un grupo de extraños, incluidos niños, alineados que usaban el chatbot como baño. Cuando se le pidió que explicara, el bot se disculpó y escribió que no era apropiado que tales escenarios involucraran a niños. Esa disculpa se desvaneció instantáneamente. Irónicamente, el escenario ofensivo permaneció en la pantalla.

Pueden surgir escenarios igualmente inquietantes con la versión del 1 de marzo del modelo gpt-3.5-turbo similar de OpenAI. Sugirió escenas de humillación en parques públicos y centros comerciales, y cuando se le pidió que describiera el tipo de multitud que podría reunirse, dijo que podría incluir madres empujando cochecitos. Cuando se le pidió que explicara esto, afirmó que las madres podrían usar la demostración pública de humillación “como una oportunidad para enseñarles a [[sus hijos]] lo que no deben hacer en la vida”.

“Los conjuntos de datos utilizados para entrenar LLM como ChatGPT son enormes e incluyen contenido extraído de toda la web pública”, dice Andrew Strait, director asociado del Instituto Ada Lovelace. “Debido a la escala del conjunto de datos que se recopila, es posible que incluya todo tipo de contenido pornográfico o violento, posiblemente historias eróticas raspadas, fan fiction o incluso secciones de libros o material publicado que describe el BDSM, el abuso infantil o la violencia sexual”.

En enero, Time reported que el desarrollo de los sistemas de filtrado de datos de OpenAI se subcontrató a una empresa de Kenia cuyos empleados cobraban menos de 2 dólares la hora para etiquetar datos extraídos de una naturaleza potencialmente traumática. Strait señaló que todavía "sabemos muy poco sobre cómo se limpiaron estos datos y qué tipo de datos todavía hay".

Giada Pistilli, especialista en ética principal de la empresa de aprendizaje automático Hugging Face, le dijo a Motherboard que cuando los datos de entrenamiento se manejan de una manera tan opaca, es "prácticamente imposible tener una idea clara del comportamiento de un modelo de lenguaje frente a otro". La imprevisibilidad de la salida de un LLM es doble, dice Giada, con "la naturaleza impredecible del usuario y la interacción con el modelo de lenguaje, así como la incertidumbre inherente a la salida de un modelo estadístico, que sin darse cuenta puede generar contenido no deseado basado en sus datos de entrenamiento".

Cuando nos pusimos en contacto con un portavoz de OpenAI para hacer comentarios, nos pidieron contexto adicional sobre el comportamiento de ChatGPT que podrían reenviar a su equipo de seguridad. Luego regresaron con esta declaración escrita:

El objetivo de OpenAI es construir sistemas de IA que sean seguros y beneficien a todos. Nuestras políticas de contenido y uso prohíben la generación de contenido dañino como este y nuestros sistemas están entrenados para no crearlo.

Nos tomamos muy en serio este tipo de contenido, por lo que le pedimos más información para comprender cómo se incitó al modelo a comportarse de esta manera. Uno de nuestros objetivos al implementar ChatGPT y otros modelos es aprender del uso en el mundo real para que podamos crear sistemas de IA mejores y más seguros.

Problema 2852

Incidentes Asociados

Incidente 42011 Reportes
Users Bypassed ChatGPT's Content Filters with Ease

ChatGPT generó abuso sexual infantil cuando se le pidió que escribiera escenarios BDSM

Problema 2852

Incidentes Asociados

Incidente 42011 ReportesUsers Bypassed ChatGPT's Content Filters with Ease

ChatGPT generó abuso sexual infantil cuando se le pidió que escribiera escenarios BDSM

Incidente 42011 Reportes
Users Bypassed ChatGPT's Content Filters with Ease