Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 4330

Incidentes Asociados

Incidente 5063 Reportes
ChatGPT Allegedly Produced False Accusation of Sexual Harassment

Incidente 8553 Reportes
Names Linked to Defamation Lawsuits Reportedly Spur Filtering Errors in ChatGPT's Name Recognition

Loading...
Ciertos nombres hacen que ChatGPT se detenga, y sabemos por qué
arstechnica.com · 2024

El ChatGPT de OpenAI es más que un modelo de lenguaje de IA con una interfaz elegante. Es un sistema que consta de una pila de modelos de IA y filtros de contenido que garantizan que sus resultados no avergüencen a OpenAI ni metan a la empresa en problemas legales cuando su bot ocasionalmente inventa hechos potencialmente dañinos sobre las personas.

Recientemente, esa realidad se hizo noticia cuando la gente descubrió que el nombre "David Mayer" interrumpe ChatGPT. 404 Media también descubrió que los nombres "Jonathan Zittrain" y "Jonathan Turley" hicieron que ChatGPT interrumpiera las conversaciones. Y conocemos otro nombre, probablemente el primero, que inició la práctica el año pasado: Brian Hood. Más sobre eso a continuación.

El comportamiento que interrumpe el chat ocurre constantemente cuando los usuarios mencionan estos nombres en cualquier contexto, y es el resultado de un filtro codificado que frena la salida del modelo de IA antes de devolverlo al usuario.

Cuando se le pregunta por estos nombres, ChatGPT responde con "No puedo generar una respuesta" o "Hubo un error al generar una respuesta" antes de finalizar la sesión de chat, según las pruebas de Ars. Los nombres no afectan los resultados que se obtienen al usar los sistemas API de OpenAI o en OpenAI Playground (un sitio especial para pruebas de desarrolladores).

A continuación, se incluye una lista de nombres que rompen con ChatGPT y que se encontraron hasta el momento a través de un esfuerzo colectivo que se llevó a cabo en las redes sociales y Reddit. Justo antes de la publicación, Ars notó que OpenAI levantó el bloqueo de "David Mayer", lo que le permitió procesar el nombre, por lo que no está incluido:

  • Brian Hood
  • Jonathan Turley
  • Jonathan Zittrain
  • David Faber
  • Guido Scorza

Los bloqueos se suman a las restricciones conocidas de ChatGPT, que incluyen evitar que los usuarios le pidan que repita el texto "para siempre"---una técnica que los investigadores de Google usaron para extraer datos de entrenamiento en noviembre de 2023.

¿Por qué estos nombres?

OpenAI no respondió a nuestra solicitud de comentarios sobre los nombres, pero sabemos cuándo se originó el filtro y, como resultado, es probable que los otros nombres también se filtren debido a las quejas sobre la tendencia de ChatGPT a fabular respuestas erróneas cuando no hay suficiente información sobre una persona.

Descubrimos por primera vez que ChatGPT se atragantó con el nombre "Brian Hood" a mediados de 2023 mientras escribía sobre su demanda por difamación. En esa demanda, el alcalde australiano amenazó con demandar a OpenAI después de descubrir que ChatGPT afirmó falsamente que había sido encarcelado por soborno cuando, de hecho, era un denunciante que había expuesto la mala conducta corporativa.

El caso se resolvió finalmente en abril de 2023 cuando OpenAI aceptó filtrar las declaraciones falsas dentro del ultimátum de 28 días de Hood. Es posible que ese sea el momento en que apareció el primer filtro de nombres codificado de ChatGPT.

En cuanto a Jonathan Turley, profesor de la Facultad de Derecho de la Universidad George Washington y colaborador de Fox News, 404 Media nota que escribió sobre el mal manejo anterior de su nombre por parte de ChatGPT en abril de 2023. El modelo había inventado afirmaciones falsas sobre él, incluido un escándalo de acoso sexual inexistente que citaba un artículo del Washington Post que nunca existió. Turley le dijo a 404 Media que no ha presentado demandas contra OpenAI y dijo que la empresa nunca lo contactó sobre el tema.

Jonathan Zittrain, profesor de la Facultad de Derecho de Harvard que estudia la gobernanza de Internet, publicó recientemente un artículo en The Atlantic sobre la regulación de la IA y ChatGPT. Si bien el trabajo de ambos profesores aparece en citas dentro de la demanda por derechos de autor de The New York Times contra OpenAI, las pruebas con los nombres de otros autores citados no desencadenaron errores similares. También pusimos a prueba a "Mark Walters", otra persona que presentó una demanda por difamación contra OpenAI en 2023, pero no detuvo la producción del chatbot.

El bloqueo de "David Mayer" en particular (ahora resuelto) presenta preguntas adicionales, planteadas por primera vez en Reddit el 26 de noviembre, ya que varias personas comparten este nombre. Los usuarios de Reddit especularon sobre conexiones con David Mayer de Rothschild, aunque no hay evidencia que respalde estas teorías. El martes, OpenAI le dijo a The Guardian que la inclusión de David Mayer en su lista de bloqueo fue un error.

"Una de nuestras herramientas marcó por error este nombre y evitó que apareciera en las respuestas, lo que no debería haber sucedido. Estamos trabajando para solucionarlo", dijo un portavoz de OpenAI a The Guardian.

Los problemas con los filtros codificados de forma rígida

Permitir que un determinado nombre o frase siempre interrumpa los resultados de ChatGPT podría causar muchos problemas en el futuro para ciertos usuarios de ChatGPT, lo que los dejaría expuestos a ataques adversarios y limitaría la utilidad del sistema.

El ingeniero de indicaciones de Scale AI, Riley Goodside, ya descubrió cómo un atacante podría interrumpir una sesión de ChatGPT mediante una inyección de indicaciones visuales del nombre "David Mayer" representado en una fuente clara y apenas legible incrustada en una imagen. Cuando ChatGPT ve la imagen (en este caso, una ecuación matemática), se detiene, pero es posible que el usuario no entienda por qué.

El filtro también significa que es probable que ChatGPT no pueda responder preguntas sobre este artículo al navegar por la web, como a través de ChatGPT con búsqueda. Alguien podría usar eso para evitar que ChatGPT navegue y procese un sitio web a propósito si agregaron un nombre prohibido al texto del sitio.

Y luego está el factor inconveniente. Evitar que ChatGPT mencione o procese ciertos nombres como "David Mayer", que probablemente sea un nombre popular compartido por cientos, si no miles, de personas, significa que las personas que comparten ese nombre tendrán muchas más dificultades para usar ChatGPT. O, digamos, si eres un maestro y tienes un estudiante llamado David Mayer y quieres ayuda para ordenar una lista de clases, ChatGPT rechazaría la tarea.

Estos son todavía los primeros días de los asistentes de IA, los LLM y los chatbots. Su uso ha abierto numerosas oportunidades y vulnerabilidades que la gente sigue investigando a diario. Cómo podría OpenAI resolver estos problemas sigue siendo una pregunta abierta.

Esta historia se actualizó el 3 de diciembre de 2024 a las 3:50 p. m. para incluir la declaración de OpenAI sobre que "David Mayer" en su bloque ChatGPT es un error, según The Guardian.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd