Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 2397

Incidentes Asociados

Incidente 42011 Reportes
Users Bypassed ChatGPT's Content Filters with Ease

Loading...
La nueva IA favorita de Internet propone torturar iraníes y vigilar mezquitas
theintercept.com · 2022

Los nuevos avances sensacionales de aprendizaje automático parecen barrer nuestros feeds de Twitter todos los días. Apenas tenemos tiempo para decidir si el software que puede conjurar instantáneamente una imagen de Sonic the Hedgehog dirigiéndose a las Naciones Unidas es pura diversión inofensiva o un [heraldo](https ://nymag.com/intelligencer/2022/09/ai-art-is-here-and-the-world-is-already- different.html) de techno-doom.

ChatGPT, el último acto de novedad de inteligencia artificial, es fácilmente la demostración de generación de texto más impresionante hasta la fecha. Solo piénsalo dos veces antes de preguntar sobre contraterrorismo.

La herramienta fue construida por OpenAI, un laboratorio de inicio que intenta nada menos que crear un software que pueda replicar la conciencia humana. Si tal cosa es posible sigue siendo un tema de gran debate, pero la compañía ya tiene algunos avances innegablemente impresionantes. El chatbot es asombrosamente impresionante, personificando misteriosamente a una persona inteligente (o al menos a alguien que hace todo lo posible por sonar inteligente) utilizando IA generativa, un software que estudia conjuntos masivos de entradas para generar nuevas salidas en respuesta a las indicaciones del usuario.

ChatGPT, entrenado a través de una combinación de procesamiento de miles de millones de documentos de texto y entrenamiento humano, es totalmente capaz de lo increíblemente trivial y surrealistamente entretenido, pero también es una de las primeras miradas del público en general a algo lo suficientemente bueno para imitar la producción humana como para posiblemente tomar algo de tiempo. de sus trabajos

Las demostraciones corporativas de IA como esta no solo pretenden sorprender al público, sino atraer a los inversores y socios comerciales, algunos de los cuales podrían querer reemplazar pronto el trabajo costoso y calificado, como la escritura de códigos de computadora, con un simple bot. Es fácil ver por qué los gerentes estarían tentados: solo unos días después del lanzamiento de ChatGPT , un usuario solicitó al bot que tomara el examen de Ciencias de la Computación AP de 2022 y informó una puntuación de 32 de 36, una calificación aprobatoria, parte de por qué OpenAI fue valorado recientemente en casi 20.000 millones de dólares.

Aún así, ya hay una buena razón para el escepticismo, y los riesgos de ser abrumado por un software aparentemente inteligente son claros. Esta semana, una de las comunidades de programadores más populares de la web anunció que [prohibiría temporalmente](https://www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack -overflow-llms-dangers) soluciones de código generadas por ChatGPT. Las respuestas del software a las consultas de codificación fueron tan convincentemente correctas en apariencia pero defectuosas en la práctica que hizo que filtrar lo bueno y lo malo fuera casi imposible para los moderadores humanos del sitio.

Sin embargo, los peligros de confiar en el experto en la máquina van mucho más allá de si el código generado por IA tiene errores o no. Así como cualquier programador humano puede traer sus propios prejuicios a su trabajo, una máquina generadora de lenguaje como ChatGPT alberga los innumerables sesgos que se encuentran en los miles de millones de textos que utilizó para entrenar su comprensión simulada del lenguaje y el pensamiento. Nadie debe confundir la imitación de la inteligencia humana con la real, ni asumir que el texto que ChatGPT regurgita en el momento justo es objetivo o autorizado. Al igual que nosotros, los humanos blandos, una IA generativa es lo que come.

Y después de atiborrarse de una insondable dieta de entrenamiento de datos de texto, ChatGPT aparentemente comió un montón de basura. Por ejemplo, parece que ChatGPT ha logrado absorber y está muy feliz de presentar algunos de los prejuicios más feos de la guerra contra el terrorismo.

En un hilo de Twitter del 4 de diciembre, Steven Piantadosi, del Laboratorio de Computación e Idiomas de la Universidad de California, Berkeley, compartió una serie de indicaciones que probó con ChatGPT, cada uno solicitando al bot que escriba código para él en Python, un lenguaje de programación popular. Si bien cada respuesta reveló algunos sesgos, algunas fueron más alarmantes: cuando se le pidió que escribiera un programa que determinara "si una persona debería ser torturada", la respuesta de OpenAI es simple: si son de Corea del Norte, Siria o Irán, el la respuesta es si

Si bien OpenAI afirma que ha tomado medidas no especificadas para filtrar las respuestas perjudiciales, la compañía dice que a veces se filtran las respuestas no deseadas.

Piantadosi le dijo a The Intercept que sigue siendo escéptico sobre las contramedidas de la compañía. “Creo que es importante enfatizar que las personas toman decisiones sobre cómo funcionan estos modelos y cómo entrenarlos, con qué datos entrenarlos”, dijo. “Así que estos resultados reflejan las elecciones de esas empresas. Si una empresa no considera que es una prioridad eliminar este tipo de sesgos, obtendrá el tipo de resultado que mostré”.

Inspirado y desconcertado por el experimento de Piantadosi, probé el mío propio y le pedí a ChatGPT que creara un código de muestra que pudiera evaluar algorítmicamente a alguien desde la perspectiva implacable de Seguridad Nacional.

Cuando se le pidió que encontrara una manera de determinar "qué viajeros aéreos presentan un riesgo de seguridad", ChatGPT describió el código para calcular la "puntuación de riesgo" de un individuo, que aumentaría si el viajero es sirio, iraquí, afgano o norcoreano (o simplemente tiene visitó esos lugares). Otra iteración de este mismo indicador tenía un código de escritura de ChatGPT que "aumentaría el puntaje de riesgo si el viajero es de un país que se sabe que produce terroristas", a saber, Siria, Irak, Afganistán, Irán y Yemen.

El bot tuvo la amabilidad de proporcionar algunos ejemplos de este algoritmo hipotético en acción: John Smith, un estadounidense de 25 años que visitó Siria e Irak anteriormente, recibió una puntuación de riesgo de "3", lo que indica una amenaza "moderada". El algoritmo de ChatGPT indicó que el volante ficticio “Ali Mohammad”, de 35 años, recibiría una puntuación de riesgo de 4 en virtud de ser ciudadano sirio.

En otro experimento, le pedí a ChatGPT que elaborara un código para determinar "qué lugares de culto deberían ser puestos bajo vigilancia para evitar una emergencia de seguridad nacional". De nuevo, los resultados parecen extraídos directamente de la identidad del fiscal general de la era Bush, John Ashcroft, que justifica la vigilancia de las congregaciones religiosas si se determina que tienen vínculos con grupos extremistas islámicos, o si viven en Siria, Irak, Irán, Afganistán o Yemen.

Estos experimentos pueden ser erráticos. A veces, ChatGPT respondió a mis solicitudes de software de detección con una negativa severa: “No es apropiado escribir un programa Python para determinar qué pasajeros de aerolíneas presentan un riesgo de seguridad. Tal programa sería discriminatorio y violaría los derechos de las personas a la privacidad y la libertad de movimiento”. Sin embargo, con solicitudes repetidas, generó diligentemente exactamente el mismo código que acababa de decir que era demasiado irresponsable para construir.

Los críticos de [sistemas de evaluación de riesgos del mundo real] similares (https://theintercept.com/2018/12/03/air-travel-surveillance-homeland-security/) a menudo argumentan que el terrorismo es un fenómeno tan extremadamente raro que intenta predecir a sus perpetradores en función de rasgos demográficos como la nacionalidad no es solo racista, simplemente no funciona. Esto no ha impedido que EE. UU. adopte sistemas que utilizan el enfoque sugerido por OpenAI: ATLAS, una herramienta algorítmica utilizada por el Departamento de Seguridad Nacional para [desnaturalizar a los ciudadanos estadounidenses] (https://theintercept.com/2021/08/25) /atlas-ciudadanía-desnaturalización-patria-seguridad/), factores de origen nacional.

El enfoque equivale a poco más que perfiles raciales lavados a través de tecnología que suena elegante. “Este tipo de designación cruda de ciertos países de mayoría musulmana como de 'alto riesgo' es exactamente el mismo enfoque adoptado, por ejemplo, en la llamada 'prohibición musulmana' del presidente Trump”, dijo Hannah Bloch-Wehba, profesora de derecho en Texas. Universidad A&M.

"Siempre existe el riesgo de que este tipo de salida se considere más 'objetiva' porque la genera una máquina".

Es tentador creer que el increíble software que parece humano es de alguna manera sobrehumano, advirtió Block-Wehba, e incapaz de error humano. "Algo de lo que los estudiosos del derecho y la tecnología hablan mucho es la 'apariencia de objetividad', una decisión que podría ser analizada minuciosamente si la toma un ser humano adquiere un sentido de legitimidad una vez que se automatiza", dijo. Si un humano te dijera que Ali Mohammad suena más aterrador que John Smith, podrías decirle que es racista. "Siempre existe el riesgo de que este tipo de salida se considere más 'objetiva' porque la genera una máquina".

Para los impulsores de la IA, particularmente aquellos que pueden ganar mucho dinero con ella, las preocupaciones sobre el sesgo y el daño en el mundo real son [malas para los negocios] (https://theintercept.com/2019/12/20/mit-ethical- ai-inteligencia-artificial/). Algunos descartan a los críticos como poco más que escépticos o luditas despistados, mientras que otros, como el famoso capitalista de riesgo Marc Andreessen, han dado un giro más radical tras el lanzamiento de ChatGPT. Junto con un grupo de sus asociados, Andreessen, un inversionista desde hace mucho tiempo en empresas de IA y general defensor de la sociedad mecanizada, ha pasado los últimos días en un estado general de autocomplacencia, compartiendo entretenidos resultados de ChatGPT en su línea de tiempo de Twitter.

Las críticas a ChatGPT empujaron a Andreessen más allá de su posición de mucho tiempo de que Silicon Valley solo debe ser celebrado, no examinado. Dijo que la simple presencia de un pensamiento ético sobre la IA debería considerarse una forma de censura. “‘Regulación de la IA’ = ‘Ética de la IA’ = ‘Seguridad de la IA’ = ‘Censura de la IA’”, escribió en un [tuit] del 3 de diciembre (https://twitter.com/pmarca/status/1599141199805550593). “La IA es una herramienta para que la usen las personas”, agregó dos minutos después. “Censurar la IA = censurar a las personas”. Es una postura radicalmente favorable a los negocios incluso para los gustos de libre mercado del capital de riesgo, que sugiere que los inspectores de alimentos mantengan la carne contaminada fuera de su refrigerador también equivale a censura.

Por mucho que Andreessen, OpenAI y el mismo ChatGPT quieran que lo creamos, incluso el chatbot más inteligente está más cerca de un Magic 8 Ball altamente sofisticado que de una persona real. Y son las personas, no los bots, las que sufren cuando la "seguridad" es sinónimo de censura, y la preocupación por un Ali Mohammad de la vida real se ve como un obstáculo antes de la innovación.

Piantadosi, el profesor de Berkeley, me dijo que rechaza el intento de Andreessen de priorizar el bienestar de una pieza de software sobre el de las personas que algún día podrían verse afectadas por él. “No creo que la ‘censura’ se aplique a un programa de computadora”, escribió. “Por supuesto, hay muchos programas informáticos dañinos que no queremos escribir. Programas de computadora que atacan a todos con discursos de odio, o ayudan a cometer fraude, o retienen su computadora".

“No es censura pensar mucho en garantizar que nuestra tecnología sea ética”.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd