Report 5066

Hace poco le pedí a una nueva herramienta de inteligencia artificial del creador de ChatGPT que hiciera una tarea imposible: encontrar huevos baratos en mi barrio.

En menos de 10 minutos, la IA llamada Operador compró una docena de huevos y le pagó a una persona para que los entregara en mi casa. Todo por su cuenta.

Es increíble, solo que nunca le pedí al Operador que comprara los huevos. La IA se volvió loca: sin mi aprobación, autorizó mi tarjeta de crédito para comprar una docena de huevos por la friolera de $31.43. Me sentí un poco frustrado al darme cuenta de lo que había pasado: una mala decisión de la IA me había costado mucho dinero.

Bienvenidos a la nueva era de la IA, donde la tecnología intenta ayudar en el mundo real con tareas como pedir comida, enviar mensajes o hacer reservas. Pero ir más allá de la ventana del chatbot amplifica tanto la utilidad de la IA como sus desafíos, que ahora incluyen el riesgo de daños en el mundo real.

Operator es uno de los primeros agentes de IA, capaces de trabajar de forma independiente en tu nombre, en lugar de simplemente responder preguntas o generar imágenes desde un chatbot. Todas las grandes empresas de IA, desde Google hasta Anthropic, promueven la idea de que los agentes harán que la IA sea más útil en nuestras vidas y en los negocios. Operator ya está disponible como versión preliminar con una costosa suscripción a ChatGPT Pro de 200 $, pero su creador, OpenAI, planea ampliar el acceso en el futuro.

Entonces, ¿cómo puede un agente de IA hacer las cosas en el mundo real? No, Operator no tiene cuerpo robótico. Pero sí tiene acceso a su propio navegador web, por el que Operator mueve el cursor como un fantasma usando una laptop. Escribes en una ventana de chat lo que quieres que Operator haga y luego lo observas navegar por la web, deteniéndose a veces para hacerte preguntas adicionales.

Durante la última semana, usé Operator con éxito para reservar en un restaurante, crear un meme y cambiar la configuración de privacidad de Facebook. Pero tampoco logró acertar la fecha en un calendario, encontrar información útil en la web ni negociar con un agente de atención al cliente en vivo. (Si has estado usando Operator, envíame un correo electrónico para saber cómo).

Permítanme compartir dos historias sobre el uso de Operator: un éxito moderado al reducir mi factura de internet por cable y el fracaso que me trajo huevos de $31. En ellas, podemos vislumbrar algunas preguntas importantes sobre nuestra futura relación con la IA. La IA ahora quiere actuar como tu becario personal. Pero eso significa que tiene que conocerte muchísimo, descubrir cómo desenvolverte en el mundo y no arruinar ningún huevo en el proceso.

Éxito: El operador se hace cargo de mi factura de internet

Puse a prueba al operador con la tarea más tediosa que podía imaginar: interactuar con mi proveedor de servicios de internet. Escribí: "Entra en mi cuenta de Comcast Xfinity y mira si puedes encontrarme un plan más económico".

El operador respondió: "¡De acuerdo!". Pero 30 segundos después, se detuvo. Necesitaba mi acceso al sitio web de Xfinity.

El problema es que el operador no sabe mucho de los detalles esenciales de tu vida, pero necesita tus datos para ser realmente útil. Por eso, a menudo se detiene y pide ayuda.

Al menos por ahora, Operator intenta proteger la privacidad de cierta información sensible. Siempre que necesita datos como una contraseña, te pide que tomes el control de su navegador virtual y la ingreses manualmente. Mientras lo haces, deja de grabar, lo que significa que inicias sesión en su navegador, pero no guarda tu contraseña.

Es justo, tendrías que hacer lo mismo con un becario humano. Pero esta constante pausa para pedir información también era una de las mayores limitaciones de Operator. Es más: ¿Confiarías a una IA tus contraseñas, tus tarjetas de crédito, tu correo electrónico, tu cuenta de Facebook... tu información médica? Acceder a toda la información que necesitaría para ser eficiente será un gran desafío.

Una vez que Operator inició sesión en mi cuenta de Comcast, tardó unos dos minutos en hacer algo increíble: encontró la manera de ahorrarme dinero.

Bueno, más o menos. Dijo que había encontrado un plan de internet alternativo por $13 al mes. Me pareció muy bajo porque actualmente pago $68. Así que inspeccioné la ventana de su navegador y vi que Comcast realmente decía que este plan costaría "-$13" en comparación con mi plan actual; no vio el signo menos.

Otra gran pregunta sobre la IA es si puede comprender lo suficiente del mundo real, o incluso solo de la web, para operar en él. En repetidas ocasiones, durante mis pruebas, vi que Operator podía malinterpretar lo que veía en su navegador.

En este caso, Operator se redimió después de que le pidiera que detallara el precio completo, incluyendo impuestos y cargos. Dio el total correcto e incluso lo superó: leyó en la letra pequeña que esta oferta subiría $16 después de un período "de prueba", lo que la convertía en una mala oferta.

OpenAI me dijo que está trabajando en la "percepción" de la IA, pero aún hay margen de mejora.

Operator fue lo suficientemente inteligente como para evitar que cayera en las trampas de precios de Comcast. Entiendo cómo un agente de IA podría ser útil en muchas experiencias en línea hostiles, desde opciones de privacidad ocultas tras patrones oscuros hasta resultados de búsqueda de Amazon perdidos en un mar de anuncios engañosos.

Fallo: Operator se va de compras

Si vas a dejar que la IA haga cosas por ti, probablemente necesites estar seguro de que no va a arruinarlo todo. Especialmente cuando se trata de tu dinero.

Mi experiencia con los huevos comenzó como una simple solicitud de investigación: le pedí a Operator que "encontrara la docena de huevos más barata que pudiera enviar". Luego le di mi dirección.

Esta caja de una docena de huevos llegó a la puerta del autor después de que Operator los pidiera sin permiso. (Geoffrey A. Fowler/The Washington Post)

Para realizar su búsqueda, Operator necesitaba mis credenciales para servicios de entrega de comestibles. No lo pensé en ese momento, pero al hacerlo, Operator también accedió a las tarjetas de crédito que había ahorrado con esos servicios.

Al principio, Operator encontró unos huevos a $5.99 en una página web llamada Mercato, pero notó que había un requisito de pedido mínimo de $20. Le dije que podía añadir huevos adicionales para comprobar el precio final, pero decidió cambiar su búsqueda a Instacart.

Entonces, Operator se quedó en silencio mientras hacía clic, y me alejé del ordenador. Unos minutos después, recibí una alerta de la aplicación de tarjetas de crédito en mi teléfono: acababa de hacer una compra en Instacart.

¿Qué pasó y cómo lo detengo?, me pregunté. ¿Habría alguna posibilidad de que la IA se lanzara a comprar más? No le había dicho que comprara huevos, solo que buscara los baratos.

Pude reconstruir parte de lo sucedido. En la página web de Instacart, Operator encontró una docena de huevos blancos grandes (¡ni siquiera orgánicos!) por $13.19, más del doble que en la otra página. Por razones poco claras, los compró, añadiendo una propina de $3 y una tarifa de prioridad de $3, además de una tarifa de envío de $7.99, tarifas de servicio de $4 y una tarifa de 25 centavos por bolsa. Afortunadamente, al menos Operator rechazó una oferta para suscribirse a Instacart. (De hecho, Operator reportó incorrectamente el total final como $19.68, probablemente porque la pantalla de pago de Instacart ocultó algunas de estas tarifas).

Operator reportó su compra en Instacart en su interfaz de usuario posteriormente, pero nunca pidió permiso. También reportó el precio final incorrecto.

Lo preocupante es que Operator no solo cometió un error al entender los huevos "baratos", sino que también vulneró las medidas de seguridad programadas por OpenAI.

OpenAI afirma que Operator debe requerir la confirmación del usuario antes de completar cualquier acción "significativa" o irreversible, como comprar o enviar un correo electrónico. En sitios web altamente sensibles, como los bancarios, requiere que los usuarios supervisen activamente la ventana de su navegador o, de lo contrario, simplemente deja de funcionar. Y para ciertas tareas sensibles, como completar una solicitud de empleo, Operator debe negarse a hacerlo.

Cuando informé a OpenAI sobre el incidente, me dijeron que Operator cometió un error y no cumplió con sus medidas de seguridad.

"Estamos examinando activamente por qué Operator a veces no envía confirmaciones y trabajando para evitar problemas similares", declaró OpenAI en un comunicado. "Ya hemos empezado a mejorar las medidas de seguridad para reforzar la fiabilidad de Operator durante las transacciones, incluyendo requisitos de confirmación más estrictos y una mejor detección de escenarios ambiguos en los que el modelo debería solicitar la entrada del usuario por defecto".

Los huevos caros son un fallo de seguridad relativamente poco arriesgado. Pero, ¿qué ocurrirá en el futuro cuando tenga acceso a información mucho más crítica, como mi correo electrónico del trabajo, mi termostato o incluso mi coche?

Esta fue la primera vez que recuerdo haber visto a un ordenador malicioso tomar una decisión autónoma que me costara la vida en el mundo real. Tengo el presentimiento de que no será la última.

Problema 5066

Incidentes Asociados

Incidente 10281 Reporte
OpenAI's Operator Agent Reportedly Executed Unauthorized $31.43 Transaction Despite Safety Protocol

Dejé que el nuevo "agente" de ChatGPT gestionara mi vida. Gastó $31 en una docena de huevos.

Éxito: El operador se hace cargo de mi factura de internet

Fallo: Operator se va de compras

Problema 5066

Incidentes Asociados

Incidente 10281 ReporteOpenAI's Operator Agent Reportedly Executed Unauthorized $31.43 Transaction Despite Safety Protocol

Dejé que el nuevo "agente" de ChatGPT gestionara mi vida. Gastó $31 en una docena de huevos.

Éxito: El operador se hace cargo de mi factura de internet

Fallo: Operator se va de compras

Incidente 10281 Reporte
OpenAI's Operator Agent Reportedly Executed Unauthorized $31.43 Transaction Despite Safety Protocol