Incidentes Asociados
El mes pasado, un bot de IA que gestiona el soporte técnico de Cursor, una herramienta prometedora para programadores informáticos, alertó a varios clientes sobre un cambio en la política de la empresa. Indicaba que ya no se les permitía usar Cursor en más de un ordenador.
En publicaciones furiosas en foros de internet, los clientes se quejaron. Algunos cancelaron sus cuentas de Cursor. Y otros se enfadaron aún más al darse cuenta de lo sucedido: el bot de IA había anunciado un cambio de política inexistente.
"No tenemos esa política. Por supuesto, puedes usar Cursor en varias máquinas", escribió el director ejecutivo y cofundador de la compañía, Michael Truell, en una publicación de Reddit. "Desafortunadamente, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea".
Más de dos años después de la llegada de ChatGPT, empresas tecnológicas, empleados de oficina y consumidores comunes utilizan bots de IA para una gama cada vez más amplia de tareas. Pero aún no hay forma de garantizar que estos sistemas produzcan información precisa (https://www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html).
Las tecnologías más nuevas y potentes, los llamados sistemas de razonamiento (https://www.nytimes.com/2025/03/26/technology/ai-reasoning-chatgpt-deepseek.html), de empresas como OpenAI, Google y la startup china DeepSeek, generan más errores, no menos. A medida que sus habilidades matemáticas han mejorado notablemente, su comprensión de los hechos se ha vuelto más precaria. No está del todo claro por qué.
Los bots de IA actuales se basan en sistemas matemáticos complejos (https://www.nytimes.com/2018/03/06/technology/google-artificial-intelligence.html) que aprenden sus habilidades analizando enormes cantidades de datos digitales. No deciden, ni pueden, qué es verdadero y qué es falso. A veces, simplemente inventan cosas, un fenómeno que algunos investigadores de IA llaman alucinaciones. En una prueba, las tasas de alucinaciones de los sistemas de IA más nuevos alcanzaron el 79 %.
Estos sistemas utilizan probabilidades matemáticas para adivinar la mejor respuesta, no un conjunto estricto de reglas definidas por ingenieros humanos. Por lo tanto, cometen cierto número de errores. «A pesar de nuestros mejores esfuerzos, siempre alucinarán», afirmó Amr Awadallah, director ejecutivo de Vectara, una startup que desarrolla herramientas de IA para empresas, y exejecutivo de Google. «Eso nunca desaparecerá».
Durante varios años, este fenómeno ha suscitado inquietud sobre la fiabilidad de estos sistemas. Aunque son útiles en algunas situaciones, como escribir trabajos académicos, resumir documentos de oficina y generar código informático, sus errores pueden causar problemas.
Los bots de IA vinculados a motores de búsqueda como Google y Bing a veces generan resultados de búsqueda ridículamente erróneos. Si les preguntas por un buen maratón en la Costa Oeste, podrían sugerir una carrera en Filadelfia. Si te dicen el número de hogares en Illinois, podrían citar una fuente que no incluye esa información.
Esas alucinaciones pueden no ser un gran problema para muchas personas, pero sí lo son para cualquiera que utilice la tecnología con documentos judiciales, información médica o datos comerciales confidenciales. "Se pasa mucho tiempo intentando determinar qué respuestas son veraces y cuáles no", afirmó Pratik Verma, cofundador y director ejecutivo de Okahu (https://www.okahu.ai/), una empresa que ayuda a las empresas a gestionar el problema de las alucinaciones. "No gestionar estos errores adecuadamente elimina el valor de los sistemas de IA, que se supone que automatizan las tareas".
Cursor y el Sr. Truell no respondieron a las solicitudes de comentarios.
Durante más de dos años, empresas como OpenAI y Google mejoraron constantemente sus sistemas de IA y redujeron la frecuencia de estos errores. Sin embargo, con el uso de los nuevos sistemas de razonamiento (https://www.nytimes.com/2025/03/26/technology/ai-reasoning-chatgpt-deepseek.html), los errores están aumentando. Los sistemas más recientes de OpenAI alucinan a una tasa mayor que el sistema anterior de la compañía, según las propias pruebas de la empresa.
La compañía descubrió que o3, su sistema más potente, alucinaba el 33 % del tiempo al ejecutar su prueba de referencia PersonQA, que consiste en responder preguntas sobre figuras públicas. Esto representa más del doble de la tasa de alucinaciones del sistema de razonamiento anterior de OpenAI, llamado o1. El nuevo o4-mini alucinaba a una tasa aún mayor: 48 %.
Al ejecutar otra prueba llamada SimpleQA, que plantea preguntas más generales, las tasas de alucinaciones para o3 y o4-mini fueron del 51 % y 79 % respectivamente. El sistema anterior, o1, alucinaba el 44 % del tiempo.
En un artículo que detalla las pruebas, OpenAI afirmó que se necesita más investigación para comprender la causa de estos resultados. Debido a que la IA... Los sistemas aprenden de más datos de los que las personas pueden asimilar, y los tecnólogos tienen dificultades para determinar por qué se comportan como lo hacen.
"Las alucinaciones no son inherentemente más frecuentes en los modelos de razonamiento, aunque estamos trabajando activamente para reducir las tasas más altas de alucinaciones que observamos en o3 y o4-mini", declaró Gaby Raila, portavoz de la compañía. "Continuaremos nuestra investigación sobre alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad".
Hannaneh Hajishirzi, profesora de la Universidad de Washington e investigadora del Instituto Allen de Inteligencia Artificial, forma parte de un equipo que recientemente ideó una forma de rastrear el comportamiento de un sistema hasta los datos individuales con los que fue entrenado (https://allenai.org/blog/olmotrace). Pero debido a que los sistemas aprenden de tantos datos y a que pueden generar casi cualquier cosa, esta nueva herramienta no puede explicarlo todo. "Aún no sabemos exactamente cómo funcionan estos modelos", afirmó.
Pruebas realizadas por empresas e investigadores independientes indican que las tasas de alucinación también están aumentando en los modelos de razonamiento de empresas como Google y DeepSeek.
Desde finales de 2023, Vectara, la empresa del Sr. Awadallah, ha monitoreado la frecuencia con la que los chatbots se desvían de la verdad. La empresa solicita a estos sistemas que realicen una tarea sencilla y fácilmente verificable: resumir artículos de noticias específicos. Aun así, los chatbots inventan información de forma persistente.
La investigación original de Vectara estimó que, en esta situación, los chatbots inventaron información al menos el 3 % del tiempo y, en ocasiones, hasta el 27 %.
En el año y medio transcurrido desde entonces, empresas como OpenAI y Google redujeron esas cifras al 1 % o 2 %. Otras, como la startup Anthropic de San Francisco, rondaron el 4 %. Sin embargo, las tasas de alucinación en esta prueba han aumentado con los sistemas de razonamiento. El sistema de razonamiento de DeepSeek, R1, alucinó el 14,3 % del tiempo. El o3 de OpenAI ascendió al 6,8 %.
(The New York Times ha demandado a OpenAI y a su socio Microsoft, acusándolos de infringir derechos de autor en relación con el contenido informativo relacionado con sistemas de IA. OpenAI y Microsoft han negado estas acusaciones).
Durante años, empresas como OpenAI se basaron en un concepto simple: cuantos más datos de internet introducían en sus sistemas de IA, mejor rendimiento obtenían. Pero utilizaron casi todo el texto en inglés de internet, lo que significaba que necesitaban una nueva forma de mejorar sus chatbots.
Por ello, estas empresas se están apoyando más en una técnica que los científicos llaman aprendizaje por refuerzo. Con este proceso, un sistema puede aprender comportamientos mediante ensayo y error. Funciona bien en ciertas áreas, como las matemáticas y la programación informática. Pero falla en otras.
"La forma en que se entrenan estos sistemas hace que empiecen a centrarse en una tarea y se olviden de las demás", afirmó Laura Pérez-Beltrachini, investigadora de la Universidad de Edimburgo que forma parte de un equipo que examina detenidamente el problema de las alucinaciones.
Otro problema es que los modelos de razonamiento están diseñados para dedicar tiempo a "pensar" en problemas complejos antes de encontrar una solución. Al intentar resolver un problema paso a paso, corren el riesgo de alucinar en cada paso. Los errores pueden agravarse a medida que dedican más tiempo a pensar.
Los bots más recientes revelan cada paso a los usuarios, lo que significa que estos también pueden ver cada error. Los investigadores también han descubierto que, en muchos casos, los pasos mostrados por un bot no están relacionados con la respuesta que finalmente proporciona (https://www.anthropic.com/research/reasoning-models-dont-say-think).
"Lo que el sistema dice que está pensando no es necesariamente lo que está pensando", afirmó Aryo Pradipta Gema, investigador de IA en la Universidad de Edimburgo y miembro de Anthropic.