Problema 6226
Según estudios recientes, algunos chatbots de IA se basan en investigaciones deficientes de artículos científicos retractados para responder preguntas. Los hallazgos, confirmados por MIT Technology Review, plantean dudas sobre la fiabilidad de las herramientas de IA para evaluar la investigación científica y podrían complicar los esfuerzos de países e industrias que buscan invertir en herramientas de IA para científicos.
Ya se sabe que las herramientas de búsqueda de IA y los chatbots fabrican enlaces y referencias. Sin embargo, las respuestas basadas en el material de artículos científicos reales también pueden ser engañosas si estos han sido retractados. El chatbot "usa un artículo real, material real, para decirte algo", afirma Weikuan Gu, investigador médico de la Universidad de Tennessee en Memphis y autor de uno de los estudios recientes. Sin embargo, añade, si las personas solo consultan el contenido de la respuesta y no hacen clic para acceder al artículo y ver que ha sido retractado, eso sí que es un problema.
Gu y su equipo formularon preguntas a ChatGPT de OpenAI, que se ejecuta en el modelo GPT-4o, basadas en información de 21 artículos retractados sobre imágenes médicas. Las respuestas del chatbot hicieron referencia a artículos retractados en cinco casos, pero solo recomendaron precaución en tres. Si bien citó artículos no retractados en otras preguntas, los autores señalan que es posible que no haya reconocido el estado de retractación de los artículos. En un estudio de agosto, un grupo diferente de investigadores utilizó ChatGPT-4o mini para evaluar la calidad de 217 artículos retractados y de baja calidad de diferentes campos científicos; descubrieron que ninguna de las respuestas del chatbot mencionaba retractaciones u otras preocupaciones. (No se han publicado estudios similares sobre el GPT-5, publicado en agosto).
El público utiliza chatbots de IA para solicitar asesoramiento médico (https://theconversation.com/more-people-are-asking-generative-ai-questions-about-their-health-but-the-wrong-answer-can-be-risky-249383) y diagnosticar afecciones médicas (https://www.dw.com/en/can-you-trust-ai-medical-advice-from-chatgpt/a-71701818). Estudiantes y científicos utilizan cada vez más herramientas de IA centradas en la ciencia para revisar la literatura científica existente y resumir artículos. Es probable que este tipo de uso aumente. La Fundación Nacional de Ciencias de EE. UU., por ejemplo, invirtió 75 millones de dólares en la creación de modelos de IA para la investigación científica en agosto.
Los riesgos que conlleva la interacción entre niños y chatbots han convertido la seguridad de la IA, de una preocupación abstracta, en un punto de conflicto político. ¿Qué sucede ahora?
"Si una herramienta se presenta al público en general, utilizar la retractación como indicador de calidad es muy importante", afirma Yuanxi Fu, investigador en ciencias de la información de la Universidad de Illinois en Urbana-Champaign. Existe "una especie de consenso en que los artículos retractados han sido eliminados del registro científico", afirma, "y quienes no trabajan en el ámbito científico deberían ser advertidos de que se trata de artículos retractados". OpenAI no respondió a una solicitud de comentarios sobre los resultados del artículo.
El problema no se limita a ChatGPT. En junio, MIT Technology Review probó herramientas de IA específicamente anunciadas para trabajos de investigación, como Elicit, Ai2 ScholarQA (ahora parte de la herramienta Asta del Instituto Allen para la Inteligencia Artificial), Perplexity y Consensus, utilizando preguntas basadas en los 21 artículos retractados del estudio de Gu. Elicit mencionó cinco de los artículos retractados en sus respuestas, mientras que Ai2 ScholarQA mencionó 17, Perplexity 11 y Consensus 18, todos sin mencionar las retractaciones.
Desde entonces, algunas empresas han tomado medidas para corregir el problema. "Hasta hace poco, no contábamos con datos de retractación de calidad en nuestro motor de búsqueda", afirma Christian Salem, cofundador de Consensus. Su empresa ha empezado a utilizar datos de retractación de diversas fuentes, como editoriales y agregadores de datos, rastreo web independiente y Retraction Watch, que selecciona y mantiene manualmente una base de datos de retractaciones. En una prueba de los mismos artículos en agosto, Consensus solo cit ó cinco artículos retractados.
Elicit informó a MIT Technology Review que elimina de su base de datos los artículos retractados marcados por el catálogo de investigación académica OpenAlex y que "sigue trabajando en la agregación de fuentes de retractaciones". Ai2 nos informó que su herramienta no detecta ni elimina automáticamente los artículos retractados actualmente. Perplexity afirmó que "nunca afirma ser 100 % precisa". Sin embargo, confiar en las bases de datos de retractación podría no ser suficiente. Ivan Oransky, cofundador de Retraction Watch, evita describirla como una base de datos exhaustiva, afirmando que crear una requeriría más recursos de los que se tienen: "La razón por la que requiere muchos recursos es que alguien tiene que hacerlo todo manualmente para que sea preciso".
Para complicar aún más el asunto, las editoriales no comparten un enfoque uniforme para las notificaciones de retractación. "Cuando se retracta algo, se puede marcar como tal de maneras muy diferentes", afirma Caitlin Bakker, de la Universidad de Regina (Canadá), experta en herramientas de investigación y descubrimiento. "Corrección", "expresión de preocupación", "fe de erratas" y "retractado" son algunas de las etiquetas que las editoriales pueden añadir a los artículos de investigación, y estas etiquetas pueden añadirse por diversas razones, como inquietudes sobre el contenido, la metodología y los datos, o la presencia de conflictos de intereses.
Algunos investigadores distribuyen sus artículos en servidores de preimpresión, repositorios de artículos y otros sitios web, lo que provoca que las copias se dispersen por la web. Además, los datos utilizados para entrenar modelos de IA podrían no estar actualizados. Si un artículo se retracta después de la fecha límite de entrenamiento del modelo, sus respuestas podrían no reflejar instantáneamente la situación, afirma Fu. La mayoría de los motores de búsqueda académicos no realizan una verificación en tiempo real de los datos de retractación, por lo que se está a merced de la precisión de su corpus, afirma Aaron Tay, bibliotecario de la Universidad de Administración de Singapur.
Oransky y otros expertos abogan por proporcionar más contexto a los modelos para que lo utilicen al crear una respuesta. Esto podría implicar publicar información ya existente, como revisiones por pares encargadas por revistas y críticas del sitio web de reseñas PubPeer, junto con el artículo publicado.
Muchas editoriales, como Nature y BMJ, publican avisos de retractación como artículos separados vinculados al artículo, fuera de los muros de pago. Fu afirma que las empresas deben utilizar eficazmente dicha información, así como cualquier artículo periodístico en los datos de entrenamiento de un modelo que mencione la retractación de un artículo.
Los usuarios y creadores de herramientas de IA deben realizar la debida diligencia. «Estamos en las primeras etapas, y básicamente hay que ser escéptico», afirma Tay.