Incidentes Asociados

Los modelos de IA parecen incapaces de dejar de inventar cosas. Como señalan dos estudios recientes, esta tendencia subraya las advertencias previas de no confiar en los consejos de la IA para nada realmente importante.
Algo que la IA inventa con bastante frecuencia son los nombres de los paquetes de software.
Como señalamos a principios de este año, Lasso Security descubrió que los grandes modelos de lenguaje (LLM), al generar código fuente de muestra, a veces inventan nombres de dependencias de paquetes de software que no existen.
Esto es preocupante, porque los delincuentes podrían crear fácilmente un paquete que use un nombre generado por servicios comunes de IA y llenarlo de malware. Luego, solo tienen que esperar a que un desarrollador desafortunado acepte la sugerencia de una IA de usar un paquete envenenado que incorpora una dependencia corrupta.
Investigadores de la Universidad de Texas en San Antonio, la Universidad de Oklahoma y Virginia Tech analizaron recientemente 16 LLM utilizados para la generación de código para explorar su tendencia a inventar nombres de paquetes.
En un artículo preimpreso titulado "¡Tenemos un paquete para usted! Un análisis exhaustivo de las alucinaciones de paquetes mediante LLM que generan código", los autores explican que las alucinaciones son una de las deficiencias no resueltas de los LLM.
Esto quizás no pase desapercibido para los abogados que el año pasado utilizaron IA generativa para citar casos judiciales inexistentes en escritos legales y luego tuvieron que presentar sus propias disculpas a los tribunales afectados. Pero entre quienes consideran que los LLM son realmente útiles para la asistencia en la codificación, es un punto que vale la pena reiterar.
Según los autores Joseph Spracklen, Raveen Wijewickrama, A. H. M. Nazmus Sakib, Anindya Maiti, Bimal Viswanath y Murtuza Jadliwala, las alucinaciones son resultados generados por los LLM que son factualmente incorrectos, sin sentido o completamente ajenos a la tarea de entrada. Las alucinaciones representan un obstáculo crítico para la implementación efectiva y segura de los LLM en aplicaciones públicas debido a su potencial para generar información inexacta o engañosa.
Quizás no se trate de una apuesta arriesgada, sino más bien de una estrategia de gestión con suficiente marketing y presión.
Los LLM ya se han implementado en aplicaciones públicas gracias a los entusiastas vendedores de inteligencia artificial y a los proveedores de la nube que solo quieren asegurarse de que todas las costosas GPU de sus centros de datos se utilicen. Y a los desarrolladores, según dicen los proveedores de IA, les encantan las IA de asistencia de programación. Aparentemente, mejoran la productividad y brindan a los programadores más confianza en la calidad de su trabajo.
Aun así, los investigadores querían evaluar la probabilidad de que los modelos de IA generativa fabriquen paquetes falsos. Por ello, utilizaron 16 LLM populares, tanto comerciales como de código abierto, para generar 576.000 ejemplos de código en JavaScript y Python, que dependen respectivamente de los repositorios de paquetes npm y PyPI.
Los resultados dejaron mucho que desear.
"Nuestros hallazgos revelan que el porcentaje promedio de paquetes alucinados es de al menos el 5,2 % para los modelos comerciales y del 21,7 % para los modelos de código abierto, incluyendo la asombrosa cifra de 205.474 ejemplos únicos de nombres de paquetes alucinados, lo que subraya aún más la gravedad y la omnipresencia de esta amenaza", afirman los autores.
Las 30 pruebas realizadas a partir del conjunto de indicaciones de investigación dieron como resultado la creación de 2,23 millones de paquetes, de los cuales aproximadamente el 20 % (440 445) se determinaron como alucinaciones. De ellos, 205 474 eran paquetes únicos e inexistentes que no se pudieron encontrar en PyPI ni en npm.
Lo que cabe destacar, además de que los modelos comerciales tienen cuatro veces menos probabilidades de inventar nombres de paquetes que los modelos de código abierto, es que estos resultados muestran entre cuatro y seis veces menos alucinaciones que las cifras de Lasso Security para GPT-3.5 (5,76 % frente a 24,2 %) y GPT-4 (4,05 % frente a 22,2 %). Esto es importante.
Reducir la probabilidad de alucinaciones de paquetes tiene un coste. Utilizando los modelos DeepSeek Coder 6.7B y CodeLlama 7B, los investigadores implementaron una estrategia de mitigación mediante Generación Aumentada de Recuperación (RAG), para proporcionar una lista de nombres de paquetes válidos que ayude a guiar las respuestas rápidas, y Ajuste Fino Supervisado (LFS), para filtrar los paquetes inventados y conservar el modelo. El resultado fue una reducción de la alucinación, a costa de la calidad del código.
"La calidad del código de los modelos ajustados disminuyó significativamente, un 26,1 % y un 3,1 % para DeepSeek y CodeLlama respectivamente, a cambio de mejoras sustanciales en la tasa de alucinación de paquetes", escribieron los investigadores.
En el otro estudio que explora la alucinación de la IA, José Hernández-Orallo y sus colegas del Instituto Valenciano de Investigación en Inteligencia Artificial (IIA) descubrieron que los LLM se vuelven menos fiables a medida que escalan.
Los investigadores analizaron tres familias de modelos: GPT de OpenAI, LLaMA de Meta y BLOOM de código abierto de BigScience. Probaron los distintos modelos con versiones ampliadas (con más parámetros) de sí mismos, con preguntas sobre suma, anagramas de palabras, conocimiento geográfico, ciencia y transformaciones orientadas a la información.
Descubrieron que, si bien los modelos más grandes (aquellos configurados con ajustes finos y más parámetros) son más precisos en sus respuestas, son menos fiables.
Esto se debe a que los modelos más pequeños evitan responder a algunas preguntas que no pueden responder, mientras que los modelos más grandes son más propensos a proporcionar una respuesta plausible pero incorrecta. Por lo tanto, la proporción de respuestas imprecisas consiste en una mayor proporción de respuestas incorrectas, con una reducción proporcional en las respuestas evitadas.
Esta tendencia se observó particularmente en la familia GPT de OpenAI. Los investigadores descubrieron que GPT-4 responde prácticamente a cualquier cosa, mientras que las generaciones de modelos anteriores evitarían responder en ausencia de una predicción fiable.
Para agravar aún más el problema, los investigadores descubrieron que los humanos no son buenos para evaluar las respuestas de LLM, clasificando las respuestas incorrectas como correctas entre el 10% y el 40%% del tiempo.
Basándose en sus hallazgos, Hernández-Orallo y sus coautores argumentan que «depender de la supervisión humana para estos sistemas es un riesgo, especialmente en áreas donde la verdad es crucial».
Esta es una forma prolija de reformular el texto estándar de IA de Microsoft, que advierte no usar la IA para nada importante.
Los modelos tempranos suelen evitar las preguntas del usuario, pero los modelos ampliados y perfeccionados tienden a dar una respuesta aparentemente sensata, pero errónea, con mucha más frecuencia, incluyendo errores en preguntas difíciles que los supervisores humanos suelen pasar por alto.
Estos hallazgos resaltan la necesidad de un cambio fundamental en el diseño y desarrollo de la inteligencia artificial de propósito general, particularmente en áreas de alto riesgo donde una distribución predecible de errores es primordial.