Report 5064

Les modèles d'IA semblent inventer sans cesse. Comme le soulignent deux études récentes, cette propension renforce les avertissements précédents, qui recommandent de ne pas se fier aux conseils de l'IA pour les choses vraiment importantes.

L'IA invente souvent les noms des progiciels.

Comme nous l'avons mentionné plus tôt cette année, Lasso Security a constaté que les grands modèles de langage (LLM), lors de la génération d'échantillons de code source, inventent parfois des noms de dépendances de progiciels qui n'existent pas.

C'est inquiétant, car des criminels pourraient facilement créer un progiciel utilisant un nom généré par des services d'IA courants et le bourrer de logiciels malveillants. Il leur suffirait ensuite d'attendre qu'un développeur malchanceux accepte la suggestion d'une IA d'utiliser un progiciel empoisonné intégrant une dépendance récupérée et corrompue.

Des chercheurs de l'Université du Texas à San Antonio, de l'Université d'Oklahoma et de Virginia Tech ont récemment étudié 16 LLM utilisés pour la génération de code afin d'explorer leur tendance à inventer des noms de packages.

Dans un article préliminaire intitulé « Nous avons un package pour vous ! Une analyse complète des hallucinations de packages par les LLM générateurs de code », les auteurs expliquent que les hallucinations constituent l'un des défauts non résolus des LLM.

Cela n'a peut-être pas échappé aux avocats qui, l'année dernière, ont utilisé l'IA générative pour citer des affaires judiciaires inexistantes dans leurs mémoires, et ont ensuite dû présenter leurs propres excuses aux tribunaux concernés. Mais parmi ceux qui trouvent les LLM véritablement utiles pour l'aide au codage, c'est un point qui mérite d'être rappelé.

« Les hallucinations sont des résultats produits par les LLM qui sont factuellement incorrects, absurdes ou totalement sans rapport avec la tâche d'entrée », selon les auteurs Joseph Spracklen, Raveen Wijewickrama, A H M Nazmus Sakib, Anindya Maiti, Bimal Viswanath et Murtuza Jadliwala. « Les hallucinations constituent un obstacle majeur au déploiement efficace et sûr des LLM dans les applications publiques, en raison de leur potentiel à générer des informations inexactes ou trompeuses. »

Peut-être pas « nous avons misé sur le mauvais cheval » est essentiel, mais plutôt « gérable avec suffisamment de marketing et de lobbying ».

Les LLM ont déjà été déployés dans des applications publiques, grâce aux vendeurs enthousiastes de l'illumination de l'IA et aux fournisseurs de cloud qui souhaitent simplement s'assurer que tous les GPU coûteux de leurs centres de données soient utilisés. Et les développeurs, à en croire les fournisseurs d'IA, adorent coder des IA d'assistance. Ils semblent améliorer la productivité et donner aux codeurs une plus grande confiance dans la qualité de leur travail (https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-on-code-quality/).

Malgré cela, les chercheurs ont voulu évaluer la probabilité que les modèles d'IA générative fabriquent des paquets fictifs. Ils ont donc utilisé 16 LLM populaires, commerciaux et open source, pour générer 576 000 échantillons de code en JavaScript et Python, qui s'appuient respectivement sur les dépôts de paquets npm et PyPI.

Les résultats laissent à désirer.

« Nos résultats révèlent que le pourcentage moyen de paquets hallucinés est d'au moins 5,2 % pour les modèles commerciaux et de 21,7 % pour les modèles open source, avec un nombre impressionnant de 205 474 exemples uniques de noms de paquets hallucinés, ce qui souligne encore davantage la gravité et l'omniprésence de cette menace », affirment les auteurs.

Les 30 tests effectués à partir des invites de recherche ont généré 2,23 millions de paquets, dont environ 20 % (440 445) se sont révélés être des hallucinations. Parmi eux, 205 474 étaient des paquets uniques et inexistants, introuvables dans PyPI ou npm.

Ce qui est remarquable ici – outre le fait que les modèles commerciaux sont quatre fois moins susceptibles que les modèles open source de fabriquer des noms de paquets – c'est que ces résultats montrent quatre à six fois moins d'hallucinations que les chiffres de Lasso Security pour GPT-3.5 (5,76 % contre 24,2 %) et GPT-4 (4,05 % contre 22,2 %). C'est un point important.

Réduire la probabilité d'hallucinations de paquets a un coût. En utilisant les modèles DeepSeek Coder 6.7B et CodeLlama 7B, les chercheurs ont mis en œuvre une stratégie d'atténuation via la génération augmentée de récupération (RAG), afin de fournir une liste de noms de paquets valides pour guider les réponses rapides, et un réglage fin supervisé, pour filtrer les paquets inventés et conserver le modèle. Il en a résulté une réduction des hallucinations, au détriment de la qualité du code.

« La qualité du code des modèles affinés a diminué de manière significative, de -26,1 % et -3,1 % pour DeepSeek et CodeLlama respectivement, en contrepartie d'améliorations substantielles du taux d'hallucinations de paquets », ont écrit les chercheurs.

Dans une autre étude explorant les hallucinations de l'IA, José Hernández-Orallo et ses collègues de l'Institut valencien de recherche en intelligence artificielle (IAI), en Espagne, ont constaté que les LLM deviennent moins fiables à mesure qu'ils évoluent.

Les chercheurs ont étudié trois familles de modèles : GPT d'OpenAI, LLaMA de Meta et BLOOM, un modèle open source de BigScience. Ils ont testé les différents modèles avec des versions agrandies (plus de paramètres) d'eux-mêmes, avec des questions sur l'addition, les anagrammes, les connaissances géographiques, les sciences et les transformations orientées information.

Ils ont constaté que si les modèles plus grands – ceux façonnés avec un réglage fin et plus de paramètres – offrent des réponses plus précises, ils sont moins fiables.

Cela s'explique par le fait que les modèles plus petits évitent de répondre à certaines questions auxquelles ils ne peuvent pas répondre, tandis que les modèles plus grands sont plus susceptibles de fournir une réponse plausible mais erronée. Ainsi, la proportion de réponses inexactes se compose d'une plus grande proportion de réponses incorrectes, avec une réduction proportionnelle des réponses évitées.

Cette tendance a été particulièrement observée pour la famille GPT d'OpenAI. Les chercheurs ont constaté que GPT-4 répond à presque tout, là où les générations précédentes de modèles évitaient de répondre en l'absence de prédiction fiable.

Pour aggraver encore le problème, les chercheurs ont constaté que les humains sont incapables d'évaluer les réponses aux LLM, classant les réponses incorrectes comme correctes dans environ 10 à 40 % des cas.

Selon leurs conclusions, Hernández-Orallo et ses coauteurs affirment que « se fier à la surveillance humaine de ces systèmes est dangereux, surtout dans les domaines où la vérité est essentielle ».

Il s'agit d'une façon un peu longue de reformuler le modèle d'IA de Microsoft, qui recommande de ne pas utiliser l'IA pour des tâches importantes.

« Les premiers modèles évitent souvent les questions des utilisateurs, mais les modèles à grande échelle et mis en forme tendent à donner beaucoup plus souvent une réponse apparemment logique mais erronée, y compris des erreurs sur des questions difficiles que les superviseurs humains négligent souvent », concluent les chercheurs.

« Ces résultats soulignent la nécessité d'un changement fondamental dans la conception et le développement de l'intelligence artificielle polyvalente, en particulier dans les domaines à enjeux élevés pour lesquels une distribution prévisible des erreurs est primordiale. »

Problème 5064

Incidents associés

Incident 7314 Rapports
Purportedly Hallucinated Software Packages with Potential Malware Reportedly Downloaded Thousands of Times by Developers

Les assistants de code IA ne peuvent tout simplement pas s'empêcher d'inventer des noms de packages

Problème 5064

Incidents associés

Incident 7314 RapportsPurportedly Hallucinated Software Packages with Potential Malware Reportedly Downloaded Thousands of Times by Developers

Les assistants de code IA ne peuvent tout simplement pas s'empêcher d'inventer des noms de packages

Incident 7314 Rapports
Purportedly Hallucinated Software Packages with Potential Malware Reportedly Downloaded Thousands of Times by Developers