Report 4312

Après avoir pris une pause de l'université au début de la pandémie pour fonder une famille, Moira Olmsted avait hâte de retourner à l'école. Pendant des mois, elle a jonglé entre un emploi à temps plein et un jeune enfant pour économiser afin de suivre un programme à son rythme qui lui permettait d'apprendre à distance. Enceinte de sept mois de son deuxième enfant, Olmsted s'est inscrite à des cours en ligne à la Central Methodist University en 2023, pour devenir enseignante.

Quelques semaines seulement après le début du semestre d'automne, Olmsted a soumis un devoir écrit dans un cours obligatoire - l'un des trois résumés de lecture qu'elle devait faire chaque semaine. Peu de temps après, elle a reçu sa note : zéro. Lorsqu'elle a contacté son professeur, Olmsted a déclaré qu'on lui avait dit qu'un outil de détection d'IA avait déterminé que son travail était probablement généré par l'intelligence artificielle. En fait, a déclaré l'enseignant, ses écrits avaient été signalés au moins une fois auparavant.

Pour Olmsted, aujourd'hui âgée de 24 ans, l'accusation était un « coup de poing dans le ventre ». C'était également une menace pour sa position à l'université. « C'est un peu comme si on se disait : oh mon Dieu, c'est ce qui fonctionne pour nous en ce moment, et cela pourrait nous être retiré pour quelque chose que je n'ai pas fait », dit-elle.

Olmsted a contesté l'accusation auprès de son professeur et d'un coordinateur étudiant, soulignant qu'elle souffre de troubles du spectre autistique et qu'elle écrit d'une manière stéréotypée qui pourrait être considérée à tort comme générée par l'IA, selon des courriels consultés par Bloomberg Businessweek. La note a finalement été modifiée, mais pas avant qu'elle ait reçu un avertissement strict : si son travail était à nouveau signalé, le professeur le traiterait de la même manière qu'il le ferait pour le plagiat.

Depuis que ChatGPT d'OpenAI a introduit l'IA générative dans le grand public il y a près de deux ans, les écoles se sont empressées de s'adapter à un nouveau paysage. Les enseignants s'appuient désormais sur un nombre croissant d'outils de détection pour les aider à repérer des phrases, des paragraphes ou des tâches entières générés par l'intelligence artificielle. Environ deux tiers des enseignants déclarent utiliser régulièrement un vérificateur d'IA, selon une enquête menée auprès de plus de 450 instructeurs et publiée en mars par le Center for Democracy & Technology.

Les meilleurs détecteurs d'écriture IA sont très précis, mais ils ne sont pas infaillibles. Businessweek a testé deux des principaux services, GPTZero et Copyleaks, sur un échantillon aléatoire de 500 essais de candidature à l'université du Texas A&M à l'été 2022, peu avant la sortie de ChatGPT, garantissant ainsi qu'ils n'étaient pas générés par l'IA. Les essais ont été obtenus grâce à une demande d'accès aux archives publiques, ce qui signifie qu'ils ne faisaient pas partie des ensembles de données sur lesquels les outils d'IA sont formés. Businessweek a découvert que les services signalaient à tort 1 à 2 % des essais comme étant probablement rédigés par l'IA, affirmant dans certains cas avoir une certitude proche de 100 %.

Même un taux d'erreur aussi faible peut rapidement s'accumuler, compte tenu du grand nombre de devoirs des étudiants chaque année, avec des conséquences potentiellement dévastatrices pour les étudiants qui sont signalés à tort. Comme dans le cas des accusations plus traditionnelles de tricherie et de plagiat, les étudiants qui utilisent l'IA pour faire leurs devoirs doivent refaire leurs devoirs et sont confrontés à des notes d'échec et à une probation.

Les détecteurs d'IA peuvent signaler à tort des essais comme probablement écrits par l'IA

Des tests Bloomberg utilisant deux détecteurs d'IA de premier plan sur un échantillon de 500 essais écrits avant la sortie de ChatGPT ont montré que les services signalaient à tort 1 à 2 % des essais comme probablement écrits par l'IA.

Les étudiants les plus susceptibles d'être accusés de manière inexacte sont probablement ceux qui écrivent de manière plus générique, soit parce qu'ils sont neurodivergents comme Olmsted, parlent l'anglais comme deuxième langue (ESL) ou ont simplement appris à utiliser un vocabulaire plus simple et un style mécanique, selon les étudiants, les universitaires et les développeurs d'IA. Une étude de 2023 menée par des chercheurs de l'université de Stanford a révélé que les détecteurs d'IA étaient « presque parfaits » lorsqu'ils vérifiaient les essais rédigés par des élèves de huitième année nés aux États-Unis, mais qu'ils signalaient que plus de la moitié des essais rédigés par des élèves non anglophones étaient générés par l'IA. OpenAI a récemment déclaré : « Exclusif | Il existe un outil pour détecter les étudiants qui trichent avec ChatGPT. OpenAI ne l'a pas publié. - WSJ » qu'elle s'est abstenue de publier un outil de détection d'écriture par l'IA, en partie par crainte que cela puisse affecter négativement certains groupes, notamment les étudiants ESL.

Businessweek a également constaté que les services de détection d'IA peuvent parfois être trompés par des outils automatisés conçus pour faire passer l'écriture d'IA pour humaine. Cela pourrait conduire à une course aux armements qui opposerait une technologie à une autre, endommageant la confiance entre les enseignants et les étudiants avec peu d'avantages pédagogiques.

Turnitin, un outil de détection d'IA populaire qui, selon Olmsted, a été utilisé pour vérifier son travail, a déclaré avoir un taux de faux positifs de 4 % lors de l'analyse des phrases. Turnitin a refusé de rendre son service disponible pour des tests. Dans un article de blog de 2023, l'université Vanderbilt, l'une des plusieurs grandes écoles à désactiver le service de détection d'IA de Turnitin pour des raisons d'exactitude, a noté que des centaines de travaux d'étudiants auraient autrement été signalés à tort au cours de l'année universitaire comme étant en partie rédigés par l'IA.

Ken Sahib, un étudiant multilingue qui a passé la majeure partie de son enfance en Italie, dit qu'il a été " bouleversé " lorsqu'il a reçu un zéro à un devoir résumant une lecture pour son cours d'introduction au réseautage au Berkeley College à New York. Lorsque Sahib a posé la question, l'enseignant a déclaré : "Tous les outils que j'ai essayés ont produit le même résultat : ces réponses étaient générées par l'IA", selon les e-mails consultés par Businessweek. "Vous savez ce que vous faites."

Sahib dit qu'il a finalement réussi le cours, mais l'incident a brisé sa relation avec son professeur. "Après cela, nous avons à peine parlé", dit-il. Le professeur n'a pas répondu aux demandes de commentaires.

Si certains enseignants se sont éloignés des détecteurs d'IA et ont essayé d'ajuster leurs programmes pour intégrer l'IA à la place, de nombreux collèges et lycées utilisent toujours ces outils. Les startups de détection d'IA ont attiré environ 28 millions de dollars de financement depuis 2019, selon la société de données d'investissement PitchBook, la plupart de ces accords ayant été conclus après la sortie de ChatGPT. Les startups de détection de deepfake, qui peuvent vérifier les textes, images, audio et vidéo générés par l'IA, ont levé plus de 300 millions de dollars en 2023, contre environ 65 millions de dollars l'année précédente, selon PitchBook.

Le résultat est que les salles de classe restent en proie à l'anxiété et à la paranoïa face à la possibilité de fausses accusations, selon des entretiens avec une douzaine d'étudiants et 11 enseignants à travers les États-Unis. Les étudiants de premier cycle poursuivent désormais une large gamme d'efforts chronophages pour défendre l'intégrité de leur travail, un processus qui, selon eux, diminue l'expérience d'apprentissage. Certains craignent également d'utiliser des services d'aide à la rédaction et des vérificateurs de grammaire d'IA courants qui sont spécifiquement commercialisés auprès des étudiants, citant des craintes qu'ils ne déclenchent les détecteurs d'IA.

Eric Wang, vice-président de Turnitin pour l'IA, affirme que la société « suréchantillonne » intentionnellement les groupes sous-représentés dans son ensemble de données. Il affirme que des tests internes ont montré que le modèle de Turnitin n'accuse pas à tort les étudiants ESL, et que son taux global de faux positifs pour des documents entiers est inférieur à 1 % et s'améliore à chaque nouvelle publication. Turnitin ne s'entraîne pas spécifiquement sur les données des étudiants neurodivergents et n'a pas accès aux antécédents médicaux pour évaluer cette classification.

Le cofondateur et PDG de Copyleaks, Alon Yamin, affirme que sa technologie est précise à 99 %. « Nous expliquons clairement aux institutions académiques que rien n'est sûr à 100 % et que cela doit être utilisé pour identifier les tendances dans le travail des étudiants », dit-il. « C'est un peu comme un drapeau jaune qu'ils peuvent examiner et utiliser comme une opportunité pour parler aux étudiants. »

« Chaque détecteur d'IA a des angles morts », explique Edward Tian, fondateur et PDG de GPTZero. Il affirme que sa société a fait des progrès dans la correction des biais des résultats pour les étudiants ESL en particulier, et a pris des mesures pour indiquer plus clairement le niveau d'incertitude dans l'évaluation des travaux écrits des enseignants par son outil.

Tian a créé GPTZero au début de l'année 2023. Sa startup comptait 4 millions d'utilisateurs en juillet, contre 1 million il y a un an, et a récemment levé 10 millions de dollars auprès d'investisseurs, dont Jack Altman, le frère du PDG d'OpenAI. "Le semestre dernier a été le semestre le plus actif", déclare Tian. "Cela montre que ce problème ne va pas disparaître, mais qu'il a changé. Il y a un an, la question la plus courante que les gens posaient était : est-ce de l'IA ? " Aujourd'hui, dit-il, les enseignants savent que l'IA est présente dans leur classe. La question est : "Comment y faire face ?"

Il est difficile de quantifier l'utilisation de l'IA dans les écoles. Dans un test, Businessweek a analysé un ensemble distinct de 305 essais soumis à Texas A&M à l'été 2023, après le lancement de ChatGPT, et a découvert que les mêmes détecteurs d'IA signalaient qu'environ 9 % d'entre eux étaient générés par l'intelligence artificielle.

Les détecteurs d'écriture IA examinent généralement la perplexité, une mesure de la complexité des mots dans une soumission donnée. « Si les choix de mots ont tendance à être plus génériques et formels, ce travail a plus de chances d'être signalé par les détecteurs IA », explique James Zou, professeur de science des données biomédicales à l'université de Stanford et auteur principal de l'étude de Stanford sur les étudiants ESL.

Le service de détection IA QuillBot, par exemple, note que "le contenu généré par l'IA est susceptible de contenir des mots répétitifs, une formulation maladroite et un flux non naturel et saccadé". GPTZero prend également en compte un critère qu'il appelle « burstiness », qui mesure dans quelle mesure la perplexité varie dans un document écrit. Contrairement à l'IA, « les gens ont tendance à beaucoup varier la construction de leurs phrases et leur diction dans un document », selon l'entreprise.

Les entreprises de détection d'IA soulignent que leurs services ne doivent pas être traités comme juge, jury et bourreau, mais plutôt comme un point de données pour aider à informer et guider les enseignants.

La plupart des écoles qui travaillent avec Copyleaks donnent désormais accès au service aux étudiants, explique Yamin, « afin qu'ils puissent s'authentifier » et voir leurs propres scores d'IA. Turnitin, quant à elle, s'efforce d'élargir son portefeuille de produits d'IA avec un service permettant aux étudiants de montrer le processus de préparation de leurs travaux écrits, en réponse aux commentaires des enseignants et des élèves.

"Les étudiants disent : "Je veux pouvoir montrer que c'est mon travail et je veux être sûre qu'il n'y a pas de doute à ce sujet", explique Annie Chechitelli, directrice des produits chez Turnitin. "Et les enseignants disent : "J'ai besoin de plus de points de données pour m'aider à comprendre comment l'élève a trouvé cela".

Après que son travail a été signalé, Olmsted dit qu'elle est devenue obsédée par l'idée d'éviter une autre accusation. Elle s'est enregistrée sur son ordinateur portable en train de faire des devoirs d'écriture. Elle a travaillé dans Google Docs pour suivre ses modifications et créer une trace papier numérique. Elle a même essayé de peaufiner son vocabulaire et sa syntaxe. "J'ai très peur d'arriver jusqu'ici et de me retrouver face à une autre accusation d'IA", explique Olmsted, qui devrait obtenir son diplôme au printemps. "J'ai tellement à perdre".

Nathan Mendoza, étudiant en génie chimique à l'Université de Californie à San Diego, utilise GPTZero pour présélectionner son travail. Il dit que la majorité du temps qu'il lui faut pour terminer un devoir est désormais consacré à peaufiner les formulations afin qu'il ne soit pas signalé à tort - d'une manière qui, selon lui, rend l'écriture pire. D'autres étudiants ont accéléré ce processus en se tournant vers un lot de services dits d'humanisation de l'IA qui peuvent réécrire automatiquement les soumissions pour passer les détecteurs d'IA.

"AI Humanizer" édite un essai écrit par un humain pour contourner la détection de l'IA

Un test Bloomberg d'un service appelé Hix Bypass a révélé qu'un essai écrit par un humain dont GPTZero a déclaré à tort qu'il contenait 98,1 % d'IA est passé de manière spectaculaire à 5,3 % d'IA après avoir été modifié par le service.

La peur d'être signalé par des détecteurs d'IA a également forcé les étudiants à repenser l'utilisation d'outils populaires d'aide à la rédaction en ligne. Grammarly, une start-up valorisée à 13 milliards de dollars en 2021, aide les étudiants dans tous les domaines, depuis la vérification orthographique de base jusqu'aux suggestions de structure. Mais elle s'est également étendue avec des options permettant de réécrire automatiquement une soumission entière pour répondre à certains critères, repoussant les limites de ce qui peut être jugé acceptable par les enseignants.

Bloomberg a découvert que l'utilisation de Grammarly pour « améliorer » un essai ou « lui donner un aspect académique » transformera un travail qui passait pour 100 % écrit par un humain en un travail 100 % écrit par l'IA. Le correcteur orthographique et les suggestions grammaticales de Grammarly n'ont cependant qu'un impact marginal sur la création de documents qui semblent davantage écrits par l'IA.

Kaitlyn Abellar, étudiante au Florida SouthWestern State College, dit avoir désinstallé des plug-ins pour des programmes tels que Grammarly de son ordinateur. Marley Stevens, étudiante à l'université de Géorgie du Nord, a publié l'année dernière une vidéo virale sur TikTok sur son expérience de pénalisation après que Turnitin a signalé son essai comme généré par l'IA. Stevens a déclaré qu'elle a été mise en probation académique pendant un an après qu'une audience disciplinaire a déterminé qu'elle avait triché. Elle a insisté sur le fait qu'elle avait rédigé le devoir elle-même, en utilisant uniquement les fonctions standard de vérification orthographique et de grammaire de Grammarly.

"Il s'agissait d'une étudiante bien intentionnée qui avait utilisé Grammarly de manière responsable et qui a été signalée par une technologie tierce en lui disant que vous aviez fait une erreur. Nous ne pouvons pas changer le fonctionnement de Turnitin, car ils comprennent qu'ils ont de faux signaux d'alerte", explique Jenny Maxwell, responsable de Grammarly pour l'éducation. L'incident a incité Grammarly à développer un outil de détection pour les étudiants qui identifie si le texte a été tapé, collé à partir d'une autre source ou écrit par un modèle d'IA. "C'est presque comme votre police d'assurance", explique Maxwell.

Pour certains enseignants et étudiants, le système actuel semble intenable en raison de la pression qu'il exerce sur les deux côtés du bureau de l'enseignant et parce que l'IA est là pour rester.

« L'intelligence artificielle fera partie de l'avenir, que nous le voulions ou non », déclare Adam Lloyd, professeur d'anglais à l'Université du Maryland. « Considérer l'IA comme quelque chose que nous devons exclure des salles de classe ou décourager les étudiants d'utiliser est une erreur. »

Au lieu d'utiliser Turnitin, qui est disponible pour les professeurs de son école, Lloyd préfère suivre son intuition. « Je connais les écrits de mes étudiants, et si j'ai un soupçon, j'en discute ouvertement », dit-il, « sans les accuser automatiquement. »

Problème 4312

Incidents associés

Incident 8491 Rapport
AI Detection Tools Allegedly Misidentify Neurodivergent and ESL Students' Work as AI-Generated in Academic Settings

Des détecteurs d’IA accusent à tort des étudiants de tricherie, avec de lourdes conséquences

Les détecteurs d'IA peuvent signaler à tort des essais comme probablement écrits par l'IA

"AI Humanizer" édite un essai écrit par un humain pour contourner la détection de l'IA

Problème 4312

Incidents associés

Incident 8491 RapportAI Detection Tools Allegedly Misidentify Neurodivergent and ESL Students' Work as AI-Generated in Academic Settings

Des détecteurs d’IA accusent à tort des étudiants de tricherie, avec de lourdes conséquences

Les détecteurs d'IA peuvent signaler à tort des essais comme probablement écrits par l'IA

"AI Humanizer" édite un essai écrit par un humain pour contourner la détection de l'IA

Incident 8491 Rapport
AI Detection Tools Allegedly Misidentify Neurodivergent and ESL Students' Work as AI-Generated in Academic Settings