Report 2901

Lucy Goetz, lycéenne, a obtenu la meilleure note possible pour un essai original qu'elle a écrit sur le socialisme. Alors imaginez sa surprise quand je lui ai dit qu'un nouveau type de logiciel éducatif que j'avais testé affirmait qu'elle avait reçu l'aide de l'intelligence artificielle.

Un nouveau détecteur d'écriture par IA de Turnitin - dont le logiciel est déjà utilisé par 2,1 millions d'enseignants pour détecter le plagiat - a signalé que la fin de son essai était probablement générée par [ChatGPT](https://www.washingtonpost.com/technology/2022 /12/10/chatgpt-ai-helps-written-communication/?itid=lk_inline_manual_4).

"Tu peux répéter s'il te plait?" dit Goetz, qui jure qu'elle n'a pas utilisé l'outil d'écriture de l'IA pour tricher. "Je suis content d'avoir de bonnes relations avec mes professeurs."

Après des mois de sonner l'alarme à propos d'étudiants utilisant des applications d'IA qui peuvent se désabonner des essais et des devoirs, les enseignants acquièrent leur propre technologie d'IA. Le 4 avril, Turnitin active le logiciel que j'ai testé pour quelque 10 700 établissements d'enseignement secondaire et supérieur, attribuant des scores "générés par l'IA" et une analyse phrase par phrase au travail des étudiants. Il rejoint une poignée d'autres détecteurs gratuits déjà en ligne. Pour de nombreux enseignants que j'ai entendus, la détection de l'IA offre une arme pour dissuader une forme de tricherie du 21e siècle.

Mais l'IA seule ne résoudra pas le problème créé par l'IA. Le drapeau sur une partie de l'essai de Goetz était une valeur aberrante, mais montre que les détecteurs peuvent parfois se tromper - avec des conséquences potentiellement désastreuses pour les étudiants. Les détecteurs sont introduits avant d'avoir été largement contrôlés, mais la technologie de l'IA évolue si rapidement que tout outil est probablement déjà obsolète.

C'est un moment charnière pour les éducateurs : ignorer l'IA et la tricherie pourrait devenir endémique. Pourtant, même les dirigeants de Turnitin me disent que traiter l'IA uniquement comme l'ennemi de l'éducation a à peu près autant de sens à long terme que d'essayer d'interdire les calculatrices.

Avant le lancement de Turnitin cette semaine, la société affirme que 2 % des clients lui ont demandé de ne pas afficher le score d'écriture de l'IA sur le travail des étudiants. Cela inclut une "majorité significative" d'universités au Royaume-Uni, selon UCISA, un organisme professionnel pour les éducateurs numériques.

Pour voir ce qui est en jeu, j'ai demandé à Turnitin un accès anticipé à son logiciel. Cinq élèves du secondaire, dont Goetz, se sont portés volontaires pour m'aider à le tester en créant 16 échantillons d'essais réels, fabriqués par l'IA et de sources mixtes pour passer devant le détecteur de Turnitin.

Le résultat? Plus de la moitié d'entre eux se sont trompés au moins en partie. Turnitin a identifié avec précision six des 16 - mais a échoué sur trois, y compris un drapeau sur 8% de l'essai original de Goetz. Et je ne lui accorderais qu'un crédit partiel sur les sept autres, où il était directionnellement correct mais identifiait mal une partie de l'écriture générée par ChatGPT ou de sources mixtes.

Turnitin affirme que son détecteur est globalement précis à 98 %. Et il dit que des situations telles que ce qui s'est passé avec l'essai de Goetz, connu sous le nom de faux positif, se produisent moins de 1% du temps, selon ses propres tests.

Turnitin dit également que ses scores doivent être traités comme une indication, pas comme une accusation. Pourtant, des millions d'enseignants comprendront-ils qu'ils doivent traiter les scores d'IA comme autre chose qu'un fait ? Après mes conversations avec l'entreprise, elle a ajouté un indicateur d'avertissement à son score qui se lit comme suit : "Le pourcentage peut ne pas indiquer une tricherie. Examen requis."

"Notre travail consiste à créer des informations directionnellement correctes pour que l'enseignant puisse déclencher une conversation", me dit Annie Chechitelli, chef de produit chez Turnitin. "Je suis assez confiant pour le mettre sur le marché, tant que nous continuons à éduquer les éducateurs sur la façon d'utiliser les données." Elle dit que la société continuera d'ajuster son logiciel en fonction des commentaires et des nouvelles avancées de l'IA.

La question est de savoir si cela suffira. "Le fait que le système Turnitin pour signaler le texte de l'IA ne fonctionne pas tout le temps est préoccupant", déclare Rebecca Dell, qui enseigne la classe d'anglais AP de Goetz à Concord, en Californie. "Je ne sais pas comment les écoles pourront définitivement utiliser le vérificateur comme "preuve" des étudiants utilisant un travail non original."

Contrairement aux accusations de plagiat, la triche de l'IA n'a pas de document source à référencer comme preuve. "Cela laisse la porte ouverte à la partialité des enseignants", déclare Dell.

Pour les étudiants, cela rend la perspective d'être accusé de tricherie par l'IA particulièrement effrayante. "Il n'y a aucun moyen de prouver que vous n'avez pas triché à moins que votre professeur ne connaisse votre style d'écriture ou ne vous fasse confiance en tant qu'élève", déclare Goetz.

Pourquoi détecter l'IA est si difficile

Repérer l'écriture de l'IA semble d'une simplicité trompeuse. Lorsqu'un collègue m'a récemment demandé si je pouvais détecter la différence entre réel et ChatGPT -généré des e-mails, je n'ai pas très bien performé.

Détecter l'écriture de l'IA avec un logiciel implique des statistiques. Et statistiquement parlant, ce qui distingue l'IA des humains, c'est qu'elle est "extrêmement moyenne", déclare Eric Wang, vice-président de l'IA chez Turnitin.

Des systèmes tels que ChatGPT fonctionnent comme une version sophistiquée de la saisie semi-automatique, recherchant le mot le plus probable à écrire ensuite. "C'est en fait la raison pour laquelle il se lit si naturellement : l'écriture par l'IA est le sous-ensemble le plus probable de l'écriture humaine", dit-il.

Le détecteur de Turnitin "identifie quand l'écriture est trop régulièrement moyenne", explique Wang.

Le défi est que parfois un écrivain humain peut en fait avoir l'air toujours moyen.

En ce qui concerne les rapports d'économie, de mathématiques et de laboratoire, les étudiants ont tendance à adopter des styles définis, ce qui signifie qu'ils sont plus susceptibles d'être confondus avec l'écriture de l'IA, explique Wang. C'est probablement pourquoi Turnitin a signalé à tort l'essai de Goetz, qui a viré à l'économie. ("Mes professeurs ont toujours été assez impressionnés par mon écriture", dit Goetz.)

Wang dit que Turnitin s'est efforcé d'ajuster ses systèmes pour qu'ils exigent une plus grande confiance avant de signaler une phrase comme IA. J'ai vu cela se développer en temps réel : j'ai d'abord testé l'essai de Goetz fin janvier, et le logiciel en a identifié une grande partie - environ 50 % - comme étant générée par l'IA. Turnitin a de nouveau analysé mes échantillons dans son système à la fin du mois de mars, et cette fois-là, seuls 8 % de l'essai de Goetz ont été signalés comme générés par l'IA.

Mais le resserrement de la tolérance du logiciel a eu un coût : lors du deuxième test de mes échantillons, Turnitin a raté une écriture plus réelle de l'IA. "Nous mettons vraiment l'accent sur la sécurité des élèves", déclare Chechitelli.

Turnitin fonctionne mieux que les autres détecteurs d'IA publics que j'ai testés. L'un introduit en février par OpenAI, la société qui a inventé ChatGPT, s'est trompé sur huit de nos 16 échantillons de test. (Des tests indépendants d'autres détecteurs ont déclaré qu'ils "[échouent de manière spectaculaire] (https://techcrunch.com/2023/02/16/most-sites-claiming-to-catch-ai-written-text-fail-spectacularly/) .")

Le détecteur de Turnitin est également confronté à d'autres limitations techniques importantes. Dans les six échantillons étaient tout à fait corrects, ils étaient tous clairement composés à 100 % de travaux d'étudiants ou produits par ChatGPT. Mais lorsque je l'ai testé avec des essais provenant de sources mixtes d'IA et humaines, il a souvent mal identifié les phrases individuelles ou a complètement raté la partie humaine. Et il n'a pas pu repérer le ChatGPT dans les articles que nous avons parcourus via Quillbot, un programme de paraphrase qui remixe les phrases.

De plus, le détecteur de Turnitin est peut-être déjà en retard sur l'état de l'art de l'IA. Mes étudiants assistants ont créé des exemples avec ChatGPT, mais depuis qu'ils ont écrit, l'application a reçu une [mise à jour logicielle appelée GPT-4](https://www.washingtonpost.com/technology/2023/03/18/gpt4-review /?itid=lk_inline_manual_44) avec davantage de capacités créatives et stylistiques. Google a également introduit un nouveau bot IA appelé Bard. Wang dit que les aborder est sur sa feuille de route.

Certains experts en intelligence artificielle affirment que tout effort de détection déclenche au mieux une course aux armements entre les tricheurs et les détecteurs. "Je ne pense pas qu'un détecteur soit fiable à long terme", déclare Jim Fan, un scientifique de l'IA chez Nvidia qui a travaillé chez OpenAI et Google.

"L'IA s'améliorera et écrira de plus en plus comme les humains. Il est assez sûr de dire que toutes ces petites bizarreries des modèles de langage seront réduites avec le temps", dit-il.

La détection de l'IA est-elle une bonne idée ?

Étant donné le potentiel - même à 1% - de se tromper, pourquoi publier un détecteur d'IA dans un logiciel qui touchera tant d'étudiants ?

"Les enseignants veulent la dissuasion", dit Chechitelli. Ils sont extrêmement inquiets au sujet de l'IA et les aider à voir l'ampleur du problème réel « fera baisser la température ».

Certains éducateurs craignent que cela n'augmente la température.

Mitchel Sollenberger, prévôt associé pour l'éducation numérique à l'Université du Michigan-Dearborn, fait partie des responsables qui ont demandé à Turnitin de ne pas activer la détection de l'IA pour son campus lors de son lancement initial.

Il a des inquiétudes spécifiques quant à la façon dont les faux positifs sur les quelque 20 000 articles d'étudiants que sa faculté dirige à Turnitin chaque semestre pourraient conduire à des enquêtes sans fondement sur l'intégrité académique. "Les professeurs ne devraient pas avoir à être experts dans un système logiciel tiers - ils ne devraient pas nécessairement avoir à comprendre toutes les nuances", dit-il.

Ian Linkletter, bibliothécaire spécialisé dans les technologies émergentes et l'enseignement ouvert au British Columbia Institute of Technology, affirme que la poussée des détecteurs d'IA lui rappelle le débat sur la surveillance des examens d'IA (https://www.washingtonpost.com/technology /2020/11/12/test-monitoring-student-revolt/?itid=lk_inline_manual_57) pendant l'apprentissage virtuel en cas de pandémie.

"Je crains qu'ils ne le commercialisent comme un produit de précision, mais ils utilisent un langage douteux sur la façon dont il ne devrait pas être utilisé pour prendre des décisions", dit-il. "Ils travaillent à un rythme accéléré non pas parce qu'ils désespèrent de sortir le produit, mais parce qu'ils sont terrifiés que leur produit existant devienne obsolète."

Dit Chechitelli : "Nous nous engageons à être transparents avec la communauté et avons été clairs sur la nécessité de continuer à itérer sur l'expérience utilisateur à mesure que nous apprenons davantage des étudiants et des éducateurs.

Deborah Green, PDG d'UCISA au Royaume-Uni, me dit qu'elle comprend et apprécie les motivations de Turnitin pour le détecteur. "Ce dont nous avons besoin, c'est de temps pour nous assurer de la précision, de la fiabilité et surtout de l'adéquation de tout outil de cette nature."

On ne sait pas comment l'idée d'un détecteur d'IA s'intègre dans [où l'IA se dirige dans l'éducation](https://www.washingtonpost.com/technology/2023/04/03/chatgpt-khanmigo-tutor-silicon-valley/? itid=lk_inline_manual_63). "Dans certaines disciplines universitaires, les outils d'IA sont déjà utilisés en classe et en évaluation", explique Green. "La vision émergente dans de nombreuses universités britanniques est qu'avec l'IA déjà utilisée dans de nombreuses professions et domaines d'activité, les étudiants doivent en fait développer les aptitudes et les compétences de pensée critique pour bien utiliser et appliquer l'IA."

Il y a beaucoup plus de subtilité dans la façon dont les étudiants pourraient utiliser l'IA qu'un détecteur ne peut signaler aujourd'hui.

Mes tests d'étudiants comprenaient un échantillon d'un essai original d'étudiant écrit en espagnol, puis traduit en anglais avec ChatGPT. Dans ce cas, qu'est-ce qui doit compter : les idées ou les mots ? Et si l'élève avait des difficultés avec l'anglais comme langue seconde ? (Dans notre test, le détecteur de Turnitin a semblé manquer l'écriture de l'IA et n'en a signalé aucune.)

Serait-il plus ou moins acceptable qu'un étudiant demande à ChatGPT de décrire toutes les idées d'un devoir, puis écrive lui-même les mots réels ?

"C'est la conversation la plus intéressante et la plus importante à avoir au cours des six prochains mois à un an - et celle que nous avons nous-mêmes eue avec les instructeurs", déclare Chechitelli.

"Nous sommes vraiment convaincus que la visibilité, la transparence et l'intégrité sont les fondements des prochaines conversations que nous souhaitons avoir sur la manière dont cette technologie va être utilisée", a déclaré Wang.

Pour Dell, l'enseignante californienne, le fondement de l'IA en classe est une conversation ouverte avec ses élèves.

Lorsque ChatGPT a commencé à faire les gros titres en décembre, Dell a consacré une leçon entière avec la classe d'anglais de Goetz sur ce qu'est ChatGPT et ce qu'il n'est pas bon. Elle lui a demandé de rédiger une dissertation pour une invite en anglais que ses élèves avaient déjà terminée, puis la classe a analysé les performances de l'IA.

L'IA n'était pas très bonne.

"Une partie pour convaincre les enfants de ne pas tricher consiste à leur faire comprendre que ce que nous leur demandons de faire est important pour eux", a déclaré Dell.

Problème 2901

Incidents associés

Incident 5141 Rapport
Turnitin's ChatGPT-Detection Tool Falsely Flagged Student Essays as AI-Generated

Nous avons testé un nouveau détecteur ChatGPT pour les enseignants. Il a signalé un étudiant innocent.

Pourquoi détecter l'IA est si difficile

La détection de l'IA est-elle une bonne idée ?

Problème 2901

Incidents associés

Incident 5141 RapportTurnitin's ChatGPT-Detection Tool Falsely Flagged Student Essays as AI-Generated

Nous avons testé un nouveau détecteur ChatGPT pour les enseignants. Il a signalé un étudiant innocent.

Pourquoi détecter l'IA est si difficile

La détection de l'IA est-elle une bonne idée ?

Incident 5141 Rapport
Turnitin's ChatGPT-Detection Tool Falsely Flagged Student Essays as AI-Generated