Report 4312

Después de tomarse un tiempo libre de la universidad a principios de la pandemia para formar una familia, Moira Olmsted estaba ansiosa por volver a la escuela. Durante meses, hizo malabarismos con un trabajo de tiempo completo y un niño pequeño para ahorrar para un programa a su propio ritmo que le permitiera aprender de forma remota. Con siete meses de embarazo de su segundo hijo, Olmsted se inscribió en cursos en línea en la Universidad Metodista Central en 2023, estudiando para convertirse en maestra.

Apenas unas semanas después del semestre de otoño, Olmsted presentó una tarea escrita en una clase obligatoria: uno de los tres resúmenes de lectura que tenía que hacer cada semana. Poco después, recibió su calificación: cero. Cuando se acercó a su profesor, Olmsted dijo que le dijeron que una herramienta de detección de IA había determinado que su trabajo probablemente había sido generado por inteligencia artificial. De hecho, dijo el maestro, su escritura había sido marcada al menos una vez antes.

Para Olmsted, que ahora tiene 24 años, la acusación fue un "puñetazo en el estómago". También fue una amenaza para su posición en la universidad. "Es como decir, Dios mío, esto es lo que nos funciona ahora mismo, y me lo podrían quitar por algo que no hice", dice.

Olmsted refutó la acusación ante su profesora y un coordinador de estudiantes, subrayando que tiene un trastorno del espectro autista y que escribe de una manera formal que podría ser considerada erróneamente como generada por IA, según los correos electrónicos vistos por Bloomberg Businessweek. La calificación finalmente fue cambiada, pero no antes de que recibiera una advertencia estricta: si su trabajo era marcado nuevamente, la profesora lo trataría de la misma manera que lo harían con el plagio.

Desde que ChatGPT de OpenAI introdujo la IA generativa al público en general hace casi dos años, las escuelas se han apresurado a adaptarse a un panorama modificado. Los educadores ahora dependen de una creciente cantidad de herramientas de detección para ayudar a detectar oraciones, párrafos o tareas completas generadas por inteligencia artificial. Según una encuesta realizada a más de 450 instructores, publicada en marzo por el Centro para la Democracia y la Tecnología, aproximadamente dos tercios de los docentes afirman utilizar un verificador de IA con regularidad.

Los mejores detectores de escritura de IA son muy precisos, pero no son infalibles. Businessweek puso a prueba dos de los principales servicios (GPTZero y Copyleaks) en una muestra aleatoria de 500 ensayos de solicitud de ingreso a la universidad enviados a la Universidad Texas A&M en el verano de 2022, poco antes del lanzamiento de ChatGPT, lo que garantiza de manera efectiva que no fueron generados por IA. Los ensayos se obtuvieron a través de una solicitud de registros públicos, lo que significa que no formaban parte de los conjuntos de datos con los que se entrenan las herramientas de IA. Businessweek descubrió que los servicios marcaron falsamente entre el 1% y el 2% de los ensayos como probablemente escritos por IA, y en algunos casos afirmaron tener una certeza cercana al 100%.

Incluso una tasa de error tan pequeña puede acumularse rápidamente, dada la gran cantidad de tareas de los estudiantes cada año, con consecuencias potencialmente devastadoras para los estudiantes que son marcados falsamente. Al igual que con las acusaciones más tradicionales de trampa y plagio, los estudiantes que usan IA para hacer sus tareas tienen que rehacer las tareas y enfrentan calificaciones reprobatorias y libertad condicional.

Los detectores de IA pueden marcar falsamente ensayos como probablemente escritos por IA

Las pruebas de Bloomberg que utilizaron dos detectores de IA líderes en una muestra de 500 ensayos escritos antes del lanzamiento de ChatGPT mostraron que los servicios marcaron falsamente entre el 1% y el 2% de los ensayos como probablemente escritos por IA.

Los estudiantes más susceptibles a acusaciones inexactas son probablemente aquellos que escriben de una manera más genérica, ya sea porque son neurodivergentes como Olmsted, hablan inglés como segunda lengua (ESL) o simplemente aprendieron a usar un vocabulario más sencillo y un estilo mecánico, según estudiantes, académicos y desarrolladores de IA. Un estudio de 2023 [https://arxiv.org/pdf/2304.02819 "Los detectores GPT están sesgados contra los escritores de inglés no nativos (.pdf)") realizado por investigadores de la Universidad de Stanford descubrió que los detectores de IA eran "casi perfectos" al revisar ensayos escritos por estudiantes de octavo grado nacidos en EE. UU., pero marcaron más de la mitad de los ensayos escritos por estudiantes de inglés no nativos como generados por IA. OpenAI [dijo recientemente] (https://www.wsj.com/tech/ai/openai-tool-chatgpt-cheating-writing-135b755a "Exclusivo | Existe una herramienta para detectar a los estudiantes que hacen trampa con ChatGPT. OpenAI no la ha publicado. - WSJ") que se ha abstenido de publicar una herramienta de detección de escritura con IA en parte por preocupaciones de que pudiera afectar negativamente a ciertos grupos, incluidos los estudiantes de ESL.

Businessweek también descubrió que los servicios de detección de IA a veces pueden ser engañados por herramientas automatizadas diseñadas para hacer pasar la escritura de IA como humana. Esto podría conducir a una carrera armamentista que enfrenta a una tecnología contra otra, dañando la confianza entre educadores y estudiantes con poco beneficio educativo.

Turnitin, una popular herramienta de detección de IA que Olmsted dice que se utilizó para verificar su trabajo, ha dicho que tiene una tasa de falsos positivos del 4% al analizar oraciones. Turnitin se negó a poner su servicio a disposición para pruebas. En una publicación de blog de 2023, la Universidad de Vanderbilt, una de las varias escuelas importantes que desactivó el servicio de detección de IA de Turnitin por cuestiones de precisión, señaló que, de lo contrario, cientos de trabajos de estudiantes habrían sido marcados incorrectamente durante el año académico como parcialmente escritos por IA.

Ken Sahib, un estudiante multilingüe que pasó la mayor parte de su infancia en Italia, dice que fue "abrumador" cuando recibió un cero en una tarea que resumía una lectura para su curso de Introducción a la Red en Berkeley College en Nueva York. Cuando Sahib le preguntó al respecto, el profesor dijo: "Todas las herramientas que probé produjeron el mismo resultado: esas respuestas fueron generadas por IA", según los correos electrónicos vistos por Businessweek. "Sabes lo que estás haciendo".

Sahib dice que finalmente aprobó la materia, pero el incidente fracturó su relación con su profesor. "Después de eso, apenas hablamos", dice. El profesor no respondió a las solicitudes de comentarios.

Si bien algunos educadores se han alejado de los detectores de IA y han tratado de ajustar sus planes de estudio para incorporar la IA en su lugar, muchas universidades y escuelas secundarias todavía usan estas herramientas. Las empresas emergentes de detección de IA han atraído alrededor de $ 28 millones en financiación desde 2019, según la firma de datos de inversión PitchBook, y la mayoría de esos acuerdos se produjeron después del lanzamiento de ChatGPT. Las empresas emergentes de detección de deepfake, que pueden verificar texto, imágenes, audio y video generados por IA, recaudaron más de 300 millones de dólares en 2023, frente a los 65 millones de dólares del año anterior, según descubrió PitchBook.

El resultado es que las aulas siguen plagadas de ansiedad y paranoia ante la posibilidad de acusaciones falsas, según entrevistas con una docena de estudiantes y 11 profesores en todo Estados Unidos. Los estudiantes universitarios ahora realizan una amplia gama de esfuerzos que consumen mucho tiempo para defender la integridad de su trabajo, un proceso que, según dicen, disminuye la experiencia de aprendizaje. Algunos también temen utilizar servicios comunes de asistencia para la redacción con IA y correctores gramaticales que se comercializan específicamente para estudiantes, citando preocupaciones de que activen los detectores de IA.

Eric Wang, vicepresidente de IA de Turnitin, dice que la empresa "sobremuestrea" intencionalmente grupos subrepresentados en su conjunto de datos. Dice que las pruebas internas han demostrado que el modelo de Turnitin no acusa falsamente a los estudiantes de ESL, y que su tasa general de falsos positivos para documentos completos es inferior al 1% y mejora con cada nueva versión. Turnitin no se entrena específicamente con datos de estudiantes neurodivergentes ni tiene acceso a historias clínicas para evaluar esa clasificación.

El cofundador y director ejecutivo de Copyleaks, Alon Yamin, dice que su tecnología tiene una precisión del 99%. "Le estamos dejando muy en claro a las instituciones académicas que nada es 100% seguro y que debería usarse para identificar tendencias en el trabajo de los estudiantes", dice. "Es como una bandera amarilla que pueden analizar y usar como una oportunidad para hablar con los estudiantes".

"Todo detector de IA tiene puntos ciegos", dice Edward Tian, fundador y director ejecutivo de GPTZero. Dice que su empresa ha avanzado en la eliminación de sesgos en los resultados para los estudiantes de ESL en particular, y ha tomado medidas para indicar más claramente el nivel de incertidumbre en la evaluación de su herramienta del trabajo escrito para los profesores.

Tian creó GPTZero a principios de 2023. Su startup tenía 4 millones de usuarios en julio, frente al millón de hace un año, y recientemente recaudó 10 millones de dólares de inversores, incluido Jack Altman, el hermano del director ejecutivo de OpenAI. "El semestre pasado fue el semestre más activo", dice Tian. "Esto demuestra que este problema no va a desaparecer, pero ha cambiado. Hace un año, la pregunta más común que se hacía la gente era: ¿Esto es IA?". Ahora, dice, los profesores saben que la IA está en sus aulas. La pregunta es: "¿Cómo se enfrenta a ella?".

Es un desafío cuantificar el uso de la IA en las escuelas. En una prueba, Businessweek analizó un conjunto separado de 305 ensayos enviados a Texas A&M en el verano de 2023, después del lanzamiento de ChatGPT, y descubrió que los mismos detectores de IA marcaron alrededor del 9 % como generados por inteligencia artificial.

Los detectores de escritura de IA generalmente analizan la perplejidad, una medida de cuán complejas son las palabras en un envío determinado. "Si las elecciones de palabras tienden a ser más genéricas y formulaicas, ese trabajo tiene una mayor probabilidad de ser marcado por los detectores de IA", dice James Zou, profesor de ciencia de datos biomédicos en la Universidad de Stanford y autor principal del estudio de Stanford sobre estudiantes de ESL.

El servicio de detección de IA QuillBot, por ejemplo, señala que "es probable que el contenido generado por IA contenga palabras repetitivas, frases extrañas y un flujo poco natural y entrecortado". GPTZero también tiene en cuenta un criterio que denomina "explosividad", que mide cuánto varía la perplejidad a lo largo de un documento escrito. A diferencia de la IA, "las personas tienden a variar mucho la construcción de sus oraciones y su dicción a lo largo de un documento", según la empresa.

Las empresas de detección de IA subrayan que sus servicios no deben ser tratados como juez, jurado y verdugo, sino como un punto de datos para ayudar a informar y guiar a los profesores.

La mayoría de las escuelas que trabajan con Copyleaks ahora dan a los estudiantes acceso al servicio, dice Yamin, "para que puedan autenticarse" y ver sus propias puntuaciones de IA. Mientras tanto, Turnitin está trabajando para ampliar su cartera de productos de IA con un servicio que ayude a los estudiantes a mostrar el proceso de cómo elaboran sus tareas escritas, en respuesta a los comentarios de profesores y alumnos.

"Los estudiantes dicen: 'Quiero poder demostrar que este es mi trabajo y quiero sentirme segura de que no hay preguntas al respecto'", dice Annie Chechitelli, directora de productos de Turnitin. "Y los profesores dicen: 'Necesito más puntos de datos que me ayuden a entender cómo se le ocurrió esto al estudiante'".

Después de que su trabajo fuera marcado, Olmsted dice que se obsesionó con evitar otra acusación. Se grabó a sí misma en su computadora portátil mientras realizaba tareas escritas. Trabajó en Google Docs para rastrear sus cambios y crear un registro de papel digital. Incluso intentó modificar su vocabulario y sintaxis. "Estoy muy nerviosa de llegar tan lejos y encontrarme con otra acusación de IA", dice Olmsted, quien está a punto de graduarse en la primavera. "Tengo mucho que perder".

Nathan Mendoza, estudiante de tercer año de ingeniería química en la Universidad de California en San Diego, utiliza GPTZero para preseleccionar su trabajo. Dice que la mayor parte del tiempo que le lleva completar una tarea ahora lo pasa ajustando la redacción para que no lo marquen falsamente, de maneras que él cree que hacen que la redacción suene peor. Otros estudiantes han acelerado ese proceso recurriendo a un conjunto de los llamados servicios humanizadores de IA que pueden reescribir automáticamente los envíos para pasar los detectores de IA.

"AI Humanizer" edita un ensayo escrito por humanos para evitar la detección de IA

Una prueba de Bloomberg de un servicio llamado Hix Bypass descubrió que un ensayo escrito por humanos que GPTZero dijo incorrectamente que tenía un 98,1 % de IA bajó drásticamente a un 5,3 % de IA después de ser alterado por el servicio.

El miedo a ser marcado por los detectores de IA también ha obligado a los estudiantes a repensar el uso de herramientas populares de asistencia para la redacción en línea. Grammarly, una startup valorada en 13 mil millones de dólares en 2021, ayuda a los estudiantes con todo, desde correcciones ortográficas básicas hasta sugerencias de estructura. Pero también se ha ampliado con opciones para reescribir automáticamente un envío completo para cumplir con ciertos criterios, ampliando los límites de lo que los profesores pueden considerar aceptable.

Bloomberg descubrió que usar Grammarly para "mejorar" un ensayo o "hacer que suene académico" convertirá el trabajo que pasó como 100% escrito por humanos en 100% escrito por IA. Sin embargo, el corrector ortográfico y las sugerencias gramaticales de Grammarly solo tienen un impacto marginal en hacer que los documentos parezcan más escritos por IA.

Kaitlyn Abellar, una estudiante de Florida SouthWestern State College, dice que ha desinstalado complementos para programas como Grammarly de su computadora. Marley Stevens, una estudiante de la Universidad del Norte de Georgia, publicó un video viral de TikTok el año pasado sobre su experiencia al ser penalizada después de que Turnitin marcara su ensayo como generado por IA. Stevens [dijo] (https://www.tiktok.com/@m.stevens03/video/7336208197033676075 "Marley Stevens tiktok post") la pusieron en libertad condicional académica durante un año después de que una audiencia disciplinaria determinara que había hecho trampa. Insistió en que escribió la tarea ella misma, utilizando solo las funciones de corrección ortográfica y gramática estándar de Grammarly.

"Se trataba de una estudiante bien intencionada que había estado usando Grammarly de manera responsable y fue marcada por una tecnología de terceros que decía que había hecho algo mal. No podemos evitar el modo en que opera Turnitin, como si entendieran que tienen falsas banderas", dice Jenny Maxwell, directora de Grammarly para educación. El incidente impulsó a Grammarly a desarrollar una herramienta de detección para estudiantes que identifica si el texto fue escrito a máquina, pegado de una fuente diferente o escrito por un modelo de IA. "Es casi como una póliza de seguro", dice Maxwell.

Para algunos educadores y estudiantes, el sistema actual parece insostenible debido a la presión que ejerce sobre ambos lados del escritorio del profesor y porque la IA llegó para quedarse.

"La inteligencia artificial va a ser parte del futuro, nos guste o no", dice Adam Lloyd, profesor de inglés en la Universidad de Maryland. "Considerar la IA como algo que debemos mantener fuera del aula o disuadir a los estudiantes de que la utilicen es un error".

En lugar de utilizar Turnitin, que está disponible para el personal docente de su escuela, Lloyd prefiere seguir su intuición. "Conozco la escritura de mis estudiantes y, si tengo una sospecha, mantendré una discusión abierta", dice, "no los acusaré automáticamente".

Problema 4312

Incidentes Asociados

Incidente 8491 Reporte
AI Detection Tools Allegedly Misidentify Neurodivergent and ESL Students' Work as AI-Generated in Academic Settings

Detectores de IA acusan falsamente a estudiantes de hacer trampa, con graves consecuencias

Los detectores de IA pueden marcar falsamente ensayos como probablemente escritos por IA

"AI Humanizer" edita un ensayo escrito por humanos para evitar la detección de IA

Problema 4312

Incidentes Asociados

Incidente 8491 ReporteAI Detection Tools Allegedly Misidentify Neurodivergent and ESL Students' Work as AI-Generated in Academic Settings

Detectores de IA acusan falsamente a estudiantes de hacer trampa, con graves consecuencias

Los detectores de IA pueden marcar falsamente ensayos como probablemente escritos por IA

"AI Humanizer" edita un ensayo escrito por humanos para evitar la detección de IA

Incidente 8491 Reporte
AI Detection Tools Allegedly Misidentify Neurodivergent and ESL Students' Work as AI-Generated in Academic Settings