Incidentes Asociados

ChatGPT lanzó ayer una nueva herramienta clasificadora para detectar texto generado por IA que, en unas pocas horas, demostró ser imperfecto, en el mejor de los casos. Resulta que cuando se trata de detectar IA generativa, ya sea texto o imágenes, es posible que no haya una solución rápida.
Sebastian Raschka, investigador de inteligencia artificial (IA) y aprendizaje automático (ML) que se desempeña como educador principal de IA en Lightning AI, comenzó a probar el [OpenAI Text Classifier](https:/ /platform.openai.com/ai-text-classifier) en ChatGPT con fragmentos de texto de un libro que publicó en 2015. Tres pasajes diferentes recibieron resultados variados: la herramienta informó que "no estaba claro" si el prefacio del libro fue escrito por AI; pero el prólogo era "posiblemente AI" y un párrafo del primer capítulo era "probablemente" AI.
Aún más preocupante fue cómo la herramienta clasificó la primera página de Macbeth de Shakespeare:
“El clasificador considera que es probable que el texto sea generado por IA”.
Cuando se le preguntó si estaba sorprendido por los resultados, Raschka dijo: "Sí y no: no están compartiendo el documento, así que no puedo decir al 100 % cómo funciona, pero según la breve descripción que tienen en el sitio web, parece que están entrenando un clasificador para predecir si algo es generado por humanos o por IA”. El problema, explicó, es que hay falsos negativos y falsos positivos según el conjunto de datos en el que se entrenó la herramienta.
Con Macbeth, por ejemplo, Raschka dijo que cree que la herramienta no fue entrenada en inglés antiguo. “No es el inglés hablado normal, es casi como un idioma extranjero”.
OpenAI dice que la herramienta aún puede ser útil junto con otros métodos
OpenAI admite el clasificador, que es un modelo GPT que se ajusta a través del aprendizaje supervisado para realizar la clasificación binaria, con un conjunto de datos de entrenamiento que consta de pasajes de texto escritos por humanos y escritos por IA, tiene solo un 26% de precisión.
Sin embargo, dice que la herramienta aún puede ser útil junto con otros métodos. En un correo electrónico, la compañía dijo: “El clasificador tiene como objetivo ayudar a mitigar las afirmaciones falsas de que el texto generado por IA fue escrito por un humano. Sin embargo, todavía tiene una serie de limitaciones, por lo que debe usarse como complemento de otros métodos para determinar la fuente del texto en lugar de ser la herramienta principal para la toma de decisiones”.
La compañía agregó en su sitio web que están poniendo a disposición del público el clasificador "para obtener comentarios sobre si las herramientas imperfectas como esta son útiles", y agregó que continuarán trabajando en la detección de texto generado por IA y "esperan compartir métodos mejorados en el futuro."
OpenAI está lejos de ser el único que intenta lidiar con el Lejano Oeste de la detección de IA generativa. Hay una oleada de otras herramientas que intentan superar el desafío.
GPTZero, por ejemplo, proporciona una puntuación que luego debe ser interpretada por el usuario. En una publicación de blog, Raschka explicó: “GPTZero no recomienda si el texto fue generado por IA o no. En cambio, solo devuelve la puntuación de perplejidad para una comparación relativa entre textos. Esto es bueno porque obliga a los usuarios a comparar textos similares de manera crítica en lugar de confiar ciegamente en una etiqueta predicha”.
DetectGPT, explicó Raschka, “perturba” el texto: Es decir, explicó, si la probabilidad del nuevo texto es notablemente menor que la del original, es Generado por IA. De lo contrario, si es aproximadamente igual, es generado por humanos. El problema, agregó, es que el método implica el uso de un LLM (modelo de lenguaje grande) específico, que "puede no ser representativo del modelo de IA para generar el texto en cuestión".
La marca de agua es otro enfoque, agregó: la idea de reducir las probabilidades de ciertas palabras para que sea menos probable que los LLM las usen, usando una "lista de elementos a evitar". Sin embargo, explicó Raschka, esto requiere un LLM que se haya modificado con esta lista a evitar. Si se conoce la lista a evitar, dijo, se puede modificar el texto generado por IA.
¿Qué significa esto para la detección generativa de IA?
Raschka dijo que no está claro cómo se desarrollará todo esto y si las herramientas de detección de IA generativa harán algún progreso para superar el desafío de discernir entre el contenido creado por humanos y el texto generado por IA. ¿Se volverá inutilizable Internet, inundado de contenido generado en el que es imposible confiar?
“Lo que significa para mí, o cómo pienso en el camino a seguir, es que Internet era el lugar donde buscabas contenido y en su mayoría confiabas en lo que encontraste”, dijo. En el futuro, se tratará más de ser selectivo y encontrar sitios web confiables.
Independientemente de lo que depare el futuro, la Caja de Pandora ya está abierta en lo que respecta a la IA generativa, enfatizó, y agregó que actualmente considera que ChatGPT es útil como un "revisor de gramática elegante" para facilitar la escritura.
“No creo que podamos retroceder”, dijo. “Todos van a usar estos sistemas y creo que está bien si los usamos de manera responsable. No creo que haya una forma de evitar el uso de estos modelos”.
Por ahora, las herramientas de detección de IA generativa "definitivamente no son lo suficientemente buenas" para tomar decisiones importantes, dijo, lo que incluye los esfuerzos para usarlas en la calificación de los trabajos de los estudiantes, en respuesta a [los temores de hacer trampa] (https://www.usatoday .com/story/news/education/2023/01/30/chatgpt-going-banned-teachers-sound-alarm-new-ai-tech/11069593002/) y plagio.
"Modelos como este pueden causar daños en el mundo real debido a que los educadores los adoptan para calificar", Raschka twitteó ayer. “Así que agreguemos algo de transparencia sobre los falsos positivos y los falsos negativos”.