Report 5035

El desarrollador de software Xe Iaso llegó a un punto crítico a principios de este año cuando el tráfico agresivo de rastreadores de IA de Amazon sobrecargó su servicio de repositorio Git, causando inestabilidad y tiempos de inactividad repetidamente. A pesar de configurar medidas de defensa estándar (ajustar robots.txt, bloquear agentes de usuario conocidos de rastreadores y filtrar el tráfico sospechoso), Iaso descubrió que los rastreadores de IA seguían evadiendo todos los intentos de detenerlos, falsificando agentes de usuario y utilizando direcciones IP residenciales como proxies.

Desesperado por una solución, Iaso finalmente recurrió a migrar su servidor a una VPN y a crear "Anubis", un sistema de prueba de trabajo a medida que obliga a los navegadores web a resolver problemas computacionales antes de acceder al sitio. "Es inútil bloquear los bots rastreadores de IA porque mienten, cambian su agente de usuario, usan direcciones IP residenciales como proxies y más", escribió Iaso en una entrada de blog titulada "Un grito desesperado de ayuda". "No quiero tener que cerrar mi servidor Gitea al público, pero lo haré si es necesario".

La historia de Iaso pone de relieve una crisis más amplia que se extiende rápidamente por la comunidad de código abierto, ya que lo que parecen ser rastreadores de IA agresivos sobrecargan cada vez más la infraestructura mantenida por la comunidad, provocando lo que equivale a ataques de denegación de servicio distribuido (DDoS) persistentes contra recursos públicos vitales. Según un informe reciente y exhaustivo de LibreNews, algunos proyectos de código abierto ahora ven que hasta el 97 % de su tráfico proviene de bots de empresas de IA, lo que aumenta drásticamente los costos de ancho de banda, la inestabilidad del servicio y sobrecarga a los ya de por sí limitados mantenedores.

Kevin Fenzi, miembro del equipo de administración de sistemas del proyecto Fedora Pagure, informó en su blog que el proyecto tuvo que bloquear todo el tráfico proveniente de Brasil tras el fracaso de repetidos intentos por mitigar el tráfico de bots. GNOME GitLab implementó el sistema "Anubis" de Iaso, que requiere que los navegadores resuelvan problemas computacionales antes de acceder al contenido. El administrador de sistemas de GNOME, Bart Piotrowski compartió en Mastodon que solo alrededor del 3,2 % de las solicitudes (2690 de 84 056) superaron su sistema de desafío, lo que sugiere que la gran mayoría del tráfico estaba automatizado. La infraestructura GitLab de KDE quedó temporalmente fuera de servicio debido al tráfico de rastreadores procedente de rangos de IP de Alibaba, según LibreNews, citando un chat de desarrollo de KDE.

Si bien Anubis ha demostrado ser eficaz filtrando el tráfico de bots, presenta inconvenientes para los usuarios legítimos. Cuando muchas personas acceden al mismo enlace simultáneamente (como cuando se comparte un enlace de GitLab en una sala de chat), los visitantes del sitio pueden experimentar retrasos significativos. Algunos usuarios de dispositivos móviles han informado de que han tenido que esperar hasta dos minutos para que se complete el desafío de prueba de trabajo, según el medio de comunicación.

La situación no es precisamente nueva. En diciembre, Dennis Schubert, encargado del mantenimiento de la infraestructura de la red social Diaspora, describió la situación como "literalmente un DDoS en todo internet" tras descubrir que las empresas de IA representaban el 70 % de todas las solicitudes web a sus servicios.

Los costos son tanto técnicos como financieros. El proyecto Read the Docs informó que el bloqueo de los rastreadores de IA redujo inmediatamente su tráfico en un 75 %, pasando de 800 GB a 200 GB diarios. Este cambio le ahorró al proyecto aproximadamente 1500 dólares mensuales en costos de ancho de banda, según su entrada de blog: "Los rastreadores de IA deben ser más respetuosos".

Una carga desproporcionada para el código abierto

La situación ha supuesto un gran desafío para los proyectos de código abierto, que dependen de la colaboración pública y suelen operar con recursos limitados en comparación con las entidades comerciales. Muchos mantenedores han reportado que los rastreadores de IA eluden deliberadamente las medidas de bloqueo estándar, ignorando las directivas robots.txt, suplantando agentes de usuario y rotando direcciones IP para evitar ser detectados.

Como informó LibreNews, Martin Owens, del proyecto Inkscape, comentó en Mastodon que sus problemas no se debían solo a "los típicos ataques DDoS chinos del año pasado, sino a un montón de empresas que empezaron a ignorar la configuración de nuestro rastreador y a suplantar la información de sus navegadores". Owens añadió: "Ahora tengo una lista de bloqueos enorme. Si trabajas para una gran empresa dedicada a la IA, es posible que ya no veas nuestro sitio web". En Hacker News, quienes comentaron en hilos sobre LibreNews la semana pasada y en una publicación sobre las batallas de Iaso en enero expresaron su profunda frustración por lo que consideran un comportamiento depredador de las empresas de IA hacia la infraestructura de código abierto. Si bien estos comentarios provienen de publicaciones en foros y no de declaraciones oficiales, representan un sentimiento común entre los desarrolladores.

Como lo expresó un usuario de Hacker News, las empresas de IA parten de la premisa de que la buena voluntad es irrelevante con su capital de 100 000 millones de dólares. Las discusiones muestran una batalla entre pequeñas startups de IA que han colaborado con los proyectos afectados y grandes corporaciones que no han respondido a pesar de supuestamente imponer miles de dólares en costos de ancho de banda a los mantenedores de proyectos de código abierto.

Además de consumir ancho de banda, los rastreadores a menudo atacan puntos finales costosos, como las páginas de registro y culpa de Git, lo que sobrecarga aún más los recursos ya limitados. Drew DeVault, fundador de SourceHut, informó en su blog que los rastreadores acceden a "todas las páginas de cada registro de Git y a cada confirmación de su repositorio", lo que hace que los ataques sean particularmente gravosos para los repositorios de código.

El problema va más allá de la sobrecarga de la infraestructura. Como señala LibreNews, algunos proyectos de código abierto comenzaron a recibir informes de errores generados por IA ya en diciembre de 2023, primero reportado por Daniel Stenberg, del proyecto Curl, en su blog en una publicación de enero de 2024. Estos informes parecen legítimos a primera vista, pero contienen vulnerabilidades inventadas, lo que hace perder tiempo valioso a los desarrolladores.

¿Quién es responsable y por qué lo hacen?

Las empresas de IA tienen un historial de tomar sin preguntar. Antes de que la irrupción generalizada de los generadores de imágenes de IA y ChatGPT atrajera la atención sobre esta práctica en 2022, el campo del aprendizaje automático compilaba regularmente conjuntos de datos sin tener en cuenta la propiedad.

Si bien muchas empresas de IA se dedican al rastreo web, las fuentes sugieren diferentes niveles de responsabilidad e impacto. El análisis de Dennis Schubert (https://pod.geraspora.de/posts/17342163) de los registros de tráfico de Diaspora mostró que aproximadamente una cuarta parte de su tráfico web provenía de bots con un agente de usuario OpenAI, mientras que Amazon representaba el 15 % y Anthropic el 4,3 %.

El comportamiento de los rastreadores sugiere diferentes motivaciones posibles. Algunos podrían estar recopilando datos de entrenamiento para construir o refinar grandes modelos de lenguaje, mientras que otros podrían estar realizando búsquedas en tiempo real cuando los usuarios solicitan información a los asistentes de IA.

La frecuencia de estos rastreos es particularmente reveladora. Schubert observó que los rastreadores de IA "no solo rastrean una página una vez y luego siguen adelante. Ah, no, vuelven cada 6 horas porque, jaja, ¿por qué no?". Este patrón sugiere una recopilación continua de datos en lugar de ejercicios de entrenamiento puntuales, lo que podría indicar que las empresas utilizan estos rastreos para mantener actualizado el conocimiento de sus modelos.

Algunas empresas parecen más agresivas que otras. El equipo de administración de sistemas de KDE informó que rastreadores de rangos de IP de Alibaba fueron responsables de la interrupción temporal de GitLab. Mientras tanto, los problemas de Iaso provenían del rastreador de Amazon. Un miembro del equipo de administración de sistemas de KDE declaró a LibreNews que operadores occidentales de LLM como OpenAI y Anthropic al menos configuraban cadenas de agente de usuario adecuadas (lo que teóricamente permite a los sitios web bloquearlos), mientras que algunas empresas chinas de IA, según se informa, utilizaban métodos más engañosos.

No está claro por qué estas empresas no adoptan enfoques más colaborativos y, como mínimo, limitan la velocidad de sus ejecuciones de recolección de datos para no saturar los sitios web de origen. Amazon, OpenAI, Anthropic y Meta no respondieron de inmediato a las solicitudes de comentarios, pero actualizaremos este artículo si responden.

Tarpits y laberintos: La creciente resistencia

En respuesta a estos ataques, han surgido nuevas herramientas defensivas para proteger los sitios web de rastreadores de IA no deseados. Como informó Ars en enero, un creador anónimo identificado solo como "Aaron" diseñó una herramienta llamada "Nepenthes" para atrapar a los rastreadores en laberintos interminables de contenido falso. Aaron la describe explícitamente como "malware agresivo" destinado a desperdiciar los recursos de las empresas de IA y potencialmente contaminar sus datos de entrenamiento.

"Cada vez que uno de estos rastreadores extrae información de mi tarpit, son recursos que han consumido y tendrán que pagar en efectivo", explicó Aaron a Ars. "Esto aumenta sus costos. Y viendo que ninguno de ellos ha obtenido ganancias aún, eso es un gran problema para ellos".

El viernes, Cloudflare anunció "Laberinto de IA", un enfoque similar, pero más refinado desde el punto de vista comercial. A diferencia de Nepenthes, diseñado como un arma ofensiva contra las empresas de IA, Cloudflare posiciona su herramienta como una función de seguridad legítima para proteger a los propietarios de sitios web del scraping no autorizado, como informamos en su momento.

"Cuando detectamos rastreo no autorizado, en lugar de bloquear la solicitud, enlazamos a una serie de páginas generadas por IA que sean lo suficientemente convincentes como para incitar a un rastreador a recorrerlas", explicó Cloudflare en su anuncio. La compañía informó que los rastreadores de IA generan más de 50 mil millones de solicitudes a su red diariamente, lo que representa casi el 1 % de todo el tráfico web que procesan.

La comunidad también está desarrollando herramientas colaborativas para ayudar a protegerse contra estos rastreadores. El proyecto "ai.robots.txt" ofrece una lista abierta de rastreadores web asociados con empresas de IA y proporciona archivos robots.txt prediseñados que implementan el Protocolo de Exclusión de Robots, así como archivos .htaccess que devuelven páginas de error al detectar solicitudes de rastreadores de IA.

En la actualidad, tanto el rápido crecimiento de los espacios en línea con contenido generado por IA (abrumador) como las prácticas agresivas de rastreo web por parte de empresas de IA amenazan la sostenibilidad de recursos esenciales en línea. El enfoque actual adoptado por algunas grandes empresas de IA —extraer grandes cantidades de datos de proyectos de código abierto sin consentimiento claro ni compensación— corre el riesgo de dañar gravemente el propio ecosistema digital del que dependen estos modelos de IA.

La recopilación responsable de datos podría lograrse si las empresas de IA colaboran directamente con las comunidades afectadas. Sin embargo, los actores destacados de la industria han mostrado pocos incentivos para adoptar prácticas más cooperativas. Sin una regulación significativa ni autocontrol por parte de las empresas de IA, es probable que la carrera armamentista entre los bots ávidos de datos y quienes intentan defender la infraestructura de código abierto se intensifique aún más, lo que podría agravar la crisis del ecosistema digital que sustenta la Internet moderna.

Problema 5035

Incidentes Asociados

Incidente 10012 Reportes
LLM Scrapers Allegedly Target Multiple Open Source Projects Disrupting the FOSS Ecosystem

Los desarrolladores de código abierto afirman que los rastreadores de IA dominan el tráfico y fuerzan bloqueos en países enteros.

Una carga desproporcionada para el código abierto

Tarpits y laberintos: La creciente resistencia

Problema 5035

Incidentes Asociados

Incidente 10012 ReportesLLM Scrapers Allegedly Target Multiple Open Source Projects Disrupting the FOSS Ecosystem

Los desarrolladores de código abierto afirman que los rastreadores de IA dominan el tráfico y fuerzan bloqueos en países enteros.

Una carga desproporcionada para el código abierto

Tarpits y laberintos: La creciente resistencia

Incidente 10012 Reportes
LLM Scrapers Allegedly Target Multiple Open Source Projects Disrupting the FOSS Ecosystem