Report 4113

La inteligencia artificial se entrena con datos que se obtienen en gran medida de Internet. Sin embargo, con el volumen de datos necesarios para entrenar a la IA, muchos modelos terminan consumiendo otros datos generados por la IA, lo que a su vez puede afectar negativamente al modelo en su conjunto. Dado que la IA produce y consume datos, Internet tiene el potencial de verse invadida por bots y los humanos producirán mucho menos contenido.

¿Es mala la canibalización de la IA?

La IA se está devorando a sí misma. Actualmente, la inteligencia artificial está creciendo a un ritmo rápido y los datos creados por humanos necesarios para entrenar modelos se están agotando (https://theweek.com/tech/ai-running-out-of-data). "Mientras rastrean la web en busca de nuevos datos para entrenar sus próximos modelos ---una tarea cada vez más desafiante--- [los robots de IA] probablemente ingieran parte de su propio contenido generado por IA, creando un ciclo de retroalimentación involuntario en el que lo que alguna vez fue el resultado de una IA se convierte en el insumo de otra", dijo The New York Times. "Cuando la IA generativa se entrena con su propio contenido, su resultado también puede alejarse de la realidad". Esto se conoce como colapso del modelo.

Aún así, las empresas de IA tienen las manos atadas. "Para desarrollar productos de IA cada vez más avanzados, las grandes tecnológicas podrían no tener más remedio que alimentar sus programas con contenido generado por IA, o simplemente podrían no ser capaces de separar el forraje humano del sintético", dijo The Atlantic. Tal como están las cosas, los datos sintéticos son necesarios para mantenerse al día con la creciente tecnología. "A pesar de los asombrosos avances, los chatbots y otras herramientas generativas como Midjourney y Stable Diffusion, que crean imágenes, siguen siendo a veces sorprendentemente disfuncionales: sus resultados están llenos de sesgos, falsedades y absurdos". Estas inexactitudes se trasladan a la siguiente iteración del modelo de IA.

Eso no quiere decir que todos los datos generados por IA sean malos. "Hay ciertos contextos en los que los datos sintéticos pueden ayudar a las IA a aprender", dijo el Times. "Por ejemplo, cuando se utiliza el resultado de un modelo de IA más grande para entrenar uno más pequeño, o cuando se puede verificar la respuesta correcta, como la solución a un problema de matemáticas o las mejores estrategias en juegos como el ajedrez o el Go". Además, los expertos están trabajando para crear conjuntos de datos sintéticos que tengan menos probabilidades de colapsar un modelo. "El filtrado es un área de investigación completa en este momento", dijo a The Atlantic Alex Dimakis, un científico informático de la Universidad de Texas en Austin y codirector del Instituto Nacional de IA para Fundamentos del Aprendizaje Automático. "Y vemos que tiene un gran impacto en la calidad de los modelos".

¿La IA se está apoderando de Internet?

La cuestión del entrenamiento de modelos de inteligencia artificial más nuevos puede estar subrayando un problema mayor. "El contenido de IA se está apoderando de Internet", y el texto generado por "grandes modelos de lenguaje está llenando cientos de sitios web, incluidos CNET y Gizmodo", dijo Scientific American. El contenido de IA también se está creando mucho más rápido y en mayores cantidades que el contenido creado por humanos. "Siento que estamos en un punto de inflexión en el que muchas de las herramientas existentes que usamos para entrenar estos modelos se están saturando rápidamente con texto sintético", dijo Veniamin Veselovskyy, un estudiante de posgrado en el Instituto Federal Suizo de Tecnología en Lausana, a Scientific American. Las imágenes, las publicaciones en las redes sociales y los artículos creados por IA ya han inundado Internet.

La monumental cantidad de contenido de IA en Internet, incluidos tweets de bots, imágenes absurdas y reseñas falsas, ha dado lugar a una creencia más siniestra. La teoría de la Internet muerta es la "creencia de que la gran mayoría del tráfico, las publicaciones y los usuarios de Internet han sido reemplazados por bots y contenido generado por IA, y que las personas ya no determinan la dirección de Internet", dijo Forbes. Si bien alguna vez fue solo una teoría que circuló en el foro 4Chan a principios de la década de 2010, la creencia ha ganado impulso recientemente.

Algunos creen que el contenido de IA en Internet va más allá de simplemente obtener participación en las redes sociales o entrenar modelos. "¿La teoría de la Internet muerta se detiene en la agricultura de participación inofensiva?" Jake Renzella, profesor y director de estudios (informática) en la UNSW Sydney, y Vlada Rozova, investigadora en aprendizaje automático aplicado en la Universidad de Melbourne, dijeron en The Conversation: "¿O quizás debajo de la superficie se esconde un intento sofisticado y bien financiado de apoyar regímenes autocráticos, atacar a los oponentes y difundir propaganda?".

Afortunadamente, los expertos dicen que la teoría de la Internet muerta aún no se ha hecho realidad. "La gran mayoría de las publicaciones que se vuelven virales (opiniones desquiciadas, ocurrencias, observaciones astutas, reformulaciones de lo familiar en un nuevo contexto) no son generadas por IA", afirmó Forbes.

Problema 4113

La IA se está canibalizando a sí misma y creando más IA.

¿Es mala la canibalización de la IA?

¿La IA se está apoderando de Internet?