Problema 4077
En julio pasado, Google modificó ocho palabras su política de privacidad, lo que representó un paso significativo en su carrera por construir la próxima generación de inteligencia artificial.
Google, que resumió miles de palabras en su documento, modificó la redacción de cómo utiliza los datos para sus productos y agregó que la información pública podría usarse para entrenar a su chatbot de IA y otros servicios. El cambio sutil no fue exclusivo de Google. A medida que las empresas buscan entrenar sus modelos de IA con datos protegidos por las leyes de privacidad, están reescribiendo cuidadosamente sus términos y condiciones para incluir palabras como "inteligencia artificial", "aprendizaje automático" e "IA generativa".
Algunos cambios en los términos de servicio son tan pequeños como unas pocas palabras. Otros incluyen la adición de secciones enteras para explicar cómo funcionan los modelos de IA generativa y los tipos de acceso que tienen a los datos de los usuarios. Snap, por ejemplo, advirtió a sus usuarios que no compartieran información confidencial con su IA. chatbot porque se utilizaría en su entrenamiento, y Meta alertó a los usuarios en Europa de que las publicaciones públicas en Facebook e Instagram pronto se utilizarían para entrenar su gran modelo de lenguaje.
Esos términos y condiciones --- que muchas personas han ignorado durante mucho tiempo --- ahora están siendo cuestionados por algunos usuarios que son escritores, ilustradores y artistas visuales y están preocupados de que su trabajo se esté utilizando para entrenar los productos que amenazan con reemplazarlos.
"Ya estamos siendo destruidos por todos lados por contenido inferior que básicamente está entrenado en nuestro material, y ahora nos están descartando", dijo Sasha Yanshin, una personalidad de YouTube y cofundadora de un sitio de recomendaciones de viajes.
Este mes, Yanshin canceló su suscripción a Adobe debido a un cambio en su política de privacidad. "La ferretería que te vende un pincel no es dueña de la pintura que haces con él, ¿verdad?", dijo.
Para entrenar la IA generativa, las empresas de tecnología pueden recurrir a dos fuentes de datos: públicos y privados. Los datos públicos están disponibles en la web para que cualquiera los vea, mientras que los datos privados incluyen cosas como mensajes de texto, correos electrónicos y publicaciones en redes sociales realizadas desde cuentas privadas.
Los datos públicos son un recurso finito y varias empresas están a solo unos años de utilizarlos todos para sus sistemas de IA. Pero gigantes tecnológicos como Meta y Google tienen en sus manos un tesoro de datos privados que podría ser diez veces más grande que su contraparte pública, dijo Tamay Besiroglu, director asociado de Epoch, un instituto de investigación de inteligencia artificial.
Esos datos podrían representar "una ventaja sustancial" en la carrera de la inteligencia artificial, dijo Besiroglu. El problema es obtener acceso a ellos. Los datos privados están protegidos en su mayoría por un mosaico de leyes federales y estatales de privacidad que otorgan a los usuarios algún tipo de licencia sobre el contenido que crean en línea, y las empresas no pueden usarlos para sus propios productos sin consentimiento.
En febrero, la Comisión Federal de Comercio advirtió a las empresas tecnológicas que cambiar las políticas de privacidad para eliminar de manera retroactiva datos antiguos podría ser "injusto o engañoso".
El entrenamiento de la inteligencia artificial podría eventualmente utilizar los tipos de datos más personales, como mensajes a amigos y familiares. Un portavoz de Google dijo que un pequeño grupo de prueba de usuarios, con permiso, había permitido a Google entrenar a su inteligencia artificial en algunos aspectos de sus correos electrónicos personales.
Google agregó en un comunicado que el cambio a su política de privacidad "simplemente aclaró que los servicios más nuevos como Bard (ahora Gemini) también están incluidos. No comenzamos a entrenar modelos en tipos adicionales de datos basados en este cambio de lenguaje".
Algunas empresas han tenido dificultades para equilibrar su hambre de nuevos datos con las preocupaciones de privacidad de los usuarios. En junio, Adobe enfrentó una reacción negativa en las redes sociales después de cambiar su política de privacidad para incluir una frase sobre la automatización que muchos de sus clientes interpretaron como relacionada con el scraping de IA.
La empresa explicó los cambios con un par de publicaciones de blog, diciendo que los clientes los habían entendido mal. El 18 de junio, Adobe agregó explicaciones en la parte superior de algunas secciones de sus términos y condiciones.
"Nunca hemos entrenado a la IA generativa en el contenido del cliente, ni nos hemos apropiado del trabajo de un cliente ni hemos permitido el acceso al contenido del cliente más allá de los requisitos legales", dijo Dana Rao, asesora general de Adobe y su directora de confianza, en un comunicado.
Este año, Snap actualizó su política de privacidad sobre los datos recopilados por My AI, su IA. chatbot con el que los usuarios pueden tener conversaciones.
Un portavoz de Snap dijo que la compañía dio "avisos por adelantado" sobre cómo usaba los datos para entrenar su IA con la aceptación de sus usuarios.
En septiembre, X agregó una sola oración a su política de privacidad sobre el aprendizaje automático y la IA. La compañía no respondió a una solicitud de comentarios.
El mes pasado, Meta alertó a sus usuarios de Facebook e Instagram en Europa de que usaría publicaciones disponibles públicamente para entrenar su IA a partir del 26 de junio, lo que provocó algunas reacciones negativas. Más tarde, detuvo los planes después de que el Centro Europeo de Derechos Digitales presentó quejas contra la compañía en 11 países europeos.
En Estados Unidos, donde las leyes de privacidad son menos estrictas, Meta ha podido usar publicaciones públicas en las redes sociales para entrenar a su IA sin una alerta de este tipo. La compañía anunció en septiembre que la nueva versión de su gran modelo de lenguaje se entrenó con datos de usuarios con los que no se había entrenado su iteración anterior.
Meta ha dicho que su IA no leía los mensajes enviados entre amigos y familiares en aplicaciones como Messenger y WhatsApp a menos que un usuario etiquetara a su chatbot de IA en un mensaje.
"Usar información disponible públicamente para entrenar modelos de IA es una práctica de toda la industria y no es exclusiva de nuestros servicios", dijo un portavoz de Meta en un comunicado.
Muchas empresas también están agregando un lenguaje a sus términos de uso que protege su contenido de ser raspado para entrenar a IA de la competencia.
Yanshin dijo que esperaba que los reguladores pudieran actuar rápidamente para crear protecciones para pequeñas empresas como la suya contra las empresas de IA, y que el tráfico a su sitio web de viajes había caído un 95 por ciento desde que comenzó a competir con los agregadores de IA.
“La gente se sentará a debatir los pros y los contras de robar datos porque eso hace que un chatbot sea bueno”, dijo. “En tres, cuatro o cinco años, es posible que no haya segmentos enteros de esta industria creativa porque simplemente estaremos diezmados”.
Para ejemplos específicos de cómo se han cambiado los textos, consulte el informe original.