Incidentes Asociados

Un bufete de abogados de California presentó una demanda colectiva contra OpenAI por "robar " datos personales para entrenar ChatGPT.
El bufete de abogados Clarkson, en una demanda presentada el miércoles en el tribunal del Distrito Norte de California, alega que ChatGPT y Dall-E "utilizan información privada robada, incluida información de identificación personal, de cientos de millones de usuarios de Internet, incluidos niños de todas las edades, sin su consentimiento informado o conocimiento”. Para entrenar su modelo de lenguaje grande, OpenAI extrajo 300 mil millones de palabras de Internet, incluida información personal y publicaciones de sitios de redes sociales como Twitter y Reddit. El bufete de abogados afirma que OpenAI "lo hizo en secreto y sin registrarse como corredor de datos, como lo exigía la ley aplicable".
OpenAI ha sido objeto de controversia sobre cómo y qué datos recopila para entrenar y desarrollar ChatGPT. Hasta hace poco, no había una forma explícita para que los usuarios optaran por no participar de permitir que OpenAI usara sus conversaciones e información personal para alimentar el modelo. ChatGPT fue prohibido inicialmente en Italia, utilizando el Reglamento General de Protección de Datos (GDPR) de Europa, por proteger inadecuadamente los datos de los usuarios, especialmente cuando se trata de menores. Esta demanda incluye las políticas de privacidad opacas de OpenAI para usuarios existentes, pero se enfoca principalmente en datos extraídos de la web que nunca tuvo la intención explícita de compartirse con ChatGPT. A través de inversiones de miles de millones de dólares de Microsoft e ingresos de suscriptores de ChatGPT Plus, OpenAI se ha beneficiado de estos datos sin compensar a su fuente.
Los 15 cargos de la denuncia incluyen violación de la privacidad, negligencia por no proteger los datos personales y hurto al obtener ilegalmente cantidades masivas de datos personales para entrenar a sus modelos. Los conjuntos de datos como Common Crawl, Wikipedia y Reddit, que incluyen información personal, están disponibles públicamente siempre que las empresas sigan los protocolos para la compra y el uso de estos datos. Pero OpenAI supuestamente usó estos datos sin permiso o consentimiento de los usuarios en el contexto de ChatGPT. Aunque la información personal de las personas es pública en los sitios de redes sociales, blogs y artículos, si los datos se utilizan fuera de la plataforma prevista, se puede considerar una violación de la privacidad.
En Europa, existe una distinción legal entre el dominio público y los datos de uso gratuito gracias a la ley GDRP, pero en los EE. UU., eso aún está en debate. Nader Henein, vicepresidente de investigación de privacidad de Gartner que cree que el sentimiento de la demanda es válido, dijo: "La gente debería tener control sobre cómo se usan sus datos, incluso cuando están disponibles en el dominio público". Pero Henein no está seguro de si el sistema legal estadounidense estaría de acuerdo.
Ryan Clarkson, socio gerente, dijo en la [publicación de blog] de la firma (https://clarksonlawfirm.com/the-ai-arms-race-and-why-we-need-to-come-together-now/), es fundamental actuar ahora con las leyes existentes en lugar de esperar a que los poderes Ejecutivo y Judicial respondan con la regulación federal. "No podemos darnos el lujo de pagar el costo de los resultados negativos con la IA como lo hemos hecho con las redes sociales, o como lo hicimos con la energía nuclear. Como sociedad, el precio que todos pagaríamos es demasiado alto".