Incidentes Asociados
Ha habido problemas importantes con los datos de entrenamiento de AI, con varias quejas ya presentadas por quienes afirmaron que su trabajo fue robado, pero el descubrimiento más reciente vio imágenes de abuso sexual infantil en su conjunto de datos. En un estudio reciente, el gran conjunto de datos abiertos conocido como LAION-5B contenía estos materiales ilegales y sensibles, más conocidos por ser utilizados por una famosa plataforma de inteligencia artificial.
Han habido disputas masivas contra la IA desde su debut, desde el acceso sin licencia ni permiso a datos en línea hasta la información confidencial que utilizó.
Los datos de entrenamiento de IA contienen imágenes de abuso sexual infantil
Un nuevo informe del Stanford Internet Observatory (SIO) y su investigador David Thiel descubrió un caso alarmante de Datos de entrenamiento de IA que contenían más de 1000 materiales de abuso sexual infantil (CSAM). Este último descubrimiento corrobora el rumor de 2022, con afirmaciones de que el LAION-5B también incluye imágenes ilegales en su conjunto de datos puestos a disposición de muchos.
Los rumores de antes ([vía Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child-abuse-images- investigadores-hallan)) se centró en los temores sobre el amplio acceso a la IA, ahora confirmado en los recientes hallazgos del estudio.
Thiel consideró a través de Ars Technica que La disponibilidad de estas imágenes de abuso sexual infantil en modelos de IA puede permitir crear "contenido nuevo y potencialmente realista sobre abuso infantil".
El conjunto de datos LAION-5B es utilizado por una plataforma de IA conocida
Dicho esto, LAION-5B es un conjunto de datos abierto de renombre que es mejor conocido por ser la herramienta utilizada por Stable Diffusion 1.5, y la investigación afirma que estos modelos fueron entrenados directamente en CSAM.
El conjunto de datos de LAION-5B tiene miles de millones de imágenes tomadas de sitios web de redes sociales de renombre, incluidos Reddit, WordPress, X y Blogspot. También contenía materiales de conocidos sitios de vídeos para adultos.
Se consideró que LAION está eliminando conjuntos de datos de Internet como parte de su "política de tolerancia cero", pero se volverán a publicar después de la verificación.
Datos de entrenamiento de IA y acceso a información en línea
Durante mucho tiempo, uno de los principales problemas contra la inteligencia artificial ha sido la seguridad, y esto se debe a que se entrena con los datos masivos del mundo, particularmente Internet, para poder crear lo que ofrece a todos. Después de importantes disputas, diferentes empresas se han encargado de hacer que los modelos de IA sean seguros, y OpenAI también anunció su nuevo "[Marco de preparación](https://www.techtimes.com/articles/299845/20231218/openai-introduces-preparedness -framework-make-ai-models-safe.htm)" para ello.
Si bien algunos quieren usar la IA para el bien, hay un lado malo cuando los actores de amenazas [la usan para ataques maliciosos](https://www.techtimes.com/articles/299422/20231205/ai-systems-more-prone -malicious-attacks-previously-belied-study-shows.htm), con la tecnología propensa a estos emprendimientos.
Ha habido investigaciones masivas sobre la IA en diferentes países, particularmente con su [acceso a los datos personales que obtiene en línea](https://www.techtimes.com/articles/298984/20231122/italy-launches-probe-ai-training -practices-over-personal-data-gathering.htm), y la cuestión de las licencias sigue presente.
Los datos y la información abundan en Internet, pero también hay un lado malo de la web que se centra en contenidos abusivos e ilegales, incluidos los más bajos que se puedan imaginar. Dicho esto, el reciente descubrimiento de materiales de abuso sexual infantil en el conjunto de datos LAION-5B es un caso alarmante, especialmente porque Stable Diffusion 1.5 es conocido por usarlo.