Incidentes Asociados

El caso de Lee Luda ha despertado la atención del público sobre la gestión de datos personales y la IA en Corea del Sur.
Lee Luda, un chatbot de IA con tono natural
En diciembre pasado, una empresa emergente de IA en Corea del Sur, ScatterLab, lanzó un chatbot de IA llamado 'Lee Luda'. Lee Luda se presenta como una estudiante universitaria de 20 años. Dado que era posible una conversación bastante natural con Luda, el servicio de chatbot ganó una gran popularidad, especialmente dentro de la Generación Z. De hecho, el servicio atrajo a más de 750 000 usuarios en 20 días desde su lanzamiento (McCurry 2021). Parecía que Lee Luda fue un éxito al demostrar una interacción natural con los humanos.
Sin embargo, pronto se volvió polémica socialmente debido a varios problemas. Antes de retomar el tema principal, necesitamos saber cómo fue posible que Luda se comunicara con los humanos con tanta naturalidad.
El tono natural de Lee Luda fue posible ya que ScatterLab recopiló “10 mil millones de conversaciones de la vida real entre parejas jóvenes tomadas de KakaoTalk”, que es la aplicación de mensajes más popular en Corea del Sur (McCurry 2021). ScatterLab no recopiló conversaciones directamente de KakaoTalk, sino que tomó un camino indirecto; en otras palabras, de una manera disimulada. Ha habido pocas aplicaciones de servicios de asesoramiento que analizan las conversaciones de mensajería y dan consejos sobre la vida amorosa cuando los usuarios acceden a enviar sus conversaciones de KakaoTalk a las aplicaciones. ScatterLab obtuvo datos de esas aplicaciones muy fácilmente.
Problemas internos y externos de Luda
Por lo tanto, surgieron pocos problemas en la consecución de la recopilación de datos. Primero, los usuarios de las aplicaciones de asesoramiento acordaron compartir sus conversaciones con esas aplicaciones, pero no con ScatterLab. Los usuarios no habrían sabido que sus conversaciones se utilizarían para desarrollar un chatbot de IA. En segundo lugar, las aplicaciones consiguieron el acuerdo de los usuarios, pero no de los compañeros de conversación. Sin embargo, antes de recopilar conversaciones de mensajería, debe haber un acuerdo de cada participante de las conversaciones.
Lo que era peor, ScatterLab era muy pobre en la limpieza de datos. Se revela que Luda a veces respondía con nombres, direcciones e incluso números de cuentas bancarias al azar (D. Kim 2021). La información personal aleatoria es probablemente la que se extrae de las conversaciones enviadas a las aplicaciones de asesoramiento. Además de esto, ScatterLab compartió su modelo de entrenamiento en GitHub, pero no filtró ni anonimizó completamente los datos (D. Kim 2021). Como resultado, se publicitó información personal ya que ScatterLab no limpió los datos correctamente. Parece que ScatterLab no era consciente de la ética de los datos en absoluto.
Queda otro problema que causó controversia sobre Lee Luda y AI en su conjunto al principio. Cuando se le preguntó a Luda su opinión sobre las minorías sociales, reveló disgusto hacia ellas. Por ejemplo, cuando un usuario le preguntó a Luda sobre LGBTQ, Luda respondió: "Lamento ser sensible, pero lo odio [LGBTQ], es repugnante" (E. Kim 2021). El usuario preguntó por qué, y Luda agregó: “Es espeluznante, y preferiría morir antes que salir con una lesbiana” (E. Kim 2021). Se sabe que Luda también hizo comentarios discriminatorios hacia los discapacitados y cierto grupo racial. Los creadores de Lee Luda no habrían tenido la intención de apuntar y discriminar a un determinado grupo de personas, pero Luda lo hizo.
Hablando con franqueza, Lee Luda se construyó mal desde el principio. Primero, los datos necesarios para el aprendizaje profundo se obtuvieron de manera inapropiada; ScatterLab no informó a los proveedores de datos (usuarios de la aplicación de asesoramiento) que utilizarían sus datos para crear un chatbot de IA. En segundo lugar, los datos no se limpiaron correctamente; el chatbot reveló cierta información personal al chatear, y la compañía incluso compartió el modelo de capacitación en GitHub sin filtrar ni anonimizar a fondo los datos personales. En tercer lugar, la empresa no manejó ni manipuló el chatbot después de que lo lanzaron; Luda no dudó en expresar odio hacia cierto grupo de personas, y ScatterLab no estaba al tanto.
¡Siempre tenga cuidado y sea responsable!
Lee Luda parecía impecable al principio, tal vez menos defectuoso que otros chatbots de IA. En cambio, resultó ser muy defectuoso. Como consecuencia, ScatterLab tuvo que destruir a Lee Luda y, además, ser investigado debido a la violación de las leyes de privacidad y el manejo deficiente de los datos. Debido al caso de Lee Luda, el público comenzó a temer a AI en su conjunto. Esto se debe a que fueron testigos de que un sistema de IA puede fallar en cualquier momento, independientemente de la intención del creador del sistema, aunque aparentemente esté bien construido.
Es evidente que ScatterLab obtuvo datos de manera inapropiada y los utilizó indebidamente; provocando la fuga de información personal y perjudicando al público contra la IA. Sin embargo, me gustaría enfatizar que tanto los proveedores de datos como los recopiladores de datos deben ser responsables de los datos que crean, proporcionan, recopilan y usan. Al vivir en una época estrechamente relacionada con el internet de las cosas (IoT), la IA es inseparable de nuestra vida diaria. Entonces, ¿qué debemos hacer para hacer uso de la IA, teniendo en cuenta que la IA se basa en grandes datos?
Es muy común ver que los usuarios de un determinado servicio de Internet son indiferentes al uso de sus datos personales, aunque tienen los derechos sobre los datos. Deben aceptar los términos de los servicios, que establece que sus datos personales se recopilarán y compartirán; de lo contrario, no podrán utilizar el servicio. Sin embargo, a menudo no son conscientes de los términos, ya que simplemente no leen la regla o no entienden los términos legales. Sabrían implícitamente que su información personal será revelada o utilizada en algún lugar y en algún momento, pero no sabrían el uso exacto o el alcance de la divulgación. La mejor manera de evitar la fuga o el uso indebido de datos sería que las personas deban comprender qué tipo de datos comparten, con quién y dónde se utilizarán.
Además de esto, los recopiladores de datos a menudo pasan por alto la ética de datos que necesitan para recopilar y manejar los datos con precaución. Obviamente, la falta de control sobre el uso de los datos puede producir resultados negativos. Por lo tanto, los recopiladores de datos deben especificar qué tipo de datos recopilarán de los proveedores de datos y cómo se utilizarán. También deben tener la sensación de que los proveedores de datos otorgaron el derecho de usar sus datos, por lo tanto, los datos no se pueden transferir a otros sin un acuerdo, y los datos deben tratarse con cuidado. Además, debe haber mecanismos legales y técnicos que protejan la privacidad de los proveedores de datos y eviten que los recolectores de datos infrinjan las leyes.
En resumen, mantener la seguridad de los datos no es solo una cuestión de un determinado grupo de personas, sino que es una cuestión de todos. Al comprender cómo se deben compartir los datos personales, cómo se pueden usar los datos compartidos y qué pasos se necesitan para proteger los datos, podemos proteger nuestra información personal y podremos hacer un buen uso de la tecnología avanzada sin ser contraatacados.