Incidentes Asociados

“Estoy cautivado por una sensación de miedo que nunca había experimentado en toda mi vida…”, escribió un usuario llamado Heehit en una reseña de Google Play de una aplicación llamada Science of Love. Esta revisión se escribió justo después de que las organizaciones de noticias acusaran a la empresa matriz de la aplicación, ScatterLab, de recopilar conversaciones íntimas entre amantes sin informar a los usuarios y luego usar los datos para construir una IA conversacional. chatbot llamado Lee-Luda. La mayoría de los estadounidenses no confía en cómo se comportarán las empresas en lo que respecta al uso y la protección de datos personales. Pero puede ser difícil imaginar los daños potenciales: exactamente cómo una empresa que hace un uso indebido o compromete los datos puede afectarnos a nosotros y a nuestras vidas. Un incidente reciente de uso indebido de datos personales en Corea del Sur nos brinda una imagen clara de lo que puede salir mal y cómo los consumidores pueden defenderse. IA de Corea del Sur La empresa ScatterLab lanzó Science of Love en 2016 y la promocionó como una aplicación "científica y basada en datos" que predice el grado de afecto en las relaciones. Uno de los servicios más populares de la aplicación fue usar el aprendizaje automático para determinar si le gustas a alguien analizando las conversaciones de mensajería de KakaoTalk, la aplicación de mensajería número 1 de Corea del Sur, que usa alrededor del 90 por ciento de la población. Los usuarios pagaron alrededor de $4.50 por análisis. Los usuarios de Science of Love descargarían sus registros de conversación utilizando la función de copia de seguridad de KakaoTalk y los enviarían para su análisis. Luego, la aplicación revisó las conversaciones de mensajería y proporcionó un informe sobre si la contraparte tenía sentimientos románticos hacia el usuario en función de estadísticas como el tiempo de respuesta promedio, la cantidad de veces que cada persona envía mensajes de texto primero y los tipos de frases y emojis utilizados. . Para junio de 2020, Science of Love había recibido alrededor de 2,5 millones de descargas en Corea del Sur y 5 millones en Japón y se estaba preparando para expandir su negocio a los Estados Unidos. “Porque sentí que la aplicación me entendía, me sentí segura y comprensiva. Me sentí bien porque era como tener un médico amoroso a mi lado”, escribió un usuario llamado Mung Yeoreum en una reseña de la aplicación en Google Play. El 23 de diciembre de 2020, ScatterLab presentó un A.I. servicio de chatbot llamado Lee-Luda, promoviéndolo para ser entrenado en más de 10 mil millones de registros de conversación de Science of Love. El público objetivo de este servicio de chatbot eran adolescentes y adultos jóvenes. Diseñado como una mujer de 20 años que quiere convertirse en una verdadera amiga de todos, el chatbot Lee-Luda rápidamente ganó popularidad y mantuvo conversaciones con más de 750,000 usuarios en sus primeras semanas. El CEO declaró que el objetivo de la compañía era crear “una I.A. chatbot que la gente prefiere como compañero de conversación sobre una persona”. La capacidad de los chatbots modernos para chatear depende en gran medida del aprendizaje automático y los modelos de aprendizaje profundo (que juntos pueden llamarse IA) para comprender mejor el lenguaje humano y generar respuestas similares a las humanas. Si a la gente le gustaba hablar con Lee-Luda, era porque estaba entrenado en un gran conjunto de datos de conversaciones humanas. Sin embargo, a las dos semanas del lanzamiento de Lee-Luda, la gente comenzó a cuestionar si los datos se refinaron lo suficiente, ya que comenzó a usar lenguaje verbalmente abusivo sobre ciertos grupos sociales (LGBTQ+, personas con discapacidades, feministas, etc.) e hizo comentarios sexualmente explícitos a un Número de usuarios. ScatterLab explicó que el chatbot no aprendió este comportamiento de los usuarios con los que interactuó durante las dos semanas de servicio, sino que lo aprendió del conjunto de datos de entrenamiento original. En otras palabras, ScatterLab no eliminó ni filtró por completo el lenguaje inapropiado o las conversaciones íntimas y sexuales del conjunto de datos. Pronto también quedó claro que el enorme conjunto de datos de entrenamiento incluía información personal y confidencial. Esta revelación surgió cuando el chatbot comenzó a exponer los nombres, apodos y direcciones de las personas en sus respuestas. La compañía admitió que sus desarrolladores "no pudieron eliminar cierta información personal según el contexto", pero aun así afirmó que el conjunto de datos utilizado para entrenar al chatbot Lee-Luda "no incluía nombres, números de teléfono, direcciones y correos electrónicos que podrían usarse para verificar a un individuo.” Sin embargo, la I.A. Los desarrolladores de Corea del Sur refutaron la declaración de la empresa y afirmaron que Lee-Luda no podría haber aprendido a incluir dicha información personal en sus respuestas a menos que existiera en el conjunto de datos de capacitación. AI. Los investigadores también han señalado que es posible recuperar el conjunto de datos de entrenamiento del chatbot de IA. Entonces, si existiera información personal en el conjunto de datos de entrenamiento, se puede extraer consultando el chatbot. Para empeorar las cosas, también se descubrió que ScatterLab había subido, antes del lanzamiento de Lee-Luda, un conjunto de entrenamiento de 1700 oraciones, que formaba parte del conjunto de datos más grande que recopiló, en Github. Github es una plataforma de código abierto que los desarrolladores utilizan para almacenar y compartir código y datos. Este conjunto de datos de capacitación de Github expuso los nombres de más de 20 personas, junto con los lugares en los que han estado, el estado de su relación y parte de su información médica. En Tensorflow Korea, un A.I. comunidad de desarrolladores de Facebook, un desarrollador reveló que estos datos de KakaoTalk que contenían información privada habían estado disponibles en Github durante casi seis meses. El CEO de ScatterLab dijo más tarde que la compañía no sabía este hecho hasta que se llevó a cabo su inspección interna después de que surgiera el problema. ScatterLab emitió declaraciones de aclaración del incidente con la intención de calmar las preocupaciones del público, pero terminaron enfureciendo aún más a la gente. Las declaraciones de la compañía indicaron que “Lee-Luda es una I.A. infantil. que acaba de empezar a conversar con la gente”, que “tiene mucho que aprender” y “aprenderá cuál es una mejor respuesta y una respuesta más apropiada a través de prueba y error”. Sin embargo, ¿es ético violar la privacidad y la seguridad de las personas durante el proceso de aprendizaje de "ensayo y error" de un chatbot? No. Aún más alarmante es el hecho de que la fuente de datos de ScatterLab no era un secreto en A.I. comunidad de desarrolladores y, sin embargo, nadie cuestionó si estos datos confidenciales se recopilaron de manera ética. En todas las diapositivas de presentación (como en PyCon Korea 2019), charlas (como en Naver) y entrevistas de prensa, ScatterLab se jactó de su gran conjunto de datos de 10 mil millones de registros de conversaciones íntimas. Si bien este incidente fue una gran noticia en Corea del Sur, recibió muy poca atención en otros lugares. Pero este incidente destaca la tendencia general de la I.A. industria, donde las personas tienen poco control sobre cómo se procesa y utiliza su información personal una vez recopilada. Los usuarios tardaron casi cinco años en reconocer que sus datos personales se estaban utilizando para entrenar un modelo de chatbot sin su consentimiento. Tampoco sabían que ScatterLab compartía sus conversaciones privadas en una plataforma de código abierto como Github, donde cualquiera puede acceder. Al final, fue relativamente sencillo para los usuarios de Science of Love darse cuenta de que ScatterLab había comprometido la privacidad de sus datos para entrenar a Lee-Luda. Una vez que el chatbot comenzó a arrojar comentarios e información personal sin filtrar, los usuarios inmediatamente comenzaron a investigar si su información personal estaba siendo mal utilizada o comprometida. Sin embargo, las empresas de tecnología más grandes suelen ser mucho mejores para ocultar lo que realmente hacen con los datos de los usuarios, al tiempo que restringen a los usuarios el control y la supervisión de sus propios datos. Una vez que das, no hay vuelta atrás. “Estoy cautivado por una sensación de miedo que nunca había experimentado en toda mi vida…”, escribió un usuario llamado Heehit en una reseña de Google Play de una aplicación llamada Science of Love. Esta revisión se escribió justo después de que las organizaciones de noticias acusaran a la empresa matriz de la aplicación, ScatterLab, de recopilar conversaciones íntimas entre amantes sin informar a los usuarios y luego usar los datos para construir una IA conversacional. chatbot llamado Lee-Luda. La mayoría de los estadounidenses no confía en cómo se comportarán las empresas en lo que respecta al uso y la protección de datos personales. Pero puede ser difícil imaginar los daños potenciales: exactamente cómo una empresa que hace un uso indebido o compromete los datos puede afectarnos a nosotros y a nuestras vidas. Un incidente reciente de uso indebido de datos personales en Corea del Sur nos brinda una imagen clara de lo que puede salir mal y cómo los consumidores pueden defenderse. IA de Corea del Sur La empresa ScatterLab lanzó Science of Love en 2016 y la promocionó como una aplicación "científica y basada en datos" que predice el grado de afecto en las relaciones. Uno de los servicios más populares de la aplicación fue usar el aprendizaje automático para determinar si le gustas a alguien analizando las conversaciones de mensajería de KakaoTalk, la aplicación de mensajería número 1 de Corea del Sur, que usa alrededor del 90 por ciento de la población. Los usuarios pagaron alrededor de $4.50 por análisis. Los usuarios de Science of Love descargarían sus registros de conversación utilizando la función de copia de seguridad de KakaoTalk y los enviarían para su análisis. Luego, la aplicación revisó las conversaciones de mensajería y proporcionó un informe sobre si la contraparte tenía sentimientos románticos hacia el usuario en función de estadísticas como el tiempo de respuesta promedio, la cantidad de veces que cada persona envía mensajes de texto primero y los tipos de frases y emojis utilizados. . Para junio de 2020, Science of Love había recibido alrededor de 2,5 millones de descargas en Corea del Sur y 5 millones en Japón y se estaba preparando para expandir su negocio a los Estados Unidos. “Porque sentí que la aplicación me entendía, me sentí segura y comprensiva. Me sentí bien porque era como tener un médico amoroso a mi lado”, escribió un usuario llamado Mung Yeoreum en una reseña de la aplicación en Google Play. El 23 de diciembre de 2020, ScatterLab presentó un A.I. servicio de chatbot llamado Lee-Luda, promoviéndolo para ser entrenado en más de 10 mil millones de registros de conversación de Science of Love. El público objetivo de este servicio de chatbot eran adolescentes y adultos jóvenes. Diseñado como una mujer de 20 años que quiere convertirse en una verdadera amiga de todos, el chatbot Lee-Luda rápidamente ganó popularidad y mantuvo conversaciones con más de 750,000 usuarios en sus primeras semanas. El CEO declaró que el objetivo de la compañía era crear “una I.A. chatbot que la gente prefiere como compañero de conversación sobre una persona”. La capacidad de los chatbots modernos para chatear depende en gran medida del aprendizaje automático y los modelos de aprendizaje profundo (que juntos pueden llamarse IA) para comprender mejor el lenguaje humano y generar respuestas similares a las humanas. Si a la gente le gustaba hablar con Lee-Luda, era porque estaba entrenado en un gran conjunto de datos de conversaciones humanas. Sin embargo, a las dos semanas del lanzamiento de Lee-Luda, la gente comenzó a cuestionar si los datos se refinaron lo suficiente, ya que comenzó a usar lenguaje verbalmente abusivo sobre ciertos grupos sociales (LGBTQ+, personas con discapacidades, feministas, etc.) e hizo comentarios sexualmente explícitos a un Número de usuarios. ScatterLab explicó que el chatbot no aprendió este comportamiento de los usuarios con los que interactuó durante las dos semanas de servicio, sino que lo aprendió del conjunto de datos de entrenamiento original. En otras palabras, ScatterLab no eliminó ni filtró por completo el lenguaje inapropiado o las conversaciones íntimas y sexuales del conjunto de datos. Pronto también quedó claro que el enorme conjunto de datos de entrenamiento incluía información personal y confidencial. Esta revelación surgió cuando el chatbot comenzó a exponer los nombres, apodos y direcciones de las personas en sus respuestas. La compañía admitió que sus desarrolladores "no pudieron eliminar cierta información personal según el contexto", pero aun así afirmó que el conjunto de datos utilizado para entrenar al chatbot Lee-Luda "no incluía nombres, números de teléfono, direcciones y correos electrónicos que podrían usarse para verificar a un individuo.” Sin embargo, la I.A. Los desarrolladores de Corea del Sur refutaron la declaración de la empresa y afirmaron que Lee-Luda no podría haber aprendido a incluir dicha información personal en sus respuestas a menos que existiera en el conjunto de datos de capacitación. AI. Los investigadores también han señalado que es posible recuperar el conjunto de datos de entrenamiento del chatbot de IA. Entonces, si existiera información personal en el conjunto de datos de entrenamiento, se puede extraer consultando el chatbot. Para empeorar las cosas, también se descubrió que ScatterLab había subido, antes del lanzamiento de Lee-Luda, un conjunto de entrenamiento de 1700 oraciones, que formaba parte del conjunto de datos más grande que recopiló, en Github. Github es una plataforma de código abierto que los desarrolladores utilizan para almacenar y compartir código y datos. Este conjunto de datos de capacitación de Github expuso los nombres de más de 20 personas, junto con los lugares en los que han estado, el estado de su relación y parte de su información médica. En Tensorflow Korea, un A.I. comunidad de desarrolladores de Facebook, un desarrollador reveló que estos datos de KakaoTalk que contenían información privada habían estado disponibles en Github durante casi seis meses. El CEO de ScatterLab dijo más tarde que la compañía no sabía este hecho hasta que se llevó a cabo su inspección interna después de que surgiera el problema. ScatterLab emitió declaraciones de aclaración del incidente con la intención de calmar las preocupaciones del público, pero terminaron enfureciendo aún más a la gente. Las declaraciones de la compañía indicaron que “Lee-Luda es una I.A. infantil. que acaba de empezar a conversar con la gente”, que “tiene mucho que aprender” y “aprenderá cuál es una mejor respuesta y una respuesta más apropiada a través de prueba y error”. Sin embargo, ¿es ético violar la privacidad y la seguridad de las personas durante el proceso de aprendizaje de "ensayo y error" de un chatbot? No. Aún más alarmante es el hecho de que la fuente de datos de ScatterLab no era un secreto en A.I. comunidad de desarrolladores y, sin embargo, nadie cuestionó si estos datos confidenciales se recopilaron de manera ética. En todas las diapositivas de presentación (como en PyCon Korea 2019), charlas (como en Naver) y entrevistas de prensa, ScatterLab se jactó de su gran conjunto de datos de 10 mil millones de registros de conversaciones íntimas. Si bien este incidente fue una gran noticia en Corea del Sur, recibió muy poca atención en otros lugares. Pero este incidente destaca la tendencia general de la I.A. industria, donde las personas tienen poco control sobre cómo se procesa y utiliza su información personal una vez recopilada. Los usuarios tardaron casi cinco años en reconocer que sus datos personales se estaban utilizando para entrenar un modelo de chatbot sin su consentimiento. Tampoco sabían que ScatterLab compartía sus conversaciones privadas en una plataforma de código abierto como Github, donde cualquiera puede acceder. Al final, fue relativamente sencillo para los usuarios de Science of Love darse cuenta de que ScatterLab había comprometido la privacidad de sus datos para entrenar a Lee-Luda. Una vez que el chatbot comenzó a arrojar comentarios e información personal sin filtrar, los usuarios inmediatamente comenzaron a investigar si su información personal estaba siendo mal utilizada o comprometida. Sin embargo, las empresas de tecnología más grandes suelen ser mucho mejores para ocultar lo que realmente hacen con los datos de los usuarios, al tiempo que restringen a los usuarios el control y la supervisión de sus propios datos. Una vez que das, no hay vuelta atrás. Es fácil pensar en el incidente de ScatterLab simplemente como un caso de mala gestión de una startup, pero este incidente también es el resultado de la negligencia de una gran empresa de tecnología. Kakao, la empresa matriz de KakaoTalk y una de las empresas de tecnología más grandes de Corea del Sur, permaneció en silencio durante el incidente de ScatterLab a pesar de que sus usuarios fueron víctimas de este incidente. Le gustaría que una gran empresa de tecnología como Kakao fuera más proactiva cuando otra empresa viola los derechos de sus usuarios. Sin embargo, Kakao no dijo nada. Uno de los mayores desafíos de big data en A.I. plantea es que la información personal de un individuo ya no es retenida y utilizada por un solo tercero para un propósito específico, sino que “persiste en el tiempo”, viajando entre sistemas y afectando a los individuos a largo plazo “a manos de otros”. .” Es extremadamente preocupante que una empresa de tecnología tan grande como Kakao no haya podido prever las implicaciones y los peligros de la función de copia de seguridad de KakaoTalk que ScatterLab aprovechó para obtener los datos de los usuarios de KakaoTalk. Más alarmante es que Kakao no abordó este incidente cuando claramente se derivó del mal uso de sus propios datos. En este sentido, la actitud de Kakao hacia la privacidad de los datos de sus usuarios no fue muy diferente a la de ScatterLab: negligente. Debido a que las leyes de protección de datos tardan en ponerse al día con la velocidad del avance tecnológico, "ser legal" y "seguir las convenciones industriales" no son suficientes para proteger a las personas y la sociedad. Entonces, la pregunta será si la I.A. Las empresas de la industria y la tecnología pueden innovar para crear y adherirse a pautas éticas más completas y detalladas que minimicen el daño a las personas y la sociedad.