Incidents associés

"Je suis captivé par un sentiment de peur que je n'ai jamais ressenti de toute ma vie...", a écrit un utilisateur nommé Heehit dans une critique Google Play d'une application appelée Science of Love. Cette critique a été rédigée juste après que les organes de presse ont accusé la société mère de l'application, ScatterLab, de collecter des conversations intimes entre amoureux sans en informer les utilisateurs, puis d'utiliser les données pour créer une IA conversationnelle. chatbot appelé Lee-Luda. Une majorité d'Américains ne sont pas convaincus de la manière dont les entreprises se comporteront lorsqu'il s'agira d'utiliser et de protéger les données personnelles. Mais il peut être difficile d'imaginer les dommages potentiels - exactement comment une entreprise qui utilise à mauvais escient ou compromet des données peut éventuellement nous affecter, nous et nos vies. Un incident récent d'utilisation abusive de données personnelles en Corée du Sud nous donne une image claire de ce qui peut mal tourner et de la manière dont les consommateurs peuvent riposter. A.I. sud-coréenne La société ScatterLab a lancé Science of Love en 2016 et l'a présentée comme une application "scientifique et basée sur les données" qui prédit le degré d'affection dans les relations. L'un des services les plus populaires de l'application utilisait l'apprentissage automatique pour déterminer si quelqu'un vous aimait en analysant les conversations de messagerie de KakaoTalk, l'application de messagerie n ° 1 en Corée du Sud, qu'environ 90% de la population utilise. Les utilisateurs ont payé environ 4,50 $ par analyse. Les utilisateurs de Science of Love téléchargeraient leurs journaux de conversation à l'aide de la fonction de sauvegarde de KakaoTalk et les soumettraient pour analyse. Ensuite, l'application a parcouru les conversations de messagerie et a fourni un rapport indiquant si l'homologue avait des sentiments romantiques envers l'utilisateur sur la base de statistiques telles que le temps de réponse moyen, le nombre de fois que chaque personne envoie des SMS en premier et les types de phrases et d'emojis utilisés. . En juin 2020, Science of Love avait reçu environ 2,5 millions de téléchargements en Corée du Sud et 5 millions au Japon et se préparait à étendre ses activités aux États-Unis. "Parce que j'avais l'impression que l'application me comprenait, je me sentais en sécurité et j'ai sympathisé. C'était bien parce que j'avais l'impression d'avoir un médecin de l'amour à mes côtés », a écrit un utilisateur nommé Mung Yeoreum dans une critique Google Play de l'application. Le 23 décembre 2020, ScatterLab a présenté un A.I. service de chatbot nommé Lee-Luda, le promouvant pour être formé sur plus de 10 milliards de journaux de conversation de Science of Love. Le public cible de ce service de chatbot était les adolescents et les jeunes adultes. Conçu comme une femme de 20 ans qui veut devenir une véritable amie pour tout le monde, le chatbot Lee-Luda a rapidement gagné en popularité et a tenu des conversations avec plus de 750 000 utilisateurs au cours de ses premières semaines. Le PDG a déclaré que l'objectif de l'entreprise était de créer "un A.I. chatbot que les gens préfèrent comme partenaire de conversation plutôt qu'une personne. La capacité des chatbots modernes à, eh bien, discuter repose fortement sur l'apprentissage automatique et les modèles d'apprentissage en profondeur (qui, ensemble, peuvent être appelés A.I.) pour mieux comprendre le langage humain et générer des réponses de type humain. Si les gens ont aimé parler avec Lee-Luda, c'est parce qu'il a été formé sur un grand ensemble de données de conversations humaines. Cependant, dans les deux semaines suivant le lancement de Lee-Luda, les gens ont commencé à se demander si les données étaient suffisamment raffinées car elles ont commencé à utiliser un langage verbalement abusif à propos de certains groupes sociaux (LGBTQ+, personnes handicapées, féministes, etc.) et ont fait des commentaires sexuellement explicites à un nombre d'utilisateurs. ScatterLab a expliqué que le chatbot n'a pas appris ce comportement des utilisateurs avec lesquels il a interagi pendant les deux semaines de service, mais l'a plutôt appris à partir de l'ensemble de données de formation d'origine. En d'autres termes, ScatterLab n'avait pas complètement supprimé ou filtré le langage inapproprié ou les conversations intimes et sexuelles de l'ensemble de données. Il est également rapidement devenu évident que l'énorme ensemble de données de formation comprenait des informations personnelles et sensibles. Cette révélation est apparue lorsque le chatbot a commencé à exposer les noms, les surnoms et les adresses personnelles des personnes dans ses réponses. La société a admis que ses développeurs "n'ont pas réussi à supprimer certaines informations personnelles en fonction du contexte", mais a toujours affirmé que l'ensemble de données utilisé pour former le chatbot Lee-Luda "n'incluait pas les noms, numéros de téléphone, adresses et e-mails qui pourraient être utilisés pour vérifier un individu. Cependant, A.I. Les développeurs en Corée du Sud ont réfuté la déclaration de la société, affirmant que Lee-Luda n'aurait pas pu apprendre à inclure de telles informations personnelles dans ses réponses à moins qu'elles n'existent dans l'ensemble de données de formation. I.A. les chercheurs ont également souligné qu'il est possible de récupérer l'ensemble de données d'entraînement du chatbot AI. Ainsi, si des informations personnelles existaient dans l'ensemble de données d'entraînement, elles peuvent être extraites en interrogeant le chatbot. Pour aggraver les choses, il a également été découvert que ScatterLab avait, avant la sortie de Lee-Luda, téléchargé un ensemble d'entraînement de 1 700 phrases, qui faisait partie du plus grand ensemble de données qu'il avait collecté, sur Github. Github est une plate-forme open source que les développeurs utilisent pour stocker et partager du code et des données. Cet ensemble de données de formation Github a exposé les noms de plus de 20 personnes, ainsi que les lieux où elles se sont rendues, leur statut relationnel et certaines de leurs informations médicales. Dans Tensorflow Korea, un A.I. Développeur de la communauté Facebook, un développeur a révélé que ces données KakaoTalk contenant des informations privées étaient disponibles sur Github depuis près de six mois. Le PDG de ScatterLab a déclaré plus tard que la société ne savait pas ce fait jusqu'à ce que son inspection interne ait eu lieu après que le problème se soit posé. ScatterLab a publié des déclarations de clarification de l'incident destinées à apaiser les inquiétudes du public, mais elles ont fini par exaspérer encore plus les gens. Les déclarations de l'entreprise indiquaient que "Lee-Luda est une IA enfantine. qui vient de commencer à converser avec les gens », qu'il « a beaucoup à apprendre » et « apprendra ce qui est une meilleure réponse et une réponse plus appropriée par essais et erreurs ». Cependant, est-il éthique de violer la vie privée et la sécurité des individus pour le processus d'apprentissage « essai et erreur » d'un chatbot ? Non. Encore plus alarmant est le fait que la source de données de ScatterLab n'était pas un secret dans l'I.A. communauté de développeurs, et pourtant personne ne s'est demandé si ces données sensibles étaient collectées de manière éthique. Dans toutes les diapositives de présentation (comme à PyCon Korea 2019), les discussions (comme à Naver) et les entretiens avec la presse, ScatterLab s'était vanté de son vaste ensemble de données de 10 milliards de journaux de conversations intimes. Alors que cet incident était une grande histoire en Corée du Sud, il a reçu très peu d'attention ailleurs. Mais cet incident met en évidence la tendance générale de l'A.I. l'industrie, où les individus ont peu de contrôle sur la façon dont leurs informations personnelles sont traitées et utilisées une fois collectées. Il a fallu près de cinq ans aux utilisateurs pour reconnaître que leurs données personnelles étaient utilisées pour former un modèle de chatbot sans leur consentement. Ils ne savaient pas non plus que ScatterLab partageait leurs conversations privées sur une plate-forme open source comme Github, à laquelle tout le monde peut accéder. Au final, il était relativement simple pour les utilisateurs de Science of Love de remarquer que ScatterLab avait compromis la confidentialité de leurs données pour former Lee-Luda. Une fois que le chatbot a commencé à cracher des commentaires non filtrés et des informations personnelles, les utilisateurs ont immédiatement commencé à rechercher si leurs informations personnelles étaient mal utilisées et compromises. Cependant, les grandes entreprises technologiques sont généralement bien meilleures pour cacher ce qu'elles font réellement avec les données des utilisateurs, tout en empêchant les utilisateurs d'avoir le contrôle et la surveillance de leurs propres données. Une fois que vous avez donné, il n'y a pas de reprise. "Je suis captivé par un sentiment de peur que je n'ai jamais ressenti de toute ma vie...", a écrit un utilisateur nommé Heehit dans une critique Google Play d'une application appelée Science of Love. Cette critique a été rédigée juste après que les organes de presse ont accusé la société mère de l'application, ScatterLab, de collecter des conversations intimes entre amoureux sans en informer les utilisateurs, puis d'utiliser les données pour créer une IA conversationnelle. chatbot appelé Lee-Luda. Une majorité d'Américains ne sont pas convaincus de la manière dont les entreprises se comporteront lorsqu'il s'agira d'utiliser et de protéger les données personnelles. Mais il peut être difficile d'imaginer les dommages potentiels - exactement comment une entreprise qui utilise à mauvais escient ou compromet des données peut éventuellement nous affecter, nous et nos vies. Un incident récent d'utilisation abusive de données personnelles en Corée du Sud nous donne une image claire de ce qui peut mal tourner et de la manière dont les consommateurs peuvent riposter. A.I. sud-coréenne La société ScatterLab a lancé Science of Love en 2016 et l'a présentée comme une application "scientifique et basée sur les données" qui prédit le degré d'affection dans les relations. L'un des services les plus populaires de l'application utilisait l'apprentissage automatique pour déterminer si quelqu'un vous aimait en analysant les conversations de messagerie de KakaoTalk, l'application de messagerie n ° 1 en Corée du Sud, qu'environ 90% de la population utilise. Les utilisateurs ont payé environ 4,50 $ par analyse. Les utilisateurs de Science of Love téléchargeraient leurs journaux de conversation à l'aide de la fonction de sauvegarde de KakaoTalk et les soumettraient pour analyse. Ensuite, l'application a parcouru les conversations de messagerie et a fourni un rapport indiquant si l'homologue avait des sentiments romantiques envers l'utilisateur sur la base de statistiques telles que le temps de réponse moyen, le nombre de fois que chaque personne envoie des SMS en premier et les types de phrases et d'emojis utilisés. . En juin 2020, Science of Love avait reçu environ 2,5 millions de téléchargements en Corée du Sud et 5 millions au Japon et se préparait à étendre ses activités aux États-Unis. "Parce que j'avais l'impression que l'application me comprenait, je me sentais en sécurité et j'ai sympathisé. C'était bien parce que j'avais l'impression d'avoir un médecin de l'amour à mes côtés », a écrit un utilisateur nommé Mung Yeoreum dans une critique Google Play de l'application. Le 23 décembre 2020, ScatterLab a présenté un A.I. service de chatbot nommé Lee-Luda, le promouvant pour être formé sur plus de 10 milliards de journaux de conversation de Science of Love. Le public cible de ce service de chatbot était les adolescents et les jeunes adultes. Conçu comme une femme de 20 ans qui veut devenir une véritable amie pour tout le monde, le chatbot Lee-Luda a rapidement gagné en popularité et a tenu des conversations avec plus de 750 000 utilisateurs au cours de ses premières semaines. Le PDG a déclaré que l'objectif de l'entreprise était de créer "un A.I. chatbot que les gens préfèrent comme partenaire de conversation plutôt qu'une personne. La capacité des chatbots modernes à, eh bien, discuter repose fortement sur l'apprentissage automatique et les modèles d'apprentissage en profondeur (qui, ensemble, peuvent être appelés A.I.) pour mieux comprendre le langage humain et générer des réponses de type humain. Si les gens ont aimé parler avec Lee-Luda, c'est parce qu'il a été formé sur un grand ensemble de données de conversations humaines. Cependant, dans les deux semaines suivant le lancement de Lee-Luda, les gens ont commencé à se demander si les données étaient suffisamment raffinées car elles ont commencé à utiliser un langage verbalement abusif à propos de certains groupes sociaux (LGBTQ+, personnes handicapées, féministes, etc.) et ont fait des commentaires sexuellement explicites à un nombre d'utilisateurs. ScatterLab a expliqué que le chatbot n'a pas appris ce comportement des utilisateurs avec lesquels il a interagi pendant les deux semaines de service, mais l'a plutôt appris à partir de l'ensemble de données de formation d'origine. En d'autres termes, ScatterLab n'avait pas complètement supprimé ou filtré le langage inapproprié ou les conversations intimes et sexuelles de l'ensemble de données. Il est également rapidement devenu évident que l'énorme ensemble de données de formation comprenait des informations personnelles et sensibles. Cette révélation est apparue lorsque le chatbot a commencé à exposer les noms, les surnoms et les adresses personnelles des personnes dans ses réponses. La société a admis que ses développeurs "n'ont pas réussi à supprimer certaines informations personnelles en fonction du contexte", mais a toujours affirmé que l'ensemble de données utilisé pour former le chatbot Lee-Luda "n'incluait pas les noms, numéros de téléphone, adresses et e-mails qui pourraient être utilisés pour vérifier un individu. Cependant, A.I. Les développeurs en Corée du Sud ont réfuté la déclaration de la société, affirmant que Lee-Luda n'aurait pas pu apprendre à inclure de telles informations personnelles dans ses réponses à moins qu'elles n'existent dans l'ensemble de données de formation. I.A. les chercheurs ont également souligné qu'il est possible de récupérer l'ensemble de données d'entraînement du chatbot AI. Ainsi, si des informations personnelles existaient dans l'ensemble de données d'entraînement, elles peuvent être extraites en interrogeant le chatbot. Pour aggraver les choses, il a également été découvert que ScatterLab avait, avant la sortie de Lee-Luda, téléchargé un ensemble d'entraînement de 1 700 phrases, qui faisait partie du plus grand ensemble de données qu'il avait collecté, sur Github. Github est une plate-forme open source que les développeurs utilisent pour stocker et partager du code et des données. Cet ensemble de données de formation Github a exposé les noms de plus de 20 personnes, ainsi que les lieux où elles se sont rendues, leur statut relationnel et certaines de leurs informations médicales. Dans Tensorflow Korea, un A.I. Développeur de la communauté Facebook, un développeur a révélé que ces données KakaoTalk contenant des informations privées étaient disponibles sur Github depuis près de six mois. Le PDG de ScatterLab a déclaré plus tard que la société ne savait pas ce fait jusqu'à ce que son inspection interne ait eu lieu après que le problème se soit posé. ScatterLab a publié des déclarations de clarification de l'incident destinées à apaiser les inquiétudes du public, mais elles ont fini par exaspérer encore plus les gens. Les déclarations de l'entreprise indiquaient que "Lee-Luda est une IA enfantine. qui vient de commencer à converser avec les gens », qu'il « a beaucoup à apprendre » et « apprendra ce qui est une meilleure réponse et une réponse plus appropriée par essais et erreurs ». Cependant, est-il éthique de violer la vie privée et la sécurité des individus pour le processus d'apprentissage « essai et erreur » d'un chatbot ? Non. Encore plus alarmant est le fait que la source de données de ScatterLab n'était pas un secret dans l'I.A. communauté de développeurs, et pourtant personne ne s'est demandé si ces données sensibles étaient collectées de manière éthique. Dans toutes les diapositives de présentation (comme à PyCon Korea 2019), les discussions (comme à Naver) et les entretiens avec la presse, ScatterLab s'était vanté de son vaste ensemble de données de 10 milliards de journaux de conversations intimes. Alors que cet incident était une grande histoire en Corée du Sud, il a reçu très peu d'attention ailleurs. Mais cet incident met en évidence la tendance générale de l'A.I. l'industrie, où les individus ont peu de contrôle sur la façon dont leurs informations personnelles sont traitées et utilisées une fois collectées. Il a fallu près de cinq ans aux utilisateurs pour reconnaître que leurs données personnelles étaient utilisées pour former un modèle de chatbot sans leur consentement. Ils ne savaient pas non plus que ScatterLab partageait leurs conversations privées sur une plate-forme open source comme Github, à laquelle tout le monde peut accéder. Au final, il était relativement simple pour les utilisateurs de Science of Love de remarquer que ScatterLab avait compromis la confidentialité de leurs données pour entraîner Lee-Luda. Une fois que le chatbot a commencé à cracher des commentaires non filtrés et des informations personnelles, les utilisateurs ont immédiatement commencé à rechercher si leurs informations personnelles étaient mal utilisées et compromises. Cependant, les grandes entreprises technologiques sont généralement bien meilleures pour cacher ce qu'elles font réellement avec les données des utilisateurs, tout en empêchant les utilisateurs d'avoir le contrôle et la surveillance de leurs propres données. Une fois que vous avez donné, il n'y a pas de reprise. Il est facile de considérer l'incident de ScatterLab simplement comme un cas de mauvaise gestion d'une startup, mais cet incident est également le résultat de la négligence d'une grande entreprise de technologie. Kakao, la société mère de KakaoTalk et l'une des plus grandes entreprises technologiques de Corée du Sud, est restée silencieuse tout au long de l'incident de ScatterLab, bien que ses utilisateurs aient été victimes de cet incident. Vous souhaiteriez qu'une grande entreprise de technologie comme Kakao soit plus proactive lorsque les droits de ses utilisateurs sont violés par une autre entreprise. Cependant, Kakao ne dit rien. L'un des plus grands défis du big data dans l'I.A. pose est que les informations personnelles d'un individu ne sont plus seulement détenues et utilisées par un seul tiers dans un but précis, mais plutôt "persistent dans le temps", voyageant entre les systèmes et affectant les individus à long terme "à la main d'autrui". .” Il est extrêmement préoccupant qu'une grande entreprise de technologie comme Kakao n'ait pas prévu les implications et les dangers de la fonction de sauvegarde de KakaoTalk dont ScatterLab a profité pour obtenir les données des utilisateurs de KakaoTalk. Plus alarmant est que Kakao a laissé cet incident sans réponse alors qu'il découlait clairement de l'utilisation abusive de ses propres données. En ce sens, l'attitude de Kakao envers la confidentialité des données de ses utilisateurs n'était pas très différente de celle de ScatterLab : négligente. Parce que les lois sur la protection des données sont lentes à rattraper la vitesse des progrès technologiques, « être légal » et « suivre les conventions industrielles » ne suffisent pas à protéger les personnes et la société. Ensuite, la question sera de savoir si l'I.A. les entreprises de l'industrie et de la technologie peuvent innover elles-mêmes pour proposer et adhérer à des directives éthiques plus complètes et détaillées qui minimisent les dommages aux individus et à la société.