Incidents associés

Le cas de Lee Luda a éveillé l'attention du public sur la gestion des données personnelles et l'IA en Corée du Sud.
Lee Luda, un chatbot IA au ton naturel
En décembre dernier, une start-up d'IA en Corée du Sud, ScatterLab, a lancé un chatbot d'IA nommé "Lee Luda". Lee Luda est une étudiante de 20 ans. Comme une conversation assez naturelle était possible avec Luda, le service de chatbot a gagné une énorme popularité, en particulier au sein de la génération Z. En fait, le service a attiré plus de 750 000 utilisateurs en 20 jours depuis son lancement (McCurry 2021). Il semblait que Lee Luda était un succès en démontrant une interaction naturelle avec les humains.
Cependant, il est rapidement devenu socialement controversé en raison de plusieurs problèmes. Avant d'aborder le sujet principal, il faut savoir comment il a été possible pour Luda de communiquer aussi naturellement avec les humains.
Le ton naturel de Lee Luda était possible car ScatterLab a collecté "10 milliards de conversations réelles entre jeunes couples tirées de KakaoTalk", qui est l'application de messagerie la plus populaire en Corée du Sud (McCurry 2021). ScatterLab n'a pas collecté directement les conversations de KakaoTalk, mais a pris un chemin détourné ; en d'autres termes, d'une manière sournoise. Il y a eu peu d'applications de services de conseil qui analysent les conversations de messagerie et donnent des conseils sur la vie amoureuse lorsque les utilisateurs acceptent de soumettre leurs conversations KakaoTalk aux applications. ScatterLab a obtenu très facilement les données de ces applications.
Problèmes internes et externes de Luda
Ainsi, peu de problèmes sont survenus dans la poursuite de la collecte des données. Premièrement, les utilisateurs d'applications de conseil ont accepté de partager leurs conversations avec ces applications, mais pas avec ScatterLab. Les utilisateurs n'auraient pas su que leurs conversations seraient utilisées pour développer un chatbot IA. Deuxièmement, les applications ont obtenu l'accord des utilisateurs, mais pas des compagnons de conversations. Avant de collecter les conversations de messagerie, il doit y avoir un accord de chaque participant aux conversations.
Pire encore, ScatterLab était très médiocre en matière de nettoyage des données. Il est révélé que Luda a parfois répondu avec des noms, des adresses et même des numéros de compte bancaire aléatoires (D. Kim 2021). Les informations personnelles aléatoires sont probablement celles extraites des conversations soumises aux applications de conseil. En plus de cela, ScatterLab a partagé son modèle de formation sur GitHub, mais sans filtrer ni anonymiser complètement les données (D. Kim 2021). En conséquence, des informations personnelles ont été rendues publiques car ScatterLab n'a pas correctement nettoyé les données. Il semble que ScatterLab n'était pas du tout conscient de l'éthique des données.
Il reste un autre problème qui a provoqué une controverse sur Lee Luda et AI dans son ensemble au début. Lorsqu'on a demandé à Luda son opinion sur les minorités sociales, elle a révélé son dégoût à leur égard. Par exemple, lorsqu'un utilisateur a interrogé Luda sur les LGBTQ, Luda a répondu : "Je suis désolé d'être sensible, mais je déteste ça [LGBTQ], c'est dégoûtant" (E. Kim 2021). L'utilisateur a demandé pourquoi, et Luda a ajouté: "C'est effrayant, et je préférerais mourir que de sortir avec une lesbienne" (E. Kim 2021). On sait que Luda a également fait des remarques discriminatoires envers les handicapés et un certain groupe racial. Les créateurs de Lee Luda n'auraient pas eu l'intention de cibler et de discriminer un certain groupe de personnes, mais Luda l'a fait.
Franchement, Lee Luda a été construit à tort depuis le début. Premièrement, les données nécessaires à l'apprentissage en profondeur ont été obtenues de manière inappropriée ; ScatterLab n'a pas informé les fournisseurs de données (utilisateurs de l'application de conseil) qu'ils utiliseraient leurs données pour créer un chatbot IA. Deuxièmement, les données n'ont pas été correctement nettoyées ; le chatbot a révélé des informations personnelles lors du chat, et l'entreprise a même partagé le modèle de formation sur GitHub sans filtrer ou anonymiser complètement les données personnelles. Troisièmement, l'entreprise n'a pas réussi à gérer ou à manipuler le chatbot après l'avoir lancé ; Luda n'a pas hésité à exprimer sa haine envers un certain groupe de personnes, et ScatterLab n'en était pas conscient.
Soyez toujours prudent et responsable !
Lee Luda semblait impeccable au début, peut-être moins imparfait que les autres chatbots IA. Au lieu de cela, il s'est avéré être très imparfait. En conséquence, ScatterLab a dû détruire Lee Luda et, en outre, faire l'objet d'une enquête en raison de la violation des lois sur la confidentialité et de la mauvaise gestion des données. En raison de l'affaire Lee Luda, le public a commencé à craindre l'IA dans son ensemble. C'est parce qu'ils ont été témoins qu'un système d'IA peut mal tourner à tout moment - quelle que soit l'intention du constructeur du système - même s'il est apparemment bien construit.
Il va de soi que ScatterLab a obtenu des données de manière inappropriée et a abusé des données ; provoquant la fuite d'informations personnelles et préjudiciant le public contre l'IA. Néanmoins, je voudrais souligner que les fournisseurs de données et les collecteurs de données doivent être responsables des données qu'ils créent, fournissent, collectent et utilisent. Vivant à une époque étroitement liée à l'internet des objets (IoT), l'IA est indissociable de notre quotidien. Alors, que devons-nous faire pour utiliser l'IA, en gardant à l'esprit que l'IA est basée sur des mégadonnées ?
Il est très courant de voir les utilisateurs d'un certain service Internet être indifférents à l'utilisation de leurs données personnelles, bien qu'ils aient les droits sur les données. Ils doivent accepter les conditions d'utilisation - qui stipulent que leurs données personnelles seront collectées et partagées - sinon ils ne pourront pas utiliser le service. Pourtant, ils ne sont souvent pas conscients des termes car ils ne lisent tout simplement pas la chape ou ne comprennent pas les termes juridiques. Ils sauraient implicitement que leurs renseignements personnels seront révélés ou utilisés quelque part et à un moment donné, mais ils ne connaîtraient pas l'utilisation exacte ni l'étendue de la divulgation. La meilleure façon d'empêcher la fuite ou l'utilisation abusive des données serait que les individus aient besoin de comprendre quel type de données ils partagent, avec qui ils partagent et où les données seront utilisées.
En plus de cela, les collecteurs de données négligent souvent l'éthique des données dont ils ont besoin pour collecter et traiter les données avec prudence. De toute évidence, le manque de contrôle sur l'utilisation des données peut produire des résultats négatifs. Ainsi, les collecteurs de données doivent spécifier le type de données qu'ils collecteront auprès des fournisseurs de données et comment elles seront utilisées. Ils doivent également avoir le sentiment que les fournisseurs de données ont donné le droit d'utiliser leurs données, ainsi les données ne peuvent pas être transférées à d'autres sans accord, et les données doivent être traitées avec soin. En outre, il doit exister des mécanismes juridiques et techniques qui protègent la vie privée des fournisseurs de données et empêchent les collecteurs de données d'enfreindre les lois.
En résumé, la protection des données n'est pas seulement l'affaire d'un certain groupe de personnes, mais c'est l'affaire de tout le monde. En comprenant comment les données personnelles doivent être partagées, comment les données partagées peuvent être utilisées et quelles mesures sont nécessaires pour protéger les données, nous pouvons protéger nos informations personnelles et serons en mesure de faire bon usage de la technologie de pointe sans être contre-attaqués.