Report 2411

Il y a environ cinq ou six ans, un élève de Karl Ricanek lui a montré une vidéo sur YouTube. Il s'agissait d'un laps de temps d'une personne subissant un traitement hormonal substitutif, ou THS, afin de changer de sexe. « À l'époque, nous travaillions sur la reconnaissance faciale », raconte Ricanek, professeur d'informatique à l'Université de Caroline du Nord à Wilmington, à The Verge. Il dit que lui et ses étudiants essayaient toujours de trouver des moyens de casser les systèmes sur lesquels ils travaillaient, et que cette vidéo semblait être un défi particulièrement délicat. "Nous étions comme, 'Wow, il n'y a aucun moyen que la technologie actuelle puisse reconnaître cette personne [après leur transition].'"

Pour s'attaquer au problème, Ricanek a fait ce que font tous les bons scientifiques : il a commencé à collecter des données. Comme tous les systèmes d'intelligence artificielle, les logiciels de reconnaissance faciale nécessitent des piles d'informations sur lesquelles s'entraîner, et bien qu'il existe un certain nombre de bases de données de visages importantes et librement disponibles (allant de milliers à des millions d'images), il n'y avait rien documentant les visages avant et après THS. Alors, Ricanek s'est tourné vers Internet - une décision qui s'est avérée plus tard controversée.

Sur YouTube, il a trouvé un trésor. Les personnes subissant un THS documentent souvent leurs progrès et publient les résultats en ligne, en tenant parfois des journaux réguliers et en réalisant parfois des vidéos accélérées de l'ensemble du processus. "J'ai partagé mes vidéos parce que je voulais que d'autres personnes trans voient ma transition", explique Danielle, qui a publié sa vidéo de transition sur YouTube il y a des années. "Ces types de montages de transition m'ont été utiles, alors je voulais donner au suivant", a-t-elle déclaré à The Verge.

Les vidéos sont également de l'or pour les chercheurs en intelligence artificielle, car chacune contient des dizaines de photos variées et réalistes. Comme Ricanek l'a écrit sur une page Web pour l'ensemble de données qu'il compilerait à partir des vidéos : " \ [Il ] comprend une moyenne de 278 images par sujet qui sont prises dans des conditions réelles et, par conséquent, incluent des variations de pose, d'éclairage, d'expression , et l'occlusion.

Mais le problème est le suivant : les personnes présentes dans ces vidéos savent-elles ou se soucient-elles que le parcours personnel qu'elles ont partagé pour aider les autres soit utilisé pour améliorer le logiciel de reconnaissance faciale ?

Adam Harvey, un artiste et chercheur dont le travail examine la vie privée et la technologie, dit à The Verge par e-mail que ce type de grattage de données est « au-delà du commun ». C'est Harvey qui a trouvé l'ensemble de données HRT Transgender lors de recherches pour un projet à venir examinant exactement ce type de pratique de formation à l'IA. Il l'a partagé sur Twitter, où les réactions n'ont pas été bonnes. "Comment cela est-il même légal?" a demandé un utilisateur. "Pas d'accord", a déclaré un autre.

Ricanek n'était pas au courant que son travail faisait l'objet de discussions de cette manière lorsque nous l'avons contacté. Il a cependant voulu clarifier un certain nombre de choses au sujet de la recherche. Premièrement, que l'ensemble de données lui-même n'était qu'un ensemble de liens vers des vidéos YouTube, plutôt que les vidéos elles-mêmes ; deuxièmement, qu'il ne l'a jamais partagé avec qui que ce soit à des fins commerciales ("Notre travail consiste simplement à éclairer les problèmes qui existent."); et troisièmement, qu'il a complètement cessé d'y accéder il y a trois ans.

"La raison en est qu'il était un peu inconfortable dans le climat actuel de fournir ces choses là-bas", a-t-il déclaré à The Verge. "Je n'ai aucune envie de distribuer même les liens plus longtemps, pour des raisons politiques. Les gens peuvent utiliser cela pour faire du mal, et ce n'était pas mon intention. Il dit que son équipe a essayé de contacter les personnes dont il a répertorié les vidéos et leur a demandé la permission "par courtoisie", mais a admis que si quelqu'un ne répondait pas, il aurait peut-être été inclus de toute façon.

Danielle, qui figure dans l'ensemble de données et dont les images de transition apparaissent dans des articles scientifiques à cause de cela, dit qu'elle n'a jamais été contactée au sujet de son inclusion. "Je ne "cache" en aucun cas mon identité", a-t-elle déclaré à The Verge en utilisant un service de messagerie en ligne. "Mais cela ressemble à une violation de la vie privée." Elle s'est dite satisfaite de savoir qu'il y a des limites à l'utilisation de l'ensemble de données (surtout qu'il n'a pas été vendu à des entreprises), mais a déclaré que ce type de collecte biométrique avait "toutes sortes d'implications pour la communauté trans".

"Quelqu'un qui travaille dans les" sciences de l'identité "devrait comprendre les implications de l'identification des personnes, en particulier celles dont l'identité peut en faire une cible (c'est-à-dire les personnes trans dans l'armée qui peuvent ne pas être sorties)", a-t-elle déclaré. "Au sein de la communauté trans, il existe un segment non négligeable de personnes terrifiées par les vidéos YouTube ou d'autres contenus qui aident les gens à comprendre comment" repérer la personne trans "."

Pour Harvey, cette histoire n'est pas surprenante. "Le manque de discours public sur l'éthique de la collecte de données a permis aux chercheurs de continuer à amasser de vastes trésors de données biométriques à partir de sources de médias sociaux, à savoir Flickr et YouTube", dit-il. Ces images peuvent recevoir une licence Creative Commons (CC) par défaut, ce qui leur permet d'être téléchargées librement et utilisées pour former des systèmes de reconnaissance faciale même lorsque la recherche est financée par des entreprises à but lucratif.

Et comparé à d'autres ensembles de données, celui de Ricanek est un vairon. L'ensemble de données MegaFace compilé par l'Université de Washington, par exemple, contient 4,7 millions d'images d'environ 627 000 personnes, toutes prises par des utilisateurs de Flickr. Les sponsors du projet incluent Samsung, Intel et Google, et les données elles-mêmes sont utilisées par des chercheurs du monde entier, dont le travail alimente presque certainement des produits payants.

Harvey dit qu'en mettant de côté les questions de légalité et de consentement, il y a "des questions éthiques plus profondes sur le contenu réel de ces ensembles de données". Il souligne que les deux catégories d'images les plus courantes dans MegaFace sont "famille" et "mariage". Ce qui est logique, car qui aimons-nous prendre en photo plus que nos proches ? Un regard dans la base de données, dit Harvey, « révèle d'innombrables photos personnelles de maisons, de mariages, de pique-niques, de sorties à la plage, de selfies et même de photos d'enfants. La plupart, sinon la totalité, des personnes sur ces photos ignorent que les entreprises biométriques du monde entier perfectionnent les algorithmes de reconnaissance faciale sur leurs amis, leur famille et leurs enfants.

Les forces de l'ordre et les agences de sécurité nationale sont également intéressées par ces données. La recherche de Ricanek est en partie financée par le FBI et l'armée (bien qu'il affirme que l'ensemble de données transgenres n'a jamais été partagé avec aucune agence gouvernementale ni financé par eux). Ricanek a justifié la recherche comme une solution à une menace frontalière fantastique. Mais un système utilisant ce type de recherche pourrait exacerber [le harcèlement et l'humiliation](https://www.advocate.com/transgender/2016/3/04/new-tsa-rule-bad-news-trans-people-says -task-force) auxquelles les personnes transgenres sont déjà confrontées aux points de contrôle des déplacements.

« Quel genre de mal un terroriste peut-il faire s'il comprend que la prise de cette hormone peut augmenter ses chances de franchir une frontière protégée par la reconnaissance faciale ? C'était le problème sur lequel j'étudiais vraiment », dit-il. «Je suis profondément désolé pour tout type de douleur que cela a pu causer à des personnes dans ces vidéos. Ce n'est certainement pas de là que je viens. En tant qu'universitaires, nous voyons de grands défis et nous voulons y travailler, mais derrière ces défis se trouvent de vraies personnes, qui peuvent être touchées d'une manière que nous n'avons pas comprise.

Harvey dit qu'il y a actuellement "peu de débat" sur l'éthique de ce type de collecte de données. C'est un sujet complexe, et bien que les individus puissent être scandalisés que leur image soit utilisée sans autorisation, ils ne peuvent pas y faire grand-chose.

Il y a un recul dans certains cas (comme lorsqu'un chercheur [a récupéré 40 000 selfies de Tinder](https://techcrunch.com/2017/04/28/someone-scraped-40000-tinder-selfies-to-make-a-facial -dataset-for-ai-experiments/) sans autorisation et a publié l'ensemble de données en ligne), mais dans le débat sur la bonne et la mauvaise façon d'acquérir des données, les voix les plus fortes sont celles des grandes entreprises. Cela conduit à des situations comme au Royaume-Uni, où la filiale d'intelligence artificielle de Google DeepMind [a conclu un accord illégal](https://www.theverge.com/2017/7/3/15900670/google-deepmind-royal-free-2015-data -deal-ico-ruling-illegal) pour accéder aux dossiers médicaux de 1,6 million de personnes.

D'une certaine manière, nous sommes habitués à cet accord. C'est le marché qui sous-tend une grande partie de l'Internet moderne : vous donnez des informations sur votre vie et, en retour, vous obtenez des services gratuits. Mais à l'ère de l'IA, alors que les données recueillies deviennent de plus en plus personnelles - pas seulement vos habitudes de navigation anonymisées, mais des photos de vous, de votre famille, de vos moments personnels - et que les systèmes qu'elle crée sont de plus en plus contrôlants, il est peut-être temps se demander, encore une fois, donnons-nous trop ?

Problème 2411

Incidents associés

Incident 4093 Rapports
Facial Recognition Researchers Used YouTube Videos of Transgender People without Consent

Les YouTubers transgenres se sont fait saisir leurs vidéos pour former un logiciel de reconnaissance faciale

Problème 2411

Incidents associés

Incident 4093 RapportsFacial Recognition Researchers Used YouTube Videos of Transgender People without Consent

Les YouTubers transgenres se sont fait saisir leurs vidéos pour former un logiciel de reconnaissance faciale

Incident 4093 Rapports
Facial Recognition Researchers Used YouTube Videos of Transgender People without Consent