Incidentes Asociados
Hace unos cinco o seis años, uno de los alumnos de Karl Ricanek le mostró un video en YouTube. Fue un lapso de tiempo de una persona que se sometió a una terapia de reemplazo hormonal, o TRH, para hacer la transición de género. “En ese momento, estábamos trabajando en el reconocimiento facial”, dice Ricanek, profesor de informática en la Universidad de Carolina del Norte en Wilmington, a The Verge. Él dice que él y sus alumnos siempre estaban tratando de encontrar formas de romper los sistemas en los que trabajaban, y que este video parecía un desafío particularmente complicado. "Dijimos, 'Vaya, no hay forma de que la tecnología actual pueda reconocer a esta persona [después de la transición]'".
Para abordar el problema, Ricanek hizo lo que hacen todos los buenos científicos: comenzó a recopilar datos. Al igual que todos los sistemas de inteligencia artificial, el software de reconocimiento facial requiere montones de información para entrenar, y aunque hay una cantidad considerable de bases de datos de rostros disponibles gratuitamente (que varían en tamaño de miles a millones de imágenes), no había nada que documentara rostros antes y después TRH. Entonces, Ricanek recurrió a Internet, una decisión que luego resultaría controvertida.
En YouTube, encontró un tesoro oculto. Las personas que se someten a TRH a menudo documentan su progreso y publican los resultados en línea, a veces llevan diarios regulares y, a veces, hacen videos de lapso de tiempo de todo el proceso. “Compartí mis videos porque quería que otras personas trans vieran mi transición”, dice Danielle, quien publicó su video de transición en YouTube hace años. “Este tipo de montajes de transición fueron útiles para mí, así que quería devolver el favor”, le dice a The Verge.
Los videos también son oro para los investigadores de IA, ya que cada uno contiene docenas de fotos variadas y reales. Como escribió Ricanek en una página web para el conjunto de datos que compilaría a partir de los videos: "[It] incluye un promedio de 278 imágenes por sujeto que se toman en condiciones del mundo real y, por lo tanto, incluyen variaciones en pose, iluminación, expresión y oclusión.”
Pero el problema es: ¿las personas en estos videos saben o les importa que el viaje personal que compartieron para ayudar a otros se esté utilizando para mejorar el software de reconocimiento facial?
Adam Harvey, un artista e investigador cuyo trabajo examina [la privacidad y la tecnología] (https://ahprojects.com/), le dice a The Verge por correo electrónico que este tipo de extracción de datos es "más allá de lo común". Fue Harvey quien encontró el HRT Transgender Dataset durante la investigación de un próximo proyecto que examina exactamente este tipo de práctica de entrenamiento de IA. Lo compartió en Twitter, donde las reacciones no fueron buenas. "¿Cómo es esto incluso legal?" preguntó un usuario. “No está bien”, dijo otro.
Ricanek no sabía que su trabajo estaba siendo discutido de esta manera cuando nos comunicamos con él. Sin embargo, quería aclarar una serie de cosas sobre la investigación. Primero, que el conjunto de datos en sí era solo un conjunto de enlaces a videos de YouTube, en lugar de los videos en sí; segundo, que nunca lo compartió con nadie con fines comerciales ("Nuestro trabajo es solo iluminar qué áreas problemáticas existen"); y tercero, que dejó de dar acceso a él por completo hace tres años.
“La razón de esto es que se sintió un poco incómodo en el clima actual para proporcionar esas cosas”, dijo a The Verge. “Ya no tengo ninguna inclinación a distribuir ni siquiera los enlaces, por razones políticas. La gente puede usar esto para hacer daño, y esa no era mi intención”. Él dice que su equipo trató de contactar a las personas cuyos videos enumeró y les pidió permiso "como cortesía", pero admitió que si alguien no respondía, podría haber sido incluido de todos modos.
Danielle, que aparece en el conjunto de datos y cuyas imágenes de transición aparecen en artículos científicos debido a ello, dice que nunca la contactaron sobre su inclusión. "De ninguna manera 'oculto' mi identidad", le dijo a The Verge usando un servicio de mensajería en línea. “Pero esto se siente como una violación de la privacidad”. Dijo que estaba satisfecha de saber que hay límites en el uso del conjunto de datos (especialmente que no se vendió a las empresas), pero dijo que este tipo de recopilación biométrica tenía "todo tipo de implicaciones para la comunidad trans".
"Alguien que trabaje en 'ciencias de la identidad' debería comprender las implicaciones de identificar a las personas, en particular a aquellas cuya identidad puede convertirlas en un objetivo (es decir, personas trans en el ejército que pueden no estar fuera)", dijo. "Dentro de la comunidad trans, hay un segmento no trivial de personas aterrorizadas por los videos de YouTube u otro contenido que ayuda a las personas a descubrir cómo 'detectar a la persona trans'".
Para Harvey, esta historia no es sorprendente. “La falta de un discurso público sobre la ética de la recopilación de datos ha permitido a los investigadores continuar acumulando grandes cantidades de datos biométricos de las fuentes de las redes sociales, a saber, Flickr y YouTube”, dice. A estas imágenes se les puede otorgar una licencia Creative Commons (CC) de forma predeterminada, lo que les permite descargarse libremente y usarse para entrenar sistemas de reconocimiento facial incluso cuando la investigación está financiada por empresas con fines de lucro.
Y en comparación con otros conjuntos de datos, el de Ricanek es un pez pequeño. El [conjunto de datos de MegaFace] (http://megaface.cs.washington.edu/) compilado por la Universidad de Washington, por ejemplo, contiene 4,7 millones de imágenes de aproximadamente 627 000 personas, todas tomadas de usuarios de Flickr. Los patrocinadores del proyecto incluyen a Samsung, Intel y Google, y los datos en sí son utilizados por investigadores de todo el mundo, cuyo trabajo casi con toda certeza alimenta los productos pagos.
Harvey dice que, dejando de lado las cuestiones de legalidad y consentimiento, existen "cuestiones éticas más profundas sobre el contenido real de estos conjuntos de datos". Señala que las dos categorías de imágenes más comunes en MegaFace son "familia" y "boda". Lo cual tiene sentido, ya que ¿a quién nos gusta más tomar fotografías que a nuestros seres queridos? Una mirada dentro de la base de datos, dice Harvey, “revela innumerables fotos personales de casas, bodas, picnics, viajes a la playa, selfies e incluso fotos de niños. La mayoría, si no todas, las personas en estas fotos no saben que las empresas biométricas de todo el mundo están perfeccionando los algoritmos de reconocimiento facial de sus amigos, familiares e hijos”.
Las fuerzas del orden y las agencias de seguridad nacional también están interesadas en estos datos. La investigación de Ricanek está parcialmente financiada por el FBI y el Ejército (aunque dice que el conjunto de datos transgénero nunca se compartió con ninguna agencia gubernamental ni fue financiado por ellos). Ricanek justificó la investigación como una solución a una amenaza fronteriza fantástica. Pero un sistema que utilice este tipo de investigación podría exacerbar [el acoso y la humillación](https://www.advocate.com/transgender/2016/3/04/new-tsa-rule-bad-news-trans-people-says -grupo de trabajo) que las personas transgénero ya enfrentan en los puntos de control de viaje.
“¿Qué tipo de daño puede hacer un terrorista si entiende que tomar esta hormona puede aumentar sus posibilidades de cruzar a una frontera protegida por reconocimiento facial? Ese era el problema que realmente estaba investigando”, dice. “Me disculpo profundamente por cualquier tipo de dolor que esto pueda haber causado a las personas en estos videos. Ciertamente no es de donde vengo. Como académicos, vemos grandes desafíos y queremos trabajar en ellos, pero detrás de esos desafíos hay personas reales, que pueden verse afectadas de maneras que no hemos comprendido”.
Harvey dice que actualmente hay "poco debate" sobre la ética de este tipo de recopilación de datos. Es un tema complejo, y aunque las personas pueden estar indignadas de que su imagen se use sin permiso, hay poco que puedan hacer al respecto.
Hay retroceso en algunos casos (como cuando un investigador [sacó 40 000 selfies de Tinder](https://techcrunch.com/2017/04/28/someone-scraped-40000-tinder-selfies-to-make-a-facial -dataset-for-ai-experiments/) sin permiso y publicó el conjunto de datos en línea), pero en el debate sobre cuál es la forma correcta e incorrecta de adquirir datos, las voces más fuertes son las de las grandes empresas. Esto lleva a situaciones como en el Reino Unido, donde DeepMind, subsidiaria de inteligencia artificial de Google, [hizo un trato ilegal] (https://www.theverge.com/2017/7/3/15900670/google-deepmind-royal-free-2015-data -deal-ico-ruling-illegal) para acceder a registros médicos pertenecientes a 1,6 millones de personas.
En cierto modo, estamos acostumbrados a este trato. Es el trato que sustenta gran parte de la Internet moderna: das información sobre tu vida y, a cambio, obtienes servicios gratuitos. Pero en la era de la IA, a medida que los datos recopilados se vuelven cada vez más personales, no solo sus hábitos de navegación anónimos, sino también sus fotos, su familia, sus momentos personales, y los sistemas que crea son cada vez más controladores, quizás sea el momento. preguntarnos, una vez más, ¿estamos regalando demasiado?