Incidentes Asociados
Los sistemas de reconocimiento de voz tienen más problemas para entender las voces de los usuarios negros que las de los usuarios blancos, según un nuevo estudio de Stanford.
Los investigadores utilizaron herramientas de reconocimiento de voz de Apple, Amazon, Google, IBM y Microsoft para transcribir entrevistas con 42 personas blancas y 73 negras, todas las cuales tuvieron lugar en los EE. UU. Las herramientas identificaron erróneamente palabras aproximadamente el 19 por ciento del tiempo durante las entrevistas con personas blancas y el 35 por ciento del tiempo durante las entrevistas con personas negras. El sistema encontró que el 2 por ciento de los fragmentos de audio de los blancos eran ilegibles, en comparación con el 20 por ciento de los de los negros. Los errores fueron particularmente grandes para los hombres negros, con una tasa de error del 41 por ciento en comparación con el 30 por ciento de las mujeres negras.
Investigaciones anteriores han demostrado que la tecnología de reconocimiento facial muestra un sesgo similar. Un estudio del MIT encontró que un servicio de reconocimiento facial de Amazon no cometió errores al identificar el género de los hombres con piel clara, pero funcionó peor al identificar el género de un individuo si era mujer o tenía la piel más oscura. Otro artículo identificó sesgos raciales y de género similares en el software de reconocimiento facial de Microsoft, IBM y la firma china Megvii.
En el estudio de Stanford, el sistema de Microsoft logró el mejor resultado, mientras que el de Apple se desempeñó peor. Es importante tener en cuenta que estas no son necesariamente las herramientas utilizadas para construir Cortana y Siri, aunque pueden regirse por prácticas y filosofías similares de la empresa.
“La equidad es uno de nuestros principios básicos de IA y estamos comprometidos a progresar en esta área”, dijo un portavoz de Google en un comunicado a The Verge. “Hemos estado trabajando en el desafío de reconocer con precisión las variaciones del habla durante varios años y continuaremos haciéndolo”.
“IBM continúa desarrollando, mejorando y avanzando en nuestras capacidades de procesamiento de voz y lenguaje natural para brindar niveles cada vez mayores de funcionalidad a los usuarios comerciales a través de IBM Watson”, dijo un portavoz de IBM. Las otras empresas mencionadas en el documento no respondieron de inmediato a las solicitudes de comentarios.
El artículo de Stanford postula que la brecha racial es probablemente el producto de un sesgo en los conjuntos de datos que entrenan el sistema. Los algoritmos de reconocimiento aprenden analizando grandes cantidades de datos; un bot entrenado principalmente con clips de audio de personas blancas puede tener dificultades para transcribir un conjunto más diverso de voces de usuarios.
Los investigadores instan a los fabricantes de sistemas de reconocimiento de voz a recopilar mejores datos sobre el inglés vernáculo afroamericano (AAVE) y otras variedades de inglés, incluidos los acentos regionales. Sugieren que estos errores dificultarán que los estadounidenses negros se beneficien de los asistentes de voz como Siri y Alexa. La disparidad también podría perjudicar a estos grupos cuando el reconocimiento de voz se utiliza en entornos profesionales, como entrevistas de trabajo y transcripciones en los tribunales.