Report 1523

Los sistemas de reconocimiento de voz automatizado (ASR) ahora se utilizan en una variedad de aplicaciones para convertir el lenguaje hablado en texto, desde asistentes virtuales hasta subtítulos y computación de manos libres. Al analizar un gran corpus de entrevistas sociolingüísticas con hablantes blancos y afroamericanos, demostramos grandes disparidades raciales en el desempeño de cinco sistemas ASR comerciales populares. Nuestros resultados apuntan a los obstáculos que enfrentan los afroamericanos al usar herramientas cada vez más extendidas impulsadas por la tecnología de reconocimiento de voz. De manera más general, nuestro trabajo ilustra la necesidad de auditar los sistemas emergentes de aprendizaje automático para garantizar que sean ampliamente inclusivos. Los sistemas de reconocimiento de voz automatizado (ASR), que utilizan sofisticados algoritmos de aprendizaje automático para convertir el lenguaje hablado en texto, se han generalizado cada vez más, impulsando asistentes virtuales populares, facilitando los subtítulos ocultos automatizados y habilitando plataformas de dictado digital para el cuidado de la salud. En los últimos años, la calidad de estos sistemas ha mejorado drásticamente, debido tanto a los avances en el aprendizaje profundo como a la recopilación de conjuntos de datos a gran escala utilizados para entrenar los sistemas. Sin embargo, existe la preocupación de que estas herramientas no funcionen igual de bien para todos los subgrupos de la población. Aquí, examinamos la capacidad de cinco sistemas ASR de última generación, desarrollados por Amazon, Apple, Google, IBM y Microsoft, para transcribir entrevistas estructuradas realizadas con 42 hablantes blancos y 73 hablantes negros. En total, este corpus abarca cinco ciudades de EE. UU. y consta de 19,8 h de audio emparejadas según la edad y el sexo del hablante. Encontramos que los cinco sistemas ASR exhibieron disparidades raciales sustanciales, con una tasa de error de palabra (WER) promedio de 0,35 para los hablantes negros en comparación con 0,19 para los hablantes blancos. Rastreamos estas disparidades hasta los modelos acústicos subyacentes utilizados por los sistemas ASR, ya que la brecha racial era igualmente grande en un subconjunto de frases idénticas pronunciadas por personas blancas y negras en nuestro corpus. Concluimos proponiendo estrategias, como el uso de conjuntos de datos de capacitación más diversos que incluyen inglés vernáculo afroamericano, para reducir estas diferencias de rendimiento y garantizar que la tecnología de reconocimiento de voz sea inclusiva. El aumento de la investigación relacionada con el habla y, en particular, los avances en el aprendizaje profundo para el procesamiento del habla y el lenguaje natural, han mejorado sustancialmente la precisión de los sistemas de reconocimiento de voz automatizado (ASR). Esta tecnología ahora se emplea en innumerables aplicaciones utilizadas por millones de personas en todo el mundo. Algunos ejemplos incluyen asistentes virtuales integrados en dispositivos móviles, electrodomésticos y sistemas para automóviles; dictado digital para completar registros médicos; traducción automática; subtitulado automatizado para contenido de video; y computación manos libres. Estas dos últimas aplicaciones son particularmente útiles para las personas con pérdida auditiva y problemas motores y señalan el valor de los sistemas ASR para aumentar la accesibilidad. Sin embargo, existe la preocupación de que los sistemas de reconocimiento de voz sufran un sesgo racial (1⇓⇓–4), un problema que recientemente salió a la luz en varias otras aplicaciones avanzadas del aprendizaje automático, como el reconocimiento facial (5, 6), natural procesamiento del lenguaje (7⇓⇓⇓–11), publicidad en línea (12, 13) y predicción de riesgos en la justicia penal (14⇓⇓–17), atención médica (18, 19) y servicios para niños (20, 21). Aquí, evaluamos las disparidades raciales en cinco herramientas comerciales de conversión de voz a texto, desarrolladas por Amazon, Apple, Google, IBM y Microsoft, que impulsan algunas de las aplicaciones más populares de la tecnología de reconocimiento de voz. Nuestro análisis se basa en dos corpus de habla conversacional recopilados recientemente. El primero es el Corpus of Regional African American Language (CORAAL) (22), una colección de entrevistas sociolingüísticas con docenas de personas negras que hablan inglés vernáculo afroamericano (AAVE) (23⇓–25) en diversos grados. Estas entrevistas se realizaron en tres sitios de EE. UU.: Princeville, una comunidad rural, casi exclusivamente afroamericana, en el este de Carolina del Norte; Rochester, una ciudad de tamaño moderado en el oeste de Nueva York; y el Distrito de Columbia. El segundo conjunto de datos que usamos es Voices of California (VOC) (26), una compilación continua de entrevistas grabadas en todo el estado, tanto en áreas rurales como urbanas. Enfocamos nuestro análisis en dos sitios de California: Sacramento, la capital del estado; y el condado de Humboldt, una comunidad rural predominantemente blanca en el norte de California. En ambos conjuntos de datos, las entrevistas fueron transcritas por expertos humanos, que usamos como la verdad básica cuando evaluamos el rendimiento de las transcripciones automáticas. Las entrevistas grabadas originales contienen audio tanto del entrevistador como del entrevistado. Nuestro estudio se basa en un subconjunto de fragmentos de audio que contienen exclusivamente al entrevistado y tienen una duración de 5 a 50 s. Hacemos coincidir estos fragmentos en los dos conjuntos de datos en función de la edad y el sexo del hablante y la duración del fragmento. Después de la coincidencia, nos quedan 2141 fragmentos de cada conjunto de datos, con una duración promedio de 17 s por fragmento, lo que equivale a 19,8 horas totales de audio. En el conjunto de datos combinado, el 44 % de los fragmentos eran de hablantes masculinos y la edad promedio de los hablantes era de 45 años. Evaluamos el desempeño de los sistemas ASR en términos de la tasa de error de palabras (WER) (27), una medida estándar de discrepancia entre las transcripciones de máquinas y humanas. Formalmente, WER se define como: WER = S + D + I N , [1] donde S, D e I denotan el número de sustituciones, eliminaciones e inserciones de palabras entre las transcripciones de la máquina y la verdad básica, respectivamente, y N es el número total de palabras en la verdad fundamental. Por lo tanto, un WER más alto indica una mayor diferencia entre las dos transcripciones y, por lo tanto, un peor rendimiento de ASR en nuestro entorno. Resultados Comenzamos calculando las tasas de error de palabra promedio para las transcripciones automáticas en nuestros fragmentos de audio coincidentes de hablantes blancos y negros. Para cada uno de los cinco sistemas ASR comerciales que examinamos, la figura 1 muestra que el WER promedio para los hablantes negros es sustancialmente mayor que el WER promedio para los hablantes blancos. Por ejemplo, para ASR de Microsoft, que tiene el mejor rendimiento general, el WER para altavoces negros es 0,27 (SE: 0,004) en comparación con 0,15 (SE: 0,003) para altavoces blancos. Además, para Apple, cuyo ASR tiene el peor rendimiento general, los WER para altavoces en blanco y negro son 0,45 (SE: 0,005) y 0,23 (SE: 0,003), respectivamente. * A pesar de la variación en la calidad de la transcripción entre los sistemas, las tasas de error para los hablantes negros son casi el doble en todos los casos. Promediar las tasas de error en los servicios ASR arroja un WER agregado de 0,35 (SE: 0,004) para los hablantes negros frente a 0,19 (SE: 0,003) para los hablantes blancos. Fig. 1. El WER promedio en los servicios ASR es 0,35 para fragmentos de audio de hablantes negros, en comparación con 0,19 para fragmentos de hablantes blancos. El SE máximo entre los 10 valores WER mostrados (en altavoces en blanco y negro y en servicios ASR) es 0,005. Para cada servicio ASR, el WER promedio se calcula a través de una muestra combinada de 2141 fragmentos de audio en negro y 2141 en blanco, con un total de 19,8 h de audio del entrevistado. La coincidencia del vecino más cercano entre la raza del hablante se realizó en función de la edad, el género y la duración del fragmento de audio del hablante. Las tasas de error son particularmente altas para los hombres negros en nuestra muestra. Con un promedio de los cinco sistemas ASR, la tasa de error para los hombres negros es 0,41 (SE: 0,006) en comparación con 0,30 (SE: 0,005) para las mujeres negras. En comparación, las tasas de error promedio para hombres y mujeres blancos son más similares en 0,21 (SE: 0,004) y 0,17 (SE: 0,003), respectivamente. † El trabajo anterior también encontró que los ASR se desempeñan algo peor en el habla conversacional de hablantes masculinos que de hablantes femeninas, probablemente debido a que los hablantes masculinos usan un estilo más informal con pronunciaciones más cortas y reducidas y más falta de fluidez (28, 29). Este rendimiento reducido en los hablantes masculinos es más pronunciado para los hablantes negros en nuestra muestra, un punto al que volveremos más adelante. Para agregar más detalles a las tasas de error promedio discutidas anteriormente, a continuación consideramos la distribución completa de las tasas de error entre nuestras poblaciones de hablantes blancos y negros. Para hacerlo, para cada fragmento, primero calculamos el WER promedio en los cinco ASR que consideramos. La Fig. 2 traza la distribución de este WER promedio a través de fragmentos, desglosados por raza. En particular, la Fig. 2 muestra la función de distribución acumulada complementaria (CCDF): para cada valor de WER en el eje horizontal, muestra la proporción de fragmentos que tienen una tasa de error al menos tan grande. Por ejemplo, más del 20 % de los fragmentos de hablantes negros tienen una tasa de error de al menos 0,5; en contraste, menos del 2% de los fragmentos de hablantes blancos están por encima de ese umbral. Por lo tanto, si uno considera que un WER de 0.5 es la barra para una transcripción útil, más de 10 veces más fragmentos de hablantes negros no cumplen con ese estándar. En este sentido, las disparidades raciales que encontramos son incluso mayores que las indicadas por las diferencias promedio en WER solo. Fig. 2. El CCDF indica la proporción de fragmentos de audio que tienen un WER mayor que el valor especificado a lo largo del eje horizontal. Los dos CCDF que se muestran para los fragmentos de audio de los hablantes blancos (azul) en comparación con los de los hablantes negros (rojo) usan el WER promedio en los cinco servicios ASR probados. Si suponemos que un WER > 0,5 implica que una transcripción no se puede utilizar, entonces el 23 % de los fragmentos de audio de hablantes negros dan como resultado transcripciones no utilizables, mientras que solo el 1,6 % de los fragmentos de audio de hablantes blancos dan como resultado transcripciones no utilizables. A continuación, examinamos la variación en la tasa de error por ubicación. Los hablantes negros de nuestra muestra emparejada fueron entrevistados en Princeville (n = 21); Washington, DC (n = 39); y Rochester ( n = 13 ); los hablantes blancos fueron entrevistados en Sacramento (n = 17) y el condado de Humboldt (n = 25). Como arriba, primero calculamos el WER promedio para cada fragmento en los cinco ASR. La Fig. 3 resume la distribución de estas tasas de error promedio para cada ubicación como un diagrama de caja, con las líneas centrales de cada caja indicando la tasa de error mediana y los puntos finales indicando el rango intercuartílico. Las tasas medianas de error en Princeville (0,38) y Washington, DC (0,31) son considerablemente mayores que las de Sacramento y Humboldt (0,18 y 0,15, respectivamente). Sin embargo, la tasa de error en el tercer sitio AAVE, Rochester (0,20), es comparable a las tasas de error en las dos ubicaciones de California con hablantes blancos. Fig. 3. Para cada fragmento de audio, primero calculamos la tasa de error promedio en los cinco servicios ASR que consideramos: Amazon, Apple, Google, IBM y Microsoft. Estos WER promedio luego se agruparon por ubicación de la entrevista, con las distribuciones resumidas en los diagramas de caja anteriores. En los tres sitios AAVE, señalados con un fondo gris (Princeville, NC; Washington, DC; y Rochester, NY), las tasas de error suelen ser más altas que en los dos sitios blancos (Sacramento, CA y Humboldt, CA), aunque las tasas de error en Rochester son comparables a las de Sacramento. Para comprender mejor los patrones geográficos descritos anteriormente, en particular los resultados anómalos en Rochester, codificamos a mano una muestra aleatoria de 150 fragmentos de hablantes negros para el uso de las características lingüísticas de AAVE, con 50 fragmentos codificados de cada uno de los tres sitios de entrevistas de AAVE. Específicamente, para cada fragmento, contamos la cantidad de características fonológicas y gramaticales características del habla AAVE y luego normalizamos este conteo por la cantidad de palabras en el fragmento, lo que arrojó una medida de densidad de dialecto (DDM). Encontramos que el DDM promedio es más bajo en Rochester (0,047), y también relativamente pequeño en una escala absoluta, seguido de Washington, DC (0,088) y Princeville (0,19), lo que refleja el orden de las tasas de error de palabras por ubicación que se ve en la Fig. 3. Las diferencias por pares en DDM por ubicación son estadísticamente significativas, con P < 0,05 en todos los casos. En la Fig. 4, examinamos directamente la relación entre DDM (en el eje horizontal) y WER (en el eje vertical), lo que ilustra la correlación positiva entre DDM y las tasas de error. Aunque hay muchos factores que afectan las tasas de error, estos resultados sugieren que los patrones específicos de la ubicación que vemos son, al menos en parte, impulsados por las diferencias en el grado de uso de AAVE entre los hablantes de nuestra muestra. Dado el número relativamente pequeño de hablantes en cada lugar, no podemos determinar si estos patrones son representativos de diferencias geográficas más generales en el dialecto o son simplemente tendencias idiosincrásicas en nuestra muestra particular de hablantes. Fig. 4. La relación entre una medida de densidad de dialecto (DDM, en el eje horizontal) y la tasa de error ASR promedio (WER, en el eje vertical) para una muestra aleatoria de 50 fragmentos en cada uno de los tres sitios AAVE que consideramos. Las líneas verticales discontinuas indican el promedio de DDM en cada ubicación. La línea negra sólida muestra un ajuste de regresión lineal a los datos e indica que los hablantes que exhiben más características lingüísticas características de AAVE tienden a tener un WER más alto. Esta codificación de densidad dialectal también revela diferencias de género. Agregado en los tres sitios AAVE, el DDM para hablantes masculinos es 0,13 (n = 52; SE: 0,02), en comparación con 0,096 para hablantes femeninas (n = 98; SE: 0,01). Al igual que con la ubicación, este patrón está en línea con la tasa de error ASR más alta para los hablantes masculinos discutida anteriormente. Concluimos investigando dos posibles mecanismos que podrían explicar las disparidades raciales que vemos: 1) una brecha de rendimiento en los "modelos de lenguaje" (modelos de léxico y gramática) subyacentes a los sistemas ASR modernos; y 2) una brecha de rendimiento en los modelos acústicos subyacentes a estos sistemas. Como discutimos a continuación, encontramos evidencia de una brecha en los modelos acústicos pero no en los modelos de lenguaje. Los sistemas de reconocimiento de voz suelen tener un vocabulario fijo, aunque potencialmente bastante grande, que forma la base de las transcripciones. En teoría, es posible que los hablantes negros de nuestra muestra usen con mayor frecuencia palabras que simplemente no están incluidas en el vocabulario de los sistemas ASR que investigamos, lo que, de ser cierto, podría explicar las disparidades raciales que observamos. Para examinar esta hipótesis, primero reconstruimos aproximadamente el léxico de cada uno de los cinco sistemas ASR agregando todas las palabras únicas que aparecen en las transcripciones de cada ASR, combinando las transcripciones para hablantes en blanco y negro. Estos léxicos aproximados son un subconjunto de la lista real, ya que los sistemas ASR pueden tener en sus vocabularios palabras que nuestros hablantes nunca pronunciaron (o que nunca reconocieron correctamente). Por ejemplo, encontramos 8.852 palabras distintas que aparecen al menos una vez en las transcripciones producidas por el ASR de Google. Ahora, calculamos la proporción de palabras en las transcripciones humanas reales, incluidas las instancias repetidas, que están presentes en los vocabularios de máquinas reconstruidos. Tanto para hablantes blancos como negros, y en los cinco sistemas ASR, del 98 al 99 % de las palabras habladas están en los vocabularios reconstruidos. Por ejemplo, de las 104 486 palabras pronunciadas por hablantes negros en nuestra muestra, el ASR de Google tenía al menos 103 142 (98,7 %) de ellas en su vocabulario; en comparación, de las 98.653 palabras habladas por individuos blancos en nuestra muestra, al menos 97.260 (98,6%) estaban en el vocabulario. Estas modestas diferencias léxicas no parecen lo suficientemente grandes como para explicar la brecha sustancial en las tasas de error generales que encontramos y, de hecho, una fracción ligeramente mayor de palabras habladas por miembros negros de la muestra están en el vocabulario de la máquina que la de los miembros blancos de la muestra. A continuación, investigamos las posibles disparidades raciales en el modelo computacional completo del lenguaje utilizado por los sistemas ASR. En un nivel alto, los modelos de lenguaje predicen la siguiente palabra en una secuencia dadas las palabras anteriores en esa secuencia. Por ejemplo, dada la frase incompleta “el perro saltó sobre ——”, un modelo de lenguaje podría estimar que hay un 5 % de probabilidad de que la siguiente palabra sea “valla”. La métrica de rendimiento estándar para los modelos de lenguaje es la perplejidad, que aproximadamente puede verse como el número de continuaciones razonables de una frase bajo el modelo. En consecuencia, mejores modelos de lenguaje tienen menor perplejidad. Formalmente, dado un modelo de lenguaje M y una secuencia de palabras x 1 , … , x N (correspondiente, en nuestro caso, a una transcripción humana real de un fragmento de audio), la perplejidad es: exp − 1 N − 1 ∑ i = 2 N log P M ( x i ∣ x i − 1 , … , x 1 ) , [2] donde P M ( x i ∣ x i − 1 , … , x 1 ) es la probabilidad condicional asignada por el modelo a la palabra en el índice i. Los modelos de lenguaje exactos que subyacen a los sistemas ASR comerciales no están fácilmente disponibles. Sin embargo, es probable que estos sistemas utilicen modelos de lenguaje que tengan propiedades estadísticas similares a los modelos de última generación disponibles públicamente, como Transformer-XL (30), GPT (31) y GPT-2 (32). . Por lo tanto, examinamos las posibles disparidades raciales en estos tres modelos, utilizando las versiones disponibles públicamente que han sido previamente entrenadas en grandes corpus de datos de texto. ‡ En los tres modelos de idioma, encontramos que la perplejidad promedio de los fragmentos de los hablantes negros es más baja, lo que significa un mejor rendimiento, que la perplejidad promedio de los fragmentos de los hablantes blancos en nuestra muestra. En particular, Transformer-XL tiene una perplejidad de 115 para altavoces negros en comparación con 153 para altavoces blancos; GPT tiene una perplejidad de 52 y 68 para hablantes en blanco y negro, respectivamente; y GPT-2 tiene perplejidad de 45 y 55, respectivamente. Estos tres modelos lingüísticos, y, por extensión, probablemente los modelos lingüísticos utilizados en los sistemas ASR comerciales, son, en promedio, más capaces de predecir las secuencias de palabras habladas por personas negras en nuestra muestra que las habladas por personas blancas. Para investigar este resultado, consideramos una muestra de frases pronunciadas por hablantes negros en nuestro conjunto de datos que exhiben una característica gramatical común de AAVE: ausencia de cópula u omisión del verbo "ser". Por ejemplo, un hablante negro en nuestro corpus dijo: "él es un pastor", en lugar de usar la frase en inglés estándar, "él es un pastor". En la Tabla 1, enumeramos una selección representativa de cinco de estas frases AAVE extraídas del conjunto de fragmentos codificados por densidad de dialecto (discutido anteriormente). Calculamos la perplejidad tanto de la frase original como de una versión modificada en la que se inserta la cópula para adaptarse a la convención del inglés estándar. Para simplificar, la perplejidad se calcula con el modelo de lenguaje GPT-2, aunque los resultados son cualitativamente similares con GPT-1 y Transformer-XL. Tabla 1. Perplejidad para la redacción en inglés estándar, con la cópula en negrita, y redacción AAVE, sin la cópula en negrita Para las cinco frases enumeradas, la perplejidad de la redacción AAVE original es considerablemente mayor que la perplejidad de la redacción en inglés estándar. Por ejemplo, “él es un pastor” tiene una perplejidad de 305, en comparación con 67 para “él es un pastor”. Los modelos de lenguaje que consideramos parecen exhibir una preferencia estadística por la inclusión de la cópula en inglés estándar sobre la ausencia de la cópula en AAVE. Dado este comportamiento, la perplejidad promedio más baja general para fragmentos de hablantes negros parece aún más sorprendente. Creemos que esta diferencia se debe, al menos en parte, al número relativo de palabras únicas pronunciadas por los miembros de la muestra en blanco y negro. Aunque la duración total y el número de palabras pronunciadas por hablantes negros y blancos en nuestra muestra fueron similares, los hablantes negros pronunciaron menos palabras únicas (5651) que los hablantes blancos (6280). En igualdad de condiciones, un vocabulario más pequeño generalmente produce una menor perplejidad del modelo, ya que es más fácil predecir la siguiente palabra en una secuencia. § Por lo tanto, nuestra investigación indica que las propiedades léxicas y gramaticales de los sistemas ASR no explican las grandes disparidades raciales generales en los WER. En todo caso, dado que estos fragmentos de hablantes negros tienen menos palabras únicas y menos perplejidad, deberían ser más fáciles de transcribir para los ASR. Estos resultados sugieren que el problema puede residir en cambio en los modelos acústicos subyacentes a los ASR. Para examinar esta posibilidad, comparamos las tasas de error en un conjunto de frases cortas pronunciadas por hablantes en blanco y negro en nuestra muestra que tienen transcripciones humanas idénticas. Nos limitamos específicamente a frases compuestas de al menos cinco palabras pronunciadas por personas blancas y negras del mismo sexo y de aproximadamente la misma edad. Este proceso arrojó 206 expresiones coincidentes de 5 a 8 palabras (p. ej., "y luego un montón de" y "y mi madre era una"). Las tasas de error para este conjunto de frases coincidentes se presentan en la Tabla 2. Para cada uno de los cinco sistemas ASR que consideramos, los WER son aproximadamente el doble cuando las frases fueron pronunciadas por personas negras en lugar de blancas. Por ejemplo, con ASR de Microsoft, que tiene el mejor rendimiento general, el WER para altavoces negros es 0,13 (SE: 0,01) en comparación con 0,07 (SE: 0,01) para altavoces blancos. Dado que las frases en sí mismas tienen texto idéntico, estos resultados sugieren que las disparidades raciales en el desempeño de ASR están relacionadas con las diferencias en la pronunciación y la prosodia, incluidos el ritmo, el tono, el acento de las sílabas, la duración de las vocales y la lenición, entre los hablantes blancos y negros. Discusión Como se señaló anteriormente, los sistemas de reconocimiento de voz automatizados modernos generalmente incluyen un modelo de lenguaje entrenado en datos de texto y un modelo acústico entrenado en datos de audio. Nuestros hallazgos indican que las disparidades raciales que vemos surgen principalmente de una brecha de rendimiento en los modelos acústicos, lo que sugiere que los sistemas están confundidos por las características fonológicas, fonéticas o prosódicas del inglés vernáculo afroamericano en lugar de las características gramaticales o léxicas. La causa probable de esta deficiencia es la falta de datos de audio de los altavoces negros cuando se entrenan los modelos. Las brechas de rendimiento que hemos documentado sugieren que es considerablemente más difícil para los afroamericanos beneficiarse del uso cada vez más generalizado de la tecnología de reconocimiento de voz, desde asistentes virtuales en teléfonos móviles hasta computadoras de manos libres para personas con discapacidades físicas. Estas disparidades también pueden dañar activamente a las comunidades afroamericanas cuando, por ejemplo, los empleadores utilizan el software de reconocimiento de voz para evaluar automáticamente las entrevistas de los candidatos o las agencias de justicia penal para transcribir automáticamente los procedimientos judiciales. Una limitación de nuestro estudio es que las muestras de audio de hablantes blancos y negros provienen de diferentes áreas geográficas del país, las primeras recolectadas en California y las segundas en el este de los Estados Unidos. Como tal, es posible que al menos algunas de las diferencias que vemos sean producto de variaciones lingüísticas regionales, más que étnicas. Sin embargo, observamos dos razones para creer que el discurso de AAVE en sí mismo está impulsando nuestros resultados. Primero, la tasa de error de palabras está fuertemente asociada con la densidad del dialecto AAVE, como se ve en la Fig. 4. Segundo, los dos sitios de California de hablantes blancos que consideramos, Sacramento y Humboldt, exhiben tasas de error similares a pesar de la diversidad en los patrones de habla regionales en todo el estado. y las diferencias en los contextos sociogeográficos de estos dos lugares; por ejemplo, Humboldt es una comunidad rural, mientras que Sacramento es la capital del estado. Sin embargo, esperamos que el trabajo futuro examine las tasas de error entre hablantes blancos y negros de la misma región. Nuestros hallazgos resaltan la necesidad de que la comunidad de reconocimiento de voz, incluidos los fabricantes de sistemas de reconocimiento de voz, los investigadores académicos de reconocimiento de voz y los patrocinadores gubernamentales de la investigación del habla, inviertan recursos para garantizar que los sistemas sean ampliamente inclusivos. Creemos que tal esfuerzo debería implicar no solo una mejor recopilación de datos sobre el habla AAVE, sino también una mejor recopilación de datos sobre otras variedades no estándar de inglés, cuyos hablantes pueden verse afectados de manera similar por un desempeño ASR deficiente, incluidos aquellos con inglés regional y no nativo. acentos También creemos que los desarrolladores de herramientas de reconocimiento de voz en la industria y el mundo académico deberían evaluar periódicamente e informar públicamente sobre su progreso en esta dimensión. Con la probabilidad de que la adopción de sistemas de reconocimiento de voz crezca con el tiempo, esperamos que las empresas de tecnología y otros participantes en este campo pongan en primer plano el desarrollo equitativo de estas importantes herramientas. Materiales y métodos A continuación, describimos brevemente nuestros procedimientos de filtrado, estandarización y comparación de datos, así como nuestro proceso para medir la densidad de dialectos. Se proporcionan más detalles en el Apéndice SI. Datos. Nuestros fragmentos de audio provienen del conjunto completo de 108 entrevistas de CORAAL y 109 entrevistas de VOC en los cinco sitios geográficos que consideramos. Las entrevistas de CORAAL realizadas en Washington, DC, Rochester y Princeville se registraron en 2016, 2016 y 2004, respectivamente; y las entrevistas de VOC realizadas en Sacramento y Humboldt se registraron en 2014 y 2017, respectivamente. La mayoría de nuestros datos provienen de 2014 a 2017, un lapso que no representa una brecha de tiempo significativa para el análisis sociolingüístico, pero los datos de Princeville se recopilaron una década antes, en 2004. En relación con esto, los datos de Princeville se grabaron en una cinta de casete y luego luego se digitalizó, mientras que las entrevistas en los otros sitios se grabaron con dispositivos digitales. Dados los obstáculos para recopilar datos de una gran cantidad de hablantes en múltiples sitios de campo, no es raro en los estudios de dialectología combinar audio recopilado en diferentes años y grabado con diferentes equipos. Si bien es importante reconocer estas limitaciones del diseño de nuestro estudio, creemos que es poco probable que afecten nuestros resultados principales. Restringimos nuestro análisis a entrevistas de adultos (mayores de 18 años) que generalmente tenían una buena calidad de audio (p. ej., sin ruido de fondo significativo). En los datos de VOC, también restringimos a hablantes blancos no hispanos. En este conjunto restringido de entrevistas, extrajimos los segmentos de entrevistados de frases completas continuas más largas que tenían entre 5 y 50 s de duración. En particular, eliminamos los segmentos de audio que contenían interrupciones o declaraciones superpuestas del entrevistador (u otros no entrevistados, si los hubiera). También nos aseguramos de que los fragmentos de audio comenzaran y terminaran en pausas naturales, como la finalización de una oración. Limitamos nuestro análisis a segmentos de 50 s como máximo, ya que algunos de los sistemas ASR que examinamos no podían transcribir archivos de audio más largos. Este proceso dio como resultado 4449 fragmentos de audio de altavoces negros y 4397 fragmentos de audio de altavoces blancos. A continuación, limpiamos las transcripciones humanas reales para garantizar la coherencia entre los dos conjuntos de datos. Más específicamente, modificamos la ortografía no estándar: por ejemplo, cambiamos las apariciones de la palabra "aks" por "ask", ya que ningún ASR deletrea esta expresión con la pronunciación AAVE. Los indicadores de contenido de audio ininteligible (p. ej., una cadena "/ininteligible/" que aparece en la transcripción humana real) se producen en el 16 % de los fragmentos de CORAAL y en el 11 % de los fragmentos de VOC. Por lo general, los sistemas ASR simplemente ignoraron estos segmentos ininteligibles del fragmento de audio y, en consecuencia, eliminamos las banderas de las transcripciones humanas. Del mismo modo, eliminamos las banderas de las palabras redactadas y los marcadores no lingüísticos (por ejemplo, para la respiración y la risa), ya que los sistemas ASR no los transcriben. Confirmamos que nuestros resultados eran casi idénticos si, en lugar de realizar las operaciones anteriores, se eliminaban por completo los fragmentos con contenido cuestionable. Algunas palabras específicas de la ubicación pronunciadas en CORAAL y VOC fueron particularmente difíciles de deletrear para los sistemas ASR (por ejemplo, "Tarboro" y "Yurok"); los ASR regularmente escribieron mal a Humboldt como "humilde" o "humillado". Comparamos nuestros resultados con aquellos en los que se eliminaron todos los fragmentos que contenían una lista de nombres de ciudades difíciles de deletrear pronunciados en los fragmentos de audio. Nuevamente, nuestros resultados no cambiaron significativamente, ya que tales palabras problemáticas eran relativamente raras. Además, estandarizamos todas las transcripciones humanas y automáticas utilizando las siguientes reglas para facilitar los cálculos de la tasa de error. Se impuso el espaciado simple entre palabras; Los números arábigos se convirtieron en cadenas numéricas; se eliminaron de las transcripciones las banderas que indicaban vacilación; el signo "$" fue reemplazado por la cadena "dólar"; se eliminaron todos los demás caracteres especiales y signos de puntuación; las abreviaturas de dirección cardinal (p. ej., "NW") se reemplazaron con palabras completas (p. ej., "Noroeste"); los nombres completos de los estados fueron reemplazados por sus abreviaturas de dos letras; y todas las palabras se convirtieron a minúsculas. Además, se estandarizaron ciertas ortografías: por ejemplo, "cuz", "ok", "o", "till", "imma", "mister", "yup", "gonna" y "tryna" fueron, respectivamente, reemplazado por "causa", "bien", "oh", "hasta", "ima", "señor", "sí", "voy a" y "intentando"). Finalmente, eliminamos las palabras de relleno ("um", "uh", "mm", "hm", "ooh", "woo", "mhm", "huh", "ja") y las palabrotas porque los sistemas ASR maneje estas palabras de manera diferente entre sí (por ejemplo, eliminándolas de los resultados de la transcripción), de manera similar a cómo los diferentes transcriptores humanos también podrían tratarlas subjetivamente. Por último, restringimos nuestro análisis a fragmentos con un recuento de palabras de verdad limpiado de al menos cinco palabras. Todo este proceso de filtrado y limpieza produjo un conjunto de 4445 fragmentos de audio de 73 altavoces negros y 4372 fragmentos de audio de 51 altavoces blancos, con un total de 39,8 h de audio. En este conjunto restringido de fragmentos, calculamos los WER generados por cada ASR. Específicamente, el WER se calculó entre la versión limpia de la transcripción del fragmento original (de CORAAL o VOC) y la versión limpia de cada transcripción generada por ASR. Nuestro análisis estadístico principal se basó en un subconjunto de fragmentos coincidentes, como se describe a continuación. Pareo. Utilizamos la coincidencia de puntaje de propensión para seleccionar un subconjunto de fragmentos de audio de hablantes blancos y negros con distribuciones similares de edad, género y duración del fragmento. Esta restricción nos permitió centrarnos en las disparidades raciales, ya que también se sabe que la edad y el género afectan el rendimiento de los sistemas ASR (28, 29). El emparejamiento se realizó con el paquete R MatchIt (33), con puntajes de propensión estimados a través de un modelo de regresión logística en los datos combinados de hablantes negros y blancos. Específicamente, en nuestro modelo de puntaje de propensión, hicimos una regresión de un indicador de raza en las siguientes covariables: variables indicadoras para grupos de edad de 10 años de ancho para edades de 25 a 94 años (por ejemplo, 25 a 34 años y 35 a 44 años); edad entera; una variable indicadora de género; y logaritmo natural de la longitud del fragmento, medido en segundos. El emparejamiento del vecino más cercano sin reemplazo se realizó en los puntajes de propensión, con un tamaño de calibre de 0,001. El conjunto final de fragmentos de audio coincidentes se compone de 2141 fragmentos de 73 hablantes negros y un número igual de fragmentos de 42 hablantes blancos, lo que corresponde a 19,8 horas totales de audio. Como se muestra en el Apéndice SI, Fig. S1, las muestras combinadas de fragmentos en blanco y negro (en la fila inferior, a diferencia de las muestras previamente combinadas en la fila superior) tienen distribuciones estrechamente alineadas en nuestras tres covariables objetivo: edad del hablante, sexo del hablante y duración. Medición de la densidad del dialecto. Utilizamos un DDM para determinar la cantidad relativa de funciones AAVE empleadas en un fragmento de audio dado, dividiendo la cantidad total de funciones del dialecto por la cantidad de palabras en el fragmento. La mayoría de los estudios previos que utilizan DDM se han centrado en la complejidad sintáctica de AAVE (34, 35). Para este estudio, sin embargo, modificamos ese enfoque para tener en cuenta tanto la gramática como la fonología de AAVE, dando igual peso a las características gramaticales y fonológicas. Los DDM no capturan todo el sistema lingüístico de un hablante (36, 37), pero, en nuestro entorno, la medida que usamos proporciona información sobre los impulsores de las brechas de rendimiento de ASR que vemos. En nuestro análisis principal, un lingüista familiarizado con AAVE anotó un subconjunto de 150 fragmentos. El anotador escuchó un fragmento y registró cada rasgo fonológico y gramatical del AAVE. Por ejemplo, en el fragmento de Princeville "Bueno, en ese momento era Carolina Enterprise, pero cambió de nombre", hay cinco características AAVE (tres fonológicas y dos gramaticales): 1) eliminación de la consonante final en "at"; 2) fricativa inicial de sílaba que termina en “eso”; 3) vocalización de la /r/ posvocálica en “enterprise”; 4) ausencia de plural -s en “nombre”; y 5) y completivo “hecho” en “hecho cambió”. Debido a que el fragmento tiene 13 palabras, el DDM es 5/13 = 0,38. La lista completa de características de AAVE que etiquetamos se basa en trabajos anteriores (23⇓–25) y se muestra en el Apéndice SI, Tablas S2 y S3. En el conjunto completo de 150 fragmentos codificados, la longitud promedio fue de 47 palabras, con 3,5 características fonológicas y 0,5 características gramaticales, en promedio; la DDM media fue de 0,11. Para medir la confiabilidad entre evaluadores, comparamos las puntuaciones DDM del codificador primario con las de otros dos sociolingüistas capacitados en un conjunto de prueba de 20 fragmentos: 10 fragmentos para cada uno de los dos codificadores secundarios. La correlación de Pearson entre el codificador primario y los dos codificadores secundarios fue de 0,92 y 0,74, respectivamente, lo que indica una concordancia alta.

Problema 1523

Incidentes Asociados

Incidente 1022 Reportes
Personal voice assistants struggle with black voices, new study shows

Disparidades raciales en el reconocimiento de voz automatizado

Problema 1523

Incidentes Asociados

Incidente 1022 ReportesPersonal voice assistants struggle with black voices, new study shows

Disparidades raciales en el reconocimiento de voz automatizado

Incidente 1022 Reportes
Personal voice assistants struggle with black voices, new study shows