Incidents associés

Les systèmes de reconnaissance vocale automatisée (ASR) sont maintenant utilisés dans une variété d'applications pour convertir le langage parlé en texte, des assistants virtuels au sous-titrage codé en passant par l'informatique mains libres. En analysant un large corpus d'entretiens sociolinguistiques avec des locuteurs blancs et afro-américains, nous démontrons de grandes disparités raciales dans les performances de cinq systèmes ASR commerciaux populaires. Nos résultats indiquent les obstacles rencontrés par les Afro-Américains dans l'utilisation d'outils de plus en plus répandus basés sur la technologie de reconnaissance vocale. Plus généralement, nos travaux illustrent la nécessité d'auditer les systèmes d'apprentissage automatique émergents pour s'assurer qu'ils sont largement inclusifs. Les systèmes de reconnaissance vocale automatisée (ASR), qui utilisent des algorithmes d'apprentissage automatique sophistiqués pour convertir le langage parlé en texte, sont devenus de plus en plus répandus, alimentant des assistants virtuels populaires, facilitant le sous-titrage automatisé et permettant des plateformes de dictée numérique pour les soins de santé. Au cours des dernières années, la qualité de ces systèmes s'est considérablement améliorée, en raison à la fois des progrès de l'apprentissage en profondeur et de la collecte d'ensembles de données à grande échelle utilisés pour former les systèmes. On craint toutefois que ces outils ne fonctionnent pas aussi bien pour tous les sous-groupes de la population. Ici, nous examinons la capacité de cinq systèmes ASR de pointe - développés par Amazon, Apple, Google, IBM et Microsoft - à transcrire des entretiens structurés menés avec 42 locuteurs blancs et 73 locuteurs noirs. Au total, ce corpus s'étend sur cinq villes américaines et se compose de 19,8 h d'audio correspondant à l'âge et au sexe du locuteur. Nous avons constaté que les cinq systèmes ASR présentaient des disparités raciales substantielles, avec un taux d'erreur de mot moyen (WER) de 0,35 pour les locuteurs noirs contre 0,19 pour les locuteurs blancs. Nous attribuons ces disparités aux modèles acoustiques sous-jacents utilisés par les systèmes ASR, car l'écart racial était tout aussi important sur un sous-ensemble de phrases identiques prononcées par des individus noirs et blancs dans notre corpus. Nous concluons en proposant des stratégies, telles que l'utilisation d'ensembles de données de formation plus diversifiés qui incluent l'anglais vernaculaire afro-américain, pour réduire ces différences de performances et garantir que la technologie de reconnaissance vocale est inclusive. L'essor de la recherche sur la parole et, en particulier, les progrès de l'apprentissage en profondeur pour le traitement de la parole et du langage naturel, ont considérablement amélioré la précision des systèmes de reconnaissance vocale automatisée (ASR). Cette technologie est maintenant utilisée dans une myriade d'applications utilisées par des millions de personnes dans le monde. Certains exemples incluent des assistants virtuels intégrés dans des appareils mobiles, des appareils électroménagers et des systèmes embarqués ; dictée numérique pour remplir des dossiers médicaux; traduction automatique; sous-titrage automatisé pour le contenu vidéo ; et l'informatique mains libres. Ces deux dernières applications sont particulièrement utiles pour les personnes ayant une perte auditive et des déficiences motrices et soulignent la valeur des systèmes ASR pour augmenter l'accessibilité. On craint cependant que les systèmes de reconnaissance vocale souffrent de préjugés raciaux (1⇓⇓–4), un problème qui a récemment été mis en lumière dans plusieurs autres applications avancées de l'apprentissage automatique, telles que la reconnaissance faciale (5, 6), les traitement du langage (7⇓⇓⇓–11), publicité en ligne (12, 13) et prédiction des risques dans la justice pénale (14⇓⇓–17), soins de santé (18, 19) et services à l'enfance (20, 21). Ici, nous évaluons les disparités raciales dans cinq outils commerciaux de synthèse vocale, développés par Amazon, Apple, Google, IBM et Microsoft, qui alimentent certaines des applications les plus populaires de la technologie de reconnaissance vocale. Notre analyse est basée sur deux corpus de discours conversationnels récemment collectés. Le premier est le Corpus of Regional African American Language (CORAAL) (22), une collection d'entretiens sociolinguistiques avec des dizaines d'individus noirs qui parlent l'anglais vernaculaire afro-américain (AAVE) (23⇓–25) à des degrés divers. Ces entretiens ont été menés sur trois sites américains : Princeville, une communauté rurale presque exclusivement afro-américaine de l'est de la Caroline du Nord ; Rochester, une ville de taille moyenne dans l'ouest de New York ; et le district de Columbia. Le deuxième ensemble de données que nous utilisons est Voices of California (VOC) (26), une compilation continue d'entretiens enregistrés dans tout l'État, dans les zones rurales et urbaines. Nous concentrons notre analyse sur deux sites californiens : Sacramento, la capitale de l'État ; et le comté de Humboldt, une communauté rurale à prédominance blanche du nord de la Californie. Dans les deux ensembles de données, les entretiens ont été transcrits par des experts humains, que nous utilisons comme vérité de terrain lors de l'évaluation des performances des transcriptions automatiques. Les entrevues originales enregistrées contiennent l'audio de l'intervieweur et de l'interviewé. Notre étude est basée sur un sous-ensemble d'extraits audio contenant exclusivement l'interviewé et d'une durée de 5 à 50 s. Nous comparons ces extraits dans les deux ensembles de données en fonction de l'âge et du sexe du locuteur et de la durée de l'extrait. Après appariement, il nous reste 2 141 extraits de chaque ensemble de données, avec une durée moyenne de 17 s par extrait, soit 19,8 heures d'audio au total. Dans l'ensemble de données appariées, 44 % des extraits concernaient des locuteurs masculins et l'âge moyen des locuteurs était de 45 ans. Nous évaluons les performances des systèmes ASR en termes de taux d'erreur de mot (WER) (27), une mesure standard de l'écart entre les transcriptions machine et humaine. Formellement, WER est défini comme : WER = S + D + I N , [1] où S, D et I désignent le nombre de substitutions, de suppressions et d'insertions de mots entre les transcriptions de la machine et de la vérité au sol, respectivement, et N est le nombre total de mots dans la vérité terrain. Un WER plus élevé indique donc une plus grande différence entre les deux transcriptions et donc une moins bonne performance ASR dans notre contexte. Résultats Nous commençons par calculer les taux moyens d'erreurs de mots pour les transcriptions automatiques sur nos extraits audio appariés de locuteurs blancs et noirs. Pour chacun des cinq systèmes ASR commerciaux que nous examinons, la Fig. 1 montre que le WER moyen pour les haut-parleurs noirs est sensiblement plus grand que le WER moyen pour les haut-parleurs blancs. Par exemple, pour l'ASR de Microsoft, qui a les meilleures performances globales, le WER pour les haut-parleurs noirs est de 0,27 (SE : 0,004) contre 0,15 (SE : 0,003) pour les haut-parleurs blancs. De plus, pour Apple, dont l'ASR a les pires performances globales, les WER pour les haut-parleurs noir et blanc sont respectivement de 0,45 (SE : 0,005) et 0,23 (SE : 0,003). * Malgré la variation de la qualité de la transcription d'un système à l'autre, les taux d'erreur pour les locuteurs noirs sont presque deux fois plus élevés dans tous les cas. La moyenne des taux d'erreur sur les services ASR donne un WER global de 0,35 (SE : 0,004) pour les locuteurs noirs contre 0,19 (SE : 0,003) pour les locuteurs blancs. Fig. 1. Le WER moyen sur les services ASR est de 0,35 pour les extraits audio de locuteurs noirs, contre 0,19 pour les extraits de locuteurs blancs. Le SE maximum parmi les 10 valeurs WER affichées (sur les haut-parleurs noirs et blancs et sur les services ASR) est de 0,005. Pour chaque service ASR, le WER moyen est calculé sur un échantillon apparié de 2 141 extraits audio en noir et 2 141 extraits audio en blanc, totalisant 19,8 h d'audio de la personne interrogée. L'appariement du voisin le plus proche entre les races de locuteurs a été effectué en fonction de l'âge, du sexe et de la durée de l'extrait audio du locuteur. Les taux d'erreur sont particulièrement élevés pour les hommes noirs de notre échantillon. En faisant la moyenne des cinq systèmes ASR, le taux d'erreur pour les hommes noirs est de 0,41 (SE : 0,006) contre 0,30 (SE : 0,005) pour les femmes noires. En comparaison, les taux d'erreur moyens pour les hommes et les femmes blancs sont plus similaires à 0,21 (SE : 0,004) et 0,17 (SE : 0,003), respectivement. † Des travaux antérieurs ont également montré que les ASR performent un peu moins bien sur le discours conversationnel des locuteurs masculins que des locuteurs féminins, probablement en raison du fait que les locuteurs masculins utilisent un style plus informel avec des prononciations plus courtes et plus réduites et plus de disfluences (28, 29). Cette diminution des performances sur les locuteurs masculins est plus prononcée pour les locuteurs noirs de notre échantillon, un point sur lequel nous reviendrons ci-dessous. Pour ajouter plus de détails aux taux d'erreur moyens discutés ci-dessus, nous considérons ensuite la distribution complète des taux d'erreur parmi nos populations de locuteurs blancs et noirs. Pour ce faire, pour chaque extrait, nous calculons d'abord le WER moyen sur les cinq ASR que nous considérons. La figure 2 trace la distribution de ce WER moyen sur des extraits, désagrégés par race. En particulier, la figure 2 montre la fonction de distribution cumulative complémentaire (CCDF) : pour chaque valeur de WER sur l'axe horizontal, elle montre la proportion d'extraits ayant un taux d'erreur au moins aussi élevé. Par exemple, plus de 20 % des extraits de locuteurs noirs ont un taux d'erreur d'au moins 0,5 ; en revanche, moins de 2% des extraits de locuteurs blancs sont au-dessus de ce seuil. Ainsi, si l'on considère qu'un WER de 0,5 est la barre d'une transcription utile, plus de 10 fois plus d'extraits de locuteurs noirs ne répondent pas à cette norme. En ce sens, les disparités raciales que nous constatons sont encore plus importantes que celles indiquées par les différences moyennes dans le WER seul. Fig. 2. Le CCDF indique la part des extraits audio ayant un WER supérieur à la valeur spécifiée le long de l'axe horizontal. Les deux CCDF affichés pour les extraits audio par des haut-parleurs blancs (bleu) par rapport à ceux par des haut-parleurs noirs (rouge) utilisent le WER moyen sur les cinq services ASR testés. Si nous supposons qu'un WER> 0,5 implique qu'une transcription est inutilisable, alors 23% des extraits audio de locuteurs noirs entraînent des transcriptions inutilisables, alors que seulement 1,6% des extraits audio de locuteurs blancs entraînent des transcriptions inutilisables. Nous examinons ensuite la variation du taux d'erreur selon le lieu. Les locuteurs noirs de notre échantillon apparié ont été interrogés à Princeville (n = 21) ; Washington, DC ( n = 39 ); et Rochester ( n = 13 ); les locuteurs blancs ont été interrogés à Sacramento (n = 17) et dans le comté de Humboldt (n = 25). Comme ci-dessus, nous calculons d'abord le WER moyen pour chaque extrait sur les cinq ASR. La figure 3 résume la distribution de ces taux d'erreur moyens pour chaque emplacement sous forme de boîte à moustaches, les lignes centrales de chaque boîte indiquant le taux d'erreur médian et les points terminaux indiquant la plage interquartile. Les taux d'erreur médians à Princeville (0,38) et à Washington, DC (0,31) sont considérablement plus élevés que ceux de Sacramento et de Humboldt (0,18 et 0,15, respectivement). Cependant, le taux d'erreur dans le troisième site AAVE, Rochester (0,20), est comparable aux taux d'erreur dans les deux sites californiens avec des locuteurs blancs. Fig. 3. Pour chaque extrait audio, nous avons d'abord calculé le taux d'erreur moyen sur les cinq services ASR que nous considérons : Amazon, Apple, Google, IBM et Microsoft. Ces WER moyens ont ensuite été regroupés par lieu d'interview, avec les distributions résumées dans les boîtes à moustaches ci-dessus. Dans les trois sites AAVE, indiqués par un fond gris (Princeville, NC ; Washington, DC ; et Rochester, NY), les taux d'erreur sont généralement plus élevés que dans les deux sites blancs (Sacramento, CA, et Humboldt, CA), bien que les taux d'erreur à Rochester sont comparables à ceux de Sacramento. Pour mieux comprendre les schémas géographiques décrits ci-dessus, en particulier les résultats anormaux à Rochester, nous avons codé à la main un échantillon aléatoire de 150 extraits de locuteurs noirs pour l'utilisation des caractéristiques linguistiques AAVE, avec 50 extraits codés à partir de chacun des trois sites d'entretien AAVE. Plus précisément, pour chaque extrait, nous avons compté le nombre de caractéristiques phonologiques et grammaticales caractéristiques du discours AAVE, puis normalisé ce nombre par le nombre de mots dans l'extrait, ce qui a donné une mesure de densité de dialecte (DDM). Nous constatons que le DDM moyen est le plus bas à Rochester (0,047) - et également relativement petit sur une échelle absolue - suivi de Washington, DC (0,088) et de Princeville (0,19), reflétant l'ordre des taux d'erreurs de mots par emplacement vu sur la Fig. 3. Les différences par paires de DDM selon le lieu sont statistiquement significatives, avec P < 0,05 dans tous les cas. Dans la figure 4, nous examinons directement la relation entre DDM (sur l'axe horizontal) et WER (sur l'axe vertical), ce qui illustre la corrélation positive entre DDM et les taux d'erreur. Bien que de nombreux facteurs affectent les taux d'erreur, ces résultats suggèrent que les modèles spécifiques à l'emplacement que nous observons sont, au moins en partie, dus aux différences dans le degré d'utilisation de l'AAVE parmi les locuteurs de notre échantillon. Étant donné le nombre relativement faible de locuteurs dans chaque lieu, nous ne pouvons pas déterminer si ces modèles sont représentatifs de différences géographiques plus générales dans le dialecte ou sont simplement des tendances idiosyncratiques dans notre échantillon particulier de locuteurs. Fig. 4. La relation entre une mesure de la densité dialectale (DDM, sur l'axe horizontal) et le taux d'erreur ASR moyen (WER, sur l'axe vertical) pour un échantillon aléatoire de 50 extraits dans chacun des trois sites AAVE que nous considérons. Les lignes verticales en pointillés indiquent le DDM moyen à chaque emplacement. La ligne noire pleine montre une régression linéaire ajustée aux données et indique que les locuteurs qui présentent plus de caractéristiques linguistiques caractéristiques de l'AAVE ont tendance à avoir un WER plus élevé. Ce codage de la densité dialectale révèle également des différences de genre. Agrégé sur les trois sites AAVE, le DDM pour les locuteurs masculins est de 0,13 ( n = 52 ; SE : 0,02), contre 0,096 pour les locuteurs féminins ( n = 98 ; SE : 0,01). Comme pour l'emplacement, ce modèle est conforme au taux d'erreur ASR plus élevé pour les locuteurs masculins discuté ci-dessus. Nous concluons en étudiant deux mécanismes possibles qui pourraient expliquer les disparités raciales que nous observons : 1) un écart de performance dans les « modèles de langage » (modèles de lexique et de grammaire) sous-jacents aux systèmes ASR modernes ; et 2) un écart de performance dans les modèles acoustiques sous-jacents à ces systèmes. Comme nous en discutons ensuite, nous trouvons des preuves d'un écart dans les modèles acoustiques, mais pas dans les modèles linguistiques. Les systèmes de reconnaissance vocale ont généralement un vocabulaire fixe, bien que potentiellement assez volumineux, qui constitue la base des transcriptions. En théorie, il est possible que les locuteurs noirs de notre échantillon utilisent plus souvent des mots qui ne sont tout simplement pas inclus dans le vocabulaire des systèmes ASR que nous étudions, ce qui, s'il est vrai, pourrait expliquer les disparités raciales que nous observons. Pour examiner cette hypothèse, nous reconstruisons d'abord approximativement le lexique de chacun des cinq systèmes ASR en agrégeant tous les mots uniques qui apparaissent dans les transcriptions de chaque ASR, en combinant les transcriptions pour les locuteurs noirs et blancs. Ces lexiques approximatifs sont un sous-ensemble de la vraie liste, car les systèmes ASR peuvent avoir dans leurs vocabulaires des mots qui n'ont jamais été prononcés par nos locuteurs (ou qui n'ont jamais été correctement reconnus). Par exemple, on retrouve 8 852 mots distincts qui apparaissent au moins une fois dans les transcriptions produites par l'ASR de Google. Maintenant, nous calculons la proportion de mots dans les transcriptions humaines de vérité terrain - y compris les instances répétées - qui sont présentes dans les vocabulaires de la machine reconstruits. Pour les locuteurs blancs et noirs, et dans les cinq systèmes ASR, 98 à 99% des mots prononcés sont dans les vocabulaires reconstruits. Par exemple, sur les 104 486 mots prononcés par des locuteurs noirs de notre échantillon, l'ASR de Google en avait au moins 103 142 (98,7 %) dans son vocabulaire ; en comparaison, sur les 98 653 mots prononcés par les personnes blanches de notre échantillon, au moins 97 260 (98,6 %) faisaient partie du vocabulaire. Ces différences lexicales modestes ne semblent pas assez importantes pour expliquer l'écart substantiel dans les taux d'erreur globaux que nous constatons - et, en effet, une fraction légèrement supérieure des mots prononcés par les membres noirs de l'échantillon se trouve dans le vocabulaire machine que celle des membres blancs de l'échantillon. Nous étudions ensuite les disparités raciales potentielles dans le modèle informatique complet du langage utilisé par les systèmes ASR. À un niveau élevé, les modèles de langage prédisent le mot suivant dans une séquence en fonction des mots précédents dans cette séquence. Par exemple, étant donné la phrase incomplète "le chien a sauté par-dessus le ——", un modèle de langage peut estimer qu'il y a 5 % de chances que le mot suivant soit "clôture". La mesure de performance standard pour les modèles de langage est la perplexité, qui peut être considérée en gros comme le nombre de continuations raisonnables d'une phrase sous le modèle. En conséquence, les meilleurs modèles de langage ont une plus faible perplexité. Formellement, étant donné un modèle de langage M et une séquence de mots x 1 , … , x N (correspondant, dans notre cas, à une transcription humaine de vérité-terrain d'un extrait audio), la perplexité est : exp − 1 N − 1 ∑ i = 2 N log P M ( x je ∣ x je − 1 , … , x 1 ) , [2]où P M ( x je ∣ x je − 1 , … , x 1 ) est la probabilité conditionnelle attribuée par le modèle au mot à l'indice i. Les modèles de langage exacts sous-jacents aux systèmes ASR commerciaux ne sont pas facilement disponibles. Cependant, il est probable que ces systèmes utilisent des modèles de langage qui ont des propriétés statistiques similaires aux modèles de pointe qui sont accessibles au public, comme Transformer-XL (30), GPT (31) et GPT-2 (32) . Nous examinons donc les disparités raciales potentielles dans ces trois modèles, en utilisant les versions accessibles au public qui ont été pré-entraînées sur de grands corpus de données textuelles. ‡ Dans les trois modèles linguistiques, nous constatons que la perplexité moyenne des extraits par les locuteurs noirs est inférieure, ce qui signifie de meilleures performances, que la perplexité moyenne des extraits par les locuteurs blancs de notre échantillon. En particulier, Transformer-XL a une perplexité de 115 pour les haut-parleurs noirs contre 153 pour les haut-parleurs blancs ; GPT a une perplexité de 52 et 68 pour les locuteurs noirs et blancs, respectivement ; et GPT-2 a une perplexité de 45 et 55, respectivement. Ces trois modèles de langage - et, par extension, probablement les modèles de langage utilisés dans les systèmes ASR commerciaux - sont, en moyenne, mieux à même de prédire les séquences de mots prononcées par les individus noirs de notre échantillon que celles prononcées par les individus blancs. Pour étudier ce résultat, nous considérons un échantillon de phrases prononcées par des locuteurs noirs dans notre ensemble de données qui présentent une caractéristique grammaticale commune de l'AAVE : l'absence de copule ou l'omission du verbe « être ». Par exemple, un locuteur noir de notre corpus a dit "il est pasteur", plutôt que d'utiliser la formulation anglaise standard, "il est pasteur". Dans le tableau 1, nous énumérons une sélection représentative de cinq phrases AAVE de ce type tirées de l'ensemble d'extraits codés pour la densité du dialecte (discuté ci-dessus). Nous calculons la perplexité à la fois de la phrase originale et d'une version modifiée dans laquelle la copule est insérée pour se conformer à la convention de l'anglais standard. Pour simplifier, la perplexité est calculée sous le modèle de langage GPT-2, bien que les résultats soient qualitativement similaires sous GPT-1 et Transformer-XL. Tableau 1. Perplexité pour la formulation en anglais standard, avec la copule en gras, et la formulation AAVE, sans la copule en gras Pour les cinq phrases répertoriées, la perplexité de la formulation AAVE originale est considérablement plus grande que la perplexité de la formulation en anglais standard. Par exemple, « il est pasteur » a une perplexité de 305, contre 67 pour « il est pasteur ». Les modèles linguistiques que nous considérons semblent donc présenter une préférence statistique pour l'inclusion de la copule en anglais standard par rapport à l'absence de copule AAVE. Compte tenu de ce comportement, la perplexité moyenne globale inférieure pour les extraits de locuteurs noirs semble encore plus surprenante. Nous pensons que cette différence est au moins partiellement due au nombre relatif de mots uniques prononcés par les membres noirs et blancs de l'échantillon. Bien que la durée totale et le nombre de mots prononcés par les locuteurs noirs et blancs de notre échantillon soient similaires, les locuteurs noirs ont prononcé moins de mots uniques (5 651) que les locuteurs blancs (6 280). Toutes choses étant égales par ailleurs, un vocabulaire plus petit produit généralement une plus faible perplexité du modèle, car il est plus facile de prédire le mot suivant dans une séquence. § Notre enquête indique donc que les propriétés lexicales et grammaticales des systèmes ASR ne tiennent pas compte des grandes disparités raciales globales dans les WER. Au contraire, étant donné que ces extraits de locuteurs noirs ont moins de mots uniques et une perplexité moindre, ils devraient être plus faciles à transcrire pour les ASR. Ces résultats suggèrent que le problème pourrait plutôt résider dans les modèles acoustiques sous-jacents aux ASR. Pour examiner cette possibilité, nous comparons les taux d'erreur sur un ensemble de phrases courtes prononcées par des locuteurs noirs et blancs de notre échantillon qui ont des transcriptions humaines identiques. Nous nous limitons spécifiquement aux phrases composées d'au moins cinq mots prononcés par des personnes blanches et noires du même sexe et d'environ le même âge. Ce processus a produit 206 énoncés appariés de 5 à 8 mots (par exemple, « et puis beaucoup de » et « et ma mère était une »). Les taux d'erreur pour cet ensemble de phrases appariées sont présentés dans le tableau 2. Pour chacun des cinq systèmes ASR que nous considérons, les WER sont environ deux fois plus grands lorsque les phrases ont été prononcées par des individus noirs plutôt que par des blancs. Par exemple, avec l'ASR de Microsoft, qui offre les meilleures performances globales, le WER pour les haut-parleurs noirs est de 0,13 (SE : 0,01) contre 0,07 (SE : 0,01) pour les haut-parleurs blancs. Étant donné que les phrases elles-mêmes ont un texte identique, ces résultats suggèrent que les disparités raciales dans les performances ASR sont liées aux différences de prononciation et de prosodie - y compris le rythme, la hauteur, l'accentuation des syllabes, la durée des voyelles et la lénition - entre les locuteurs blancs et noirs. Discussion Comme indiqué ci-dessus, les systèmes de reconnaissance vocale automatisés modernes comprennent généralement un modèle de langage formé sur des données textuelles et un modèle acoustique formé sur des données audio. Nos résultats indiquent que les disparités raciales que nous observons proviennent principalement d'un écart de performance dans les modèles acoustiques, ce qui suggère que les systèmes sont confus par les caractéristiques phonologiques, phonétiques ou prosodiques de l'anglais vernaculaire afro-américain plutôt que par les caractéristiques grammaticales ou lexicales. La cause probable de cette lacune est l'insuffisance des données audio des haut-parleurs noirs lors de la formation des modèles. Les écarts de performances que nous avons documentés suggèrent qu'il est considérablement plus difficile pour les Afro-Américains de bénéficier de l'utilisation de plus en plus répandue de la technologie de reconnaissance vocale, des assistants virtuels sur les téléphones mobiles à l'informatique mains libres pour les personnes handicapées physiques. Ces disparités peuvent également nuire activement aux communautés afro-américaines lorsque, par exemple, un logiciel de reconnaissance vocale est utilisé par les employeurs pour évaluer automatiquement les entretiens avec les candidats ou par les agences de justice pénale pour transcrire automatiquement les procédures judiciaires. Une limite de notre étude est que les échantillons audio des locuteurs blancs et noirs provenaient de différentes zones géographiques du pays, les premiers étant collectés en Californie et les seconds dans l'est des États-Unis. En tant que tel, il est possible qu'au moins certaines des différences que nous observons soient le produit de variations linguistiques régionales plutôt qu'ethniques. Nous notons cependant deux raisons de croire que le discours AAVE lui-même est le moteur de nos résultats. Premièrement, le taux d'erreur de mots est fortement associé à la densité du dialecte AAVE, comme le montre la figure 4. Deuxièmement, les deux sites californiens de locuteurs blancs que nous considérons, Sacramento et Humboldt, présentent des taux d'erreur similaires malgré la diversité des modèles de discours régionaux à travers l'État. et les différences dans les contextes sociogéographiques de ces deux endroits - par exemple, Humboldt est une communauté rurale, tandis que Sacramento est la capitale de l'État. Néanmoins, nous espérons que les travaux futurs examineront les taux d'erreur parmi les locuteurs blancs et noirs de la même région. Nos résultats soulignent la nécessité pour la communauté de la reconnaissance vocale, y compris les fabricants de systèmes de reconnaissance vocale, les chercheurs universitaires en reconnaissance vocale et les sponsors gouvernementaux de la recherche vocale, d'investir des ressources pour s'assurer que les systèmes sont largement inclusifs. Un tel effort, selon nous, devrait impliquer non seulement une meilleure collecte de données sur le discours AAVE, mais également une meilleure collecte de données sur d'autres variétés d'anglais non standard, dont les locuteurs peuvent également être accablés par de mauvaises performances ASR - y compris ceux avec un anglais régional et non natif. accents. Nous pensons également que les développeurs d'outils de reconnaissance vocale dans l'industrie et le milieu universitaire devraient régulièrement évaluer et rendre compte publiquement de leurs progrès dans cette dimension. Avec l'adoption de systèmes de reconnaissance vocale susceptibles de croître au fil du temps, nous espérons que les entreprises technologiques et les autres participants dans ce domaine mettront au premier plan le développement équitable de ces outils importants. Matériels et méthodes Nous décrivons brièvement ci-dessous nos procédures de filtrage, de normalisation et d'appariement des données, ainsi que notre processus de mesure de la densité des dialectes. De plus amples détails sont fournis dans l'annexe SI. Données. Nos extraits audio proviennent de l'ensemble complet de 108 entretiens CORAAL et 109 entretiens VOC dans les cinq sites géographiques que nous considérons. Les entretiens CORAAL menés à Washington, DC, Rochester et Princeville ont été enregistrés en 2016, 2016 et 2004, respectivement ; et les entretiens VOC menés à Sacramento et Humboldt ont été enregistrés en 2014 et 2017, respectivement. La majorité de nos données proviennent de 2014 à 2017 - une période qui ne représente pas un intervalle de temps significatif pour l'analyse sociolinguistique - mais les données de Princeville ont été collectées une décennie plus tôt, en 2004. De même, les données de Princeville ont été enregistrées sur cassette, puis ensuite numérisés, tandis que les entretiens dans les autres sites ont tous été enregistrés à l'aide d'appareils numériques. Compte tenu des obstacles à l'assemblage de données provenant d'un grand nombre de locuteurs sur plusieurs sites de terrain, il n'est pas rare dans les études de dialectologie de combiner l'audio collecté au cours de différentes années et enregistré avec différents équipements. Bien qu'il soit important de reconnaître ces limites de la conception de notre étude, nous pensons qu'il est peu probable qu'elles aient un impact sur nos principaux résultats. Nous avons limité notre analyse aux entretiens d'adultes (plus de 18 ans) qui avaient généralement une bonne qualité audio (par exemple, sans bruit de fond significatif). Dans les données VOC, nous avons en outre limité les locuteurs blancs non hispaniques. Dans cet ensemble restreint d'entretiens, nous avons extrait les plus longs segments d'interviewés continus et complets qui duraient entre 5 et 50 s. En particulier, nous avons supprimé les segments audio contenant des interruptions ou des énoncés qui se chevauchent de l'intervieweur (ou d'autres personnes non interrogées, le cas échéant). Nous nous sommes également assurés que les extraits audio commençaient et se terminaient par des pauses naturelles, comme la fin d'une phrase. Nous avons limité notre analyse à des segments d'au plus 50 s, car certains des systèmes ASR que nous avons examinés ne pouvaient pas transcrire des fichiers audio plus longs. Ce processus a abouti à 4 449 extraits audio de haut-parleurs noirs et 4 397 extraits audio de haut-parleurs blancs. Ensuite, nous avons nettoyé les transcriptions humaines de vérité terrain pour assurer la cohérence entre les deux ensembles de données. Plus précisément, nous avons modifié les orthographes non standard : par exemple, nous avons changé les occurrences du mot « aks » en « ask », car aucun ASR n'épelle cet énoncé en utilisant la prononciation AAVE. Des indicateurs de contenu audio inintelligible (par exemple, une chaîne "/inintelligible/" apparaissant dans la transcription humaine de vérité au sol) apparaissent dans 16 % des extraits CORAAL et 11 % des extraits VOC. En règle générale, les systèmes ASR ignoraient simplement ces segments inintelligibles de l'extrait audio, et nous avons donc supprimé les drapeaux des transcriptions humaines. Nous avons également supprimé les drapeaux pour les mots expurgés et les marqueurs non linguistiques (par exemple, pour le souffle et le rire), car ceux-ci n'étaient pas transcrits par les systèmes ASR. Nous avons confirmé que nos résultats étaient presque identiques si, au lieu d'effectuer les opérations ci-dessus, les extraits de code au contenu douteux étaient entièrement supprimés. Certains mots spécifiques à un lieu prononcés dans CORAAL et VOC étaient particulièrement difficiles à épeler pour les systèmes ASR (par exemple, "Tarboro" et "Yurok"); les ASR ont régulièrement mal orthographié Humboldt comme «humble» ou «humilié». Nous avons comparé nos résultats avec ceux où tous les extraits contenant une liste de noms de villes difficiles à épeler prononcés dans les extraits audio ont été supprimés. Encore une fois, nos résultats n'ont pas changé de manière significative, car ces mots problématiques étaient relativement rares. Nous avons en outre standardisé toutes les transcriptions humaines et automatiques en utilisant les règles suivantes pour faciliter les calculs du taux d'erreur. Un espacement simple a été appliqué entre les mots; Les chiffres arabes ont été convertis en chaînes numériques ; les drapeaux indiquant une hésitation ont été retirés des transcriptions ; le signe « $ » a été remplacé par la chaîne « dollar » ; tous les autres caractères spéciaux et la ponctuation ont été supprimés ; les abréviations de direction cardinale (par exemple, "NW") ont été remplacées par des mots complets (par exemple, "Northwest"); les noms complets des États ont été remplacés par leurs abréviations à deux lettres ; et tous les mots ont été convertis en minuscules. De plus, certaines orthographes ont été normalisées : par exemple, "cuz", "ok", "o", "till", "imma", "mister", "yup", "gona" et "tryna" étaient, respectivement, remplacé par "cause", "ok", "oh", "jusqu'à", "ima", "monsieur", "yep", "va" et "essaye de"). Enfin, nous avons supprimé les mots de remplissage (« um », « uh », « mm », « hm », « ooh », « woo », « mhm », « huh », « ha ») et les jurons parce que les systèmes ASR traiter ces mots différemment les uns des autres (par exemple, en les supprimant des sorties de transcription), de la même manière que différents transcripteurs humains pourraient également les traiter subjectivement. Enfin, nous avons limité notre analyse aux extraits avec un nombre de mots de vérité au sol nettoyé d'au moins cinq mots. L'ensemble de ce processus de filtrage et de nettoyage a produit un ensemble de 4 445 extraits audio par 73 haut-parleurs noirs et 4 372 extraits audio par 51 haut-parleurs blancs, totalisant 39,8 h d'audio. Sur cet ensemble restreint d'extraits, nous avons calculé les WER générés par chaque ASR. Plus précisément, le WER a été calculé entre la version nettoyée de la transcription originale de l'extrait de code (de CORAAL ou VOC) et la version nettoyée de chaque transcription générée par ASR. Notre analyse statistique principale était basée sur un sous-ensemble d'extraits correspondants, comme décrit ci-après. Correspondant à. Nous avons utilisé la correspondance des scores de propension pour sélectionner un sous-ensemble d'extraits audio de locuteurs blancs et noirs avec des distributions similaires d'âge, de sexe et de durée d'extrait. Cette restriction nous a permis de nous concentrer sur les disparités raciales, car l'âge et le sexe sont également connus pour avoir un impact sur les performances des systèmes ASR (28, 29). L'appariement a été effectué avec le package R MatchIt (33), avec des scores de propension estimés via un modèle de régression logistique sur les données combinées des locuteurs noirs et blancs. Plus précisément, dans notre modèle de score de propension, nous avons régressé un indicateur de race sur les covariables suivantes : variables indicatrices pour les tranches d'âge de 10 ans pour les âges de 25 à 94 ans (par exemple, 25 à 34 ans et 35 à 44 ans) ; âge entier ; une variable indicatrice pour le sexe; et logarithme naturel de la longueur de l'extrait de code, mesuré en secondes. L'appariement du plus proche voisin sans remplacement a été effectué sur les scores de propension, avec un calibre de 0,001. L'ensemble final d'extraits audio correspondants est composé de 2 141 extraits de 73 haut-parleurs noirs et d'un nombre égal d'extraits de 42 haut-parleurs blancs, correspondant à 19,8 heures d'audio au total. Comme le montre l'annexe SI, Fig. S1, les échantillons appariés d'extraits en noir et blanc - dans la rangée du bas, par opposition aux échantillons pré-appariés dans la rangée du haut - ont des distributions étroitement alignées sur nos trois covariables cibles : l'âge du locuteur, le sexe du locuteur , et durée. Mesurer la densité des dialectes. Nous avons utilisé un DDM pour déterminer le nombre relatif de fonctionnalités AAVE utilisées dans un extrait audio donné, en divisant le nombre total de fonctionnalités dialectales par le nombre de mots dans l'extrait. La plupart des études précédentes utilisant les DDM se sont concentrées sur la complexité syntaxique de l'AAVE (34, 35). Pour cette étude, cependant, nous avons modifié cette approche pour tenir compte à la fois de la grammaire et de la phonologie de l'AAVE, les caractéristiques grammaticales et phonologiques ayant un poids égal. Les DDM ne capturent pas l'ensemble du système linguistique d'un locuteur (36, 37), mais, dans notre contexte, la mesure que nous utilisons donne un aperçu des moteurs des écarts de performance ASR que nous observons. Dans notre analyse primaire, un sous-ensemble de 150 extraits a été annoté par un linguiste familier avec AAVE. L'annotateur a écouté un extrait et enregistré chaque caractéristique phonologique AAVE et caractéristique grammaticale. Par exemple, dans l'extrait de Princeville « Eh bien, à cette époque, c'était Carolina Enterprise, mais il a changé de nom », il y a cinq caractéristiques AAVE (trois phonologiques et deux grammaticales) : 1) suppression de la consonne finale dans « at » ; 2) fricative initiale de la syllabe s'arrêtant en "cela" ; 3) vocalisation du/r/ postvocalique en « entreprise » ; 4) absence de pluriel -s dans "nom" ; et 5) et complétive "fait" dans "ça a changé". Étant donné que l'extrait comporte 13 mots, le DDM est de 5/13 = 0,38. La liste complète des fonctionnalités AAVE que nous avons étiquetées est basée sur des travaux antérieurs (23⇓–25) et est présentée dans l'annexe SI, les tableaux S2 et S3. Sur l'ensemble complet de 150 extraits codés, la longueur moyenne était de 47 mots, avec 3,5 caractéristiques phonologiques et 0,5 caractéristiques grammaticales, en moyenne ; le DDM moyen était de 0,11. Pour évaluer la fiabilité interévaluateur, nous avons comparé les scores DDM du codeur principal avec ceux de deux autres sociolinguistes formés sur un ensemble de test de 20 extraits - 10 extraits pour chacun des deux codeurs secondaires. La corrélation de Pearson entre le codeur primaire et les deux codeurs secondaires était de 0,92 et 0,74, respectivement, indiquant un accord élevé.