Introduction Cet article complémentaire à notre [histoire] principale (https://features.propublica.org/aggression-detector/the-unproven-invasive-surveillance-technology-schools-are-using-to-monitor-students) décrit les tests et analyse de données réalisés par ProPublica pour l'algorithme de détection d'agression Sound Intelligence sur le microphone Louroe Digifact A. Ici, nous discutons des données et de la méthodologie utilisées pour notre recherche, ainsi que des résultats de nos tests et analyses. Ces résultats suscitent des inquiétudes quant à l'appareil, notamment pour les milieux scolaires pour lesquels il est commercialisé et vendu. Nous avons d'abord testé l'appareil dans des situations simulées pour mesurer ses performances dans des scénarios réels et collecté des vocalisations spontanées et simulées d'élèves du secondaire. Nous avons ensuite analysé les types de sons que l'algorithme a trouvés agressifs et déterminé, pour ces sons, certaines caractéristiques audio communes. Nous considérons cette analyse comme une exploration initiale de l'algorithme, utilisant le son qu'il rencontrerait probablement en fonctionnement, plutôt qu'une évaluation définitive. ## Résumé des résultats Nos tests et analyses ont révélé : L'algorithme produisait fréquemment de faux positifs (fausses découvertes d'agressivité) pour des sons tels que rire, tousser, applaudir et discuter à voix haute. Certains types de cris qui, selon nous, déclencheraient l'algorithme, en particulier les cris aigus, n'ont souvent pas réussi à le faire. Certaines personnes que nous avons testées, en particulier les lycéennes, avaient tendance à déclencher des faux positifs en chantant, en riant et en parlant. La colère et l'agressivité exprimées silencieusement, sans les marqueurs de tension vocale, n'ont pas déclenché l'algorithme. L'algorithme a tendance à se déclencher lorsqu'une vocalisation est plus aiguë et contient des caractéristiques audio qui correspondent généralement à un ton vocal rugueux ou à une tension vocale. # Description du système Selon nos recherches, nos tests et nos entretiens avec Sound Intelligence, le détecteur d'agression Louroe comprend : 1) un microphone, 2) un composant de traitement du son qui extrait les caractéristiques sonores de l'entrée audio brute, 3) un algorithme d'apprentissage automatique qui utilise ces fonctionnalités pour prédire l'agression verbale et 4) un composant de seuillage qui contient les paramètres de l'algorithme. Des dizaines de fois par seconde, le logiciel convertit le signal audio reçu par le microphone en fonctionnalités audio. Chaque ensemble de caractéristiques audio peut être considéré comme une trame sonore et est utilisé pour prédire si ce segment de l'entrée sonore est agressif. Selon nos recherches et entretiens avec Sound Intelligence, le volume sonore n'est pas une caractéristique utilisée par l'algorithme car il est directement lié à la distance du son au microphone, qui ne devrait pas être un facteur déterminant l'agressivité. Pour former le système, Sound Intelligence a étiqueté les trames audio d'événements agressifs et non agressifs et a utilisé ces trames étiquetées comme données de formation pour un algorithme de classification d'apprentissage automatique. Une fois formé, l'algorithme de classification génère un score allant de 0,0 à 1,0 pour chaque image en fonction de ses caractéristiques audio. Ce score représente une confiance globale pour identifier l'agressivité - de 0% à 100%. En fonctionnement, une confiance dépassant un seuil fixé sur une durée suffisamment longue se traduit par une prédiction d'agression par le dispositif. L'appareil dispose également de paramètres de seuil qui sont utilisés pour affiner l'algorithme en fonctionnement. Cependant, les qualités des sons qui déclenchent l'appareil sont déterminées lors de l'apprentissage et paramétrées une fois qu'il est installé sur l'appareil. En d'autres termes, bien que le réglage fin modifie le comportement de l'appareil, il ne modifie pas les types de sons que l'appareil corrèle avec les inférences d'agressivité. La diminution de la sensibilité de l'appareil augmente simplement les seuils de confiance et de temps qui doivent être atteints pour déclencher une alarme. En pratique, cela peut augmenter le risque de faux négatifs - des cas où l'algorithme devrait se déclencher mais ne le fait pas. Le même type d'algorithme Sound Intelligence est utilisé dans tous les microphones Digifact A de Louroe, quel que soit l'environnement (hôpitaux, écoles, prisons, etc.) dans lequel ils sont installés. Alors que Sound Intelligence commercialise son algorithme comme détectant l'agression, l'algorithme cherche en fait également à signaler les cas de détresse et de tension vocales (par exemple, lorsqu'il est déclenché, la page Web de l'algorithme affiche l'avertissement "StressedVoice détecté"). Aux fins du présent document, nous appelons toutes ces vocalisations déclenchantes « agressives ». # Test du système Nos tests visaient à simuler le plus fidèlement possible l'environnement d'exploitation réel de l'appareil. Nous avons acheté un microphone Louroe Digifact A et obtenu une licence pour l'algorithme de détection d'agression. Nous avons ensuite recâblé l'appareil de sorte qu'au lieu de surveiller l'environnement environnant, nous puissions également entrer le son directement dans l'appareil à partir de n'importe quel enregistrement audio. Cela nous a permis soit de surveiller la mesure de l'agressivité de l'appareil en temps réel, soit de tester des clips audio enregistrés. L'audio enregistré a été lu dans l'appareil pour mesurer de manière reproductible l'agression prédite. Nous avons conçu un protocole pour tester les performances de l'appareil sur les voix des étudiants avec l'aide du conseiller en données de ProPublica, le Dr Heather Lynch. # Essais sur le terrain L'objectif des essais sur le terrain était de capturer, aussi précisément que possible, comment l'appareil réagirait aux sons en fonctionnement réel. ## Données et méthodologie Nous avons installé les dispositifs de test à une hauteur et à un emplacement conformes à un document d'orientation fourni par Sound Intelligence. Nous avons enregistré des extraits sonores à l'aide du Louroe Verifact A - un appareil avec la même sensibilité de microphone et la même réponse en fréquence que le Louroe Digifact A mais sans détecteur d'agression intégré. (Le Digifact contient un appareil Orange Pi intégré qui exécute le détecteur d'agression sur un système d'exploitation Linux épuré.) Cela nous a permis de collecter de l'audio avec un microphone ayant des caractéristiques de réponse en fréquence similaires au microphone Digifact et dans l'acoustique d'un espace où un tel dispositif serait déployé. Le son a été enregistré à partir du Verifact A dans un format haute fidélité. Nous avons utilisé cette configuration pour enregistrer le son dans deux lycées : Frank Sinatra School of the Arts dans le Queens, New York, et Staples Pathways Academy à Westport, Connecticut. Nous avons enregistré 26 étudiants en deux sessions dans le Queens et 14 étudiants en une session à Westport. Les élèves étaient âgés de 15 à 18 ans. Dans chaque école, nous avons installé l'appareil au plafond et enregistré les élèves dans une zone commune pendant qu'ils jouaient à des jeux tels que Pictionary. Nous avons également testé et enregistré des paires d'étudiants dans une salle latérale plus petite où un appareil était installé au plafond. Lors de cette épreuve en binôme, les élèves ont mis en scène des situations de peur, de frustration et de colère tirées de bandes dessinées. Ils ont également chanté des chansons non répétées et tenté de crier de manière agressive. Au cours de cet enregistrement en couple, certaines des vocalisations, en particulier les cris, étaient trop fortes pour le Verifact A et ont déformé son enregistrement - un phénomène connu sous le nom de "clipping". Il s'agit d'un problème potentiel commun à tout microphone où le son est trop fort ou trop proche du microphone. Pour tenir compte de ce problème, nous avons retesté un certain nombre d'étudiants à une date ultérieure dans un environnement où l'audio enregistré était moins susceptible d'être coupé. Nous avons ensuite ignoré tous les enregistrements de paires ayant un écrêtage substantiel. Au total, nous avons enregistré plus de trois heures de son avec les micros Louroe dans les deux écoles. ## Résultats des tests de groupe L'algorithme s'est fréquemment déclenché pendant les deux heures environ d'enregistrement de groupe, au cours desquelles nous n'avons observé aucune agression réelle ou simulée. Un certain nombre de vocalisations différentes ont déclenché l'algorithme; y compris des acclamations, des rires bruyants et des élèves criant des réponses. Cela suggère que l'algorithme est incapable de faire la distinction entre les caractéristiques vocales associées à l'enthousiasme et à l'exubérance par opposition à une véritable peur ou agression. Des discussions bruyantes déclenchaient parfois aussi des prédictions d'agression. Étant donné que nous n'avons observé aucune agression lors des tests de groupe, nous avons considéré tous les déclencheurs comme des faux positifs - des inférences de comportement agressif là où il n'y en avait pas. Nous avons compilé le nombre de ces faux positifs ci-dessous, organisés par la vocalisation qui a déclenché l'alarme. Un environnement scolaire contient une grande variété d'environnements et de contextes sociaux dans lesquels l'appareil est censé fonctionner. Bien que nous ne considérions pas ce taux de fausses alarmes comme représentatif de la fréquence des faux positifs en fonctionnement, les résultats de nos tests de groupe montrent que l'algorithme génère de fréquentes fausses alarmes dans un scénario scolaire courant. ## Résultats des tests en binôme Lors de nos tests avec des binômes d'élèves, nous avons constaté que des rires, des chants et la toux d'un élève ont déclenché l'appareil. Il y a également eu de nombreux cas de cris ou de cris qui n'ont pas déclenché l'appareil, en particulier des cris aigus ou qui ne contenaient pas les marqueurs de distorsion de la voix. Nous tabulons ci-dessous un certain nombre de catégories de vocalisations. Lors des tests en binôme, les élèves ont simulé des cris ou des cris agressifs et craintifs et ont également été invités à chanter. Cependant, ils n'ont pas simulé le rire ou la toux - il s'agissait de vocalisations spontanées enregistrées lors des tests. Nous reconnaissons qu'il peut y avoir des différences entre les cris et cris agressifs simulés et réels, et le détecteur d'agression ne devrait déclencher une alarme que pour les vocalisations authentiques. Pour en tenir compte, nous avons noté si les extraits sonores de cris étaient suffisamment agressifs. Dans nos données de test, nous avons trouvé de nombreux extraits sonores agressifs où l'appareil ne répondait pas. Nous avons considéré ces cas comme des faux négatifs. En particulier, l'appareil avait tendance à ignorer les cris aigus. Nous avons également trouvé 27 cas où la parole normale a faussement déclenché l'algorithme. En particulier, il y avait deux étudiantes dont les voix déclenchaient régulièrement l'appareil en riant, en chantant ou en parlant. ## Discussion Nos tests ont été conçus pour comprendre les performances de l'algorithme sur le terrain. Étant donné la grande variation entre les voix des individus et la manière dont les états émotionnels sont vocalisés, nos tests ne sont ni exhaustifs ni complets. Cependant, ces résultats identifient des faiblesses apparentes dans l'algorithme. Nous avons trouvé de nombreux cas où l'appareil semblait faire des erreurs, que ce soit en prédisant une agression là où il n'y en avait pas (faux positifs) ou en ne se déclenchant pas quand il aurait dû (faux négatifs). Le nombre élevé de faux positifs combiné à de faux négatifs suggère que l'appareil est souvent incapable de différencier de manière fiable les cas réels d'agression et les vocalisations bénignes. La tendance de l'algorithme à mal caractériser les événements peut également conduire à un réglage fin qui réduit la sensibilité de l'appareil à un niveau où des incidents autrement agressifs seraient négligés. # Analyse des données Nous avons examiné de plus près les clips enregistrés lors du test par paires pour en savoir plus sur ce qui tend à déclencher l'algorithme. Nous avons examiné les images sonores par rapport aux mesures d'agressivité de l'algorithme. Semblable à l'appareil, nous avons ensuite calculé les caractéristiques de chaque image sonore. Nous avons agrégé les caractéristiques sonores pour comprendre, à un niveau élevé, les caractéristiques du son considérées comme agressives par l'algorithme. ## Analyse d'une trame sonore Pour analyser le son, nous commençons par les trames sonores individuelles qui composent un clip audio. Une trame sonore peut être représentée par son signal audio brut (une onde représentant l'amplitude sonore sur la trame sonore) ou par des calculs sur ce signal. Une représentation couramment utilisée dans l'analyse audio est le spectre de fréquences - obtenu en calculant l'amplitude de la trame sonore brute à chaque fréquence. Toute image sonore peut être entièrement représentée dans le domaine temporel (le signal audio) ou dans le domaine fréquentiel (le spectre) et transformée entre les deux. Les spectres des trames sonores individuelles peuvent être combinés au fil du temps pour produire une représentation visuelle appelée spectrogramme. Un spectrogramme trace les composantes de fréquence des trames sonores au fil du temps, ce qui peut révéler de nombreux détails sur le son, tels que la hauteur et la qualité de la tonalité. Nous avons examiné les spectrogrammes pour un certain nombre de vocalisations différentes afin de comprendre quels types de sons ont tendance à déclencher l'algorithme. L'axe des x est le temps de l'enregistrement sonore et l'axe des y est la composante de fréquence. Une zone plus claire indique que l'amplitude de la composante de fréquence à ce moment est plus élevée. Vous trouverez ci-dessous un spectrogramme de parole pour deux étudiants lorsqu'ils se présentent : l'étudiant A à 0,1 seconde et l'étudiant B à 1,1 seconde. Ce sont des exemples de parole normale ayant un ton relativement clair et peu de distorsion auditive. L'algorithme a donné à ce discours un score d'agressivité faible et n'a pas déclenché d'alarme. Des stries claires et distinctes sont visibles dans la partie basse fréquence (en bas) du spectrogramme. Ceux-ci représentent les composantes de fréquence les plus fortes du discours des élèves. La bande la plus basse (fréquence la plus basse) pour chaque haut-parleur est la fréquence fondamentale, ou la hauteur perçue d'une voix. Des bandes brillantes successives à intervalles réguliers au-dessus du fondamental représentent les harmoniques de la parole. Des intervalles plus larges entre ces bandes indiquent une hauteur plus élevée, et nous pouvons voir que la voix de l'élève B est plus aiguë. Plus ces bandes sont distinctes, plus la parole sera claire (bien que de nombreux facteurs affectent la clarté de la parole). Il y a également une baisse assez nette de la luminosité (intensité sonore) dans les composants de fréquence plus élevée du spectrogramme pour les deux énoncés. Cette caractéristique est représentative des sons de la parole. Les bandes harmoniques ont une plus grande séparation ici, ce qui indique un ton plus élevé pour l'élève A que son énoncé précédent. Nous voyons un plus grand nombre de bandes dans les fréquences harmoniques, ce qui est perçu comme un son plus intense. Il existe également des bandes plus lumineuses dans la partie supérieure du spectrogramme, ce qui montre un meilleur équilibre entre les composants de fréquence inférieure et supérieure. Cet équilibre est connu sous le nom d'inclinaison spectrale plus plate - une qualité souvent associée aux voix accentuées. Cependant, les bandes sonores restent distinctes et bien définies, ce qui indique que la parole a un ton clair sans trop de distorsion. Bien que ce clip sonore ait une mesure d'agressivité plus élevée, il a finalement été classé comme non agressif par l'algorithme. Les annotateurs humains n'ont pas non plus trouvé ce cri simulé de manière convaincante agressif. Ce son a une intensité élevée dans les composants de fréquence plus élevée et affiche des bandes beaucoup moins distinctes par rapport aux exemples précédents. Cela indique une tension vocale chez le locuteur. La fréquence fondamentale et les harmoniques sont beaucoup moins bien définies, ce qui indique une distorsion audio et une tonalité beaucoup plus rugueuse du son. Cette caractéristique est également appelée blanchiment du spectre. Nous avons constaté que les trames audio avec des vocalisations plus aiguës (fréquence fondamentale plus élevée), des composantes de fréquence plus élevée (inclinaison spectrale plus plate) et qui contiennent des distorsions (blanchiment spectral) avaient tendance à déclencher l'algorithme. Les annotateurs humains ont trouvé ce cri simulé de manière convaincante agressif et l'algorithme a accepté. ## Analyse des erreurs Dans le même temps, nous avons identifié des cas où des cris aigus n'ont pas déclenché l'algorithme. Le cri ci-dessous est très aigu, a des composants à haute fréquence et contient le blanchiment du spectre qui indique une tension vocale. Cependant, l'algorithme n'a pas fourni de mesure d'agressivité supérieure à zéro pendant la majeure partie de la durée du son. Bien que ce soit l'un des sons qui avait l'une des mesures de hauteur et de distorsion les plus élevées, il ne contenait pas de motif que l'algorithme reconnaissait comme une voix agressive. Les modèles d'apprentissage automatique tels que l'algorithme de détection d'agression dépendent de la correspondance des modèles avec les données étiquetées qui sont alimentées lors de la formation. Si les données de formation utilisées n'incluaient pas d'exemples de cris, ou si le processus d'étiquetage n'a pas réussi à identifier ces bruits comme agressifs, l'algorithme peut ne pas caractériser correctement ces sons en fonctionnement. Interrogé sur les faux négatifs des cris aigus, Sound Intelligence a répondu qu'ils peuvent résulter du fait que l'appareil ne traite pas les composants audio à haute fréquence. Ils ont également cité la similitude potentielle des cris avec les cris de bébé dans leurs données d'entraînement, qu'ils ont qualifiées de non agressives. Nous avons également trouvé un certain nombre de cas où l'algorithme a déterminé que chanter, rire et tousser étaient agressifs. Nous fournissons quelques exemples de telles vocalisations ci-dessous. Dans chacun de ces spectrogrammes, il existe des preuves d'une inclinaison spectrale plus plate et d'un blanchiment spectral, en particulier par rapport à la parole normale. Nous avons également trouvé un certain nombre de cas où la parole énergétique activée (connue en psychologie sous le nom de parole à forte excitation) a déclenché l'algorithme. Les voix des femmes ont tendance à être deux fois plus élevées que celles des hommes. Nous avons constaté que chaque voix parlée dans le test par paire qui a déclenché l'algorithme appartenait à une étudiante. Il faudrait un grand nombre d'individus d'une gamme démographique complète pour former ou tester complètement l'efficacité de l'appareil dans toutes ses applications potentielles. Dans le même temps, la hauteur et la qualité tonale varient selon les voix individuelles, même pour les personnes du même groupe démographique. Le dispositif étant souvent installé dans les écoles, nous l'avons testé sur des populations étudiantes. Cependant, un ensemble de données plus complet avec une plus grande variété de voix améliorerait l'analyse et donnerait une meilleure compréhension des contours et de l'applicabilité universelle de l'algorithme sous-jacent. ## Calcul des caractéristiques Au lieu d'examiner le spectre des clips audio image par image, l'algorithme Sound Intelligence calcule un ensemble de caractéristiques à partir du spectre et les utilise pour faire la distinction entre l'audio agressif et non agressif. Dans notre analyse, nous calculons de la même manière des caractéristiques à partir de trames sonores qui représentent globalement certaines caractéristiques spectrales. Ces caractéristiques sont des résumés statistiques des caractéristiques d'un spectre qui peuvent nous permettre de différencier différentes trames sonores. Ils ont été tirés d'un examen de la recherche universitaire (y compris par Sound Intelligence) sur les caractéristiques audio couramment utilisées dans le domaine de la reconnaissance des effets vocaux et par la valeur prédictive des caractéristiques pour la sortie de l'algorithme. Cependant, ce ne sont pas les fonctionnalités exactes utilisées par l'algorithme Sound Intelligence. Nous avons plutôt choisi des fonctionnalités qui refléteraient largement les caractéristiques de hauteur et de tonalité d'un son. Nous avons précédemment noté des cas où des vocalisations plus aiguës ayant un ton plus rugueux et une tension vocale avaient tendance à déclencher l'algorithme. Nous calculons les caractéristiques qui correspondent à ces qualités : ### Caractéristiques relatives à la hauteur - Fréquence fondamentale : le pic avec la fréquence la plus basse dans le spectre sonore, qui est perçue comme hauteur par l'oreille humaine. - Peak Frequency : la fréquence du spectre avec la plus haute intensité. - Centroïde spectral : la moyenne des composantes fréquentielles d'un spectre, pondérée par l'intensité. ### Caractéristiques relatives à la qualité sonore - Spectral Rolloff : la fréquence de coupure en dessous de laquelle la majeure partie de l'énergie d'un son est contenue. Une atténuation spectrale plus élevée indique qu'il y a plus d'énergie dans les composantes à haute fréquence d'un son. - Planéité spectrale : une mesure de 0,0 à 1,0 pour la similitude d'un spectre avec le bruit blanc, qui a une planéité spectrale de 1,0. Nous avons agrégé les données des tests de paires et de groupes et pris un échantillon des caractéristiques de la trame sonore qui ont déclenché ou non le détecteur. Nous avons ensuite analysé ces données pour savoir quelles caractéristiques audio l'algorithme Sound Intelligence peut être en corrélation avec l'agressivité. La distribution des cinq caractéristiques discutées est indiquée sur le graphique ci-dessous le long des diagonales. La courbe orange représente les caractéristiques des sons que l'algorithme a trouvés agressifs, et la courbe bleue représente les sons non agressifs. Au fur et à mesure que les vocalisations devenaient plus aiguës, contenaient plus d'énergie dans les composantes de fréquence plus élevée et s'accompagnaient de mesures plus élevées pour le «blanchiment» du spectre sonore, l'algorithme avait généralement tendance à prédire l'agressivité. En examinant les paires de caractéristiques ensemble ci-dessus, nous pouvons voir une séparation encore meilleure entre les points de données que l'algorithme a trouvés agressifs (points orange) ou non (points bleus). Nous pouvons ainsi séparer visuellement les caractéristiques des trames sonores jugées agressives et non agressives par l'algorithme et identifier les plages et les combinaisons de caractéristiques sonores qui sont en corrélation avec une inférence d'agressivité. Les sons en dehors de ces plages, qu'ils soient supérieurs ou inférieurs, ne contiennent pas de caractéristiques que l'algorithme est entraîné à détecter comme une agression. ## Discussion Étant donné que l'algorithme fonctionne à partir de fonctionnalités audio et ne tient pas compte du contexte ou de la signification, les erreurs apparentes que nous avons trouvées sont prévisibles. Sound Intelligence reconnaît que le détecteur est imparfait, mais maintient que l'appareil est un système d'alerte précoce précieux, en particulier lorsqu'il est correctement calibré et testé dans des situations réelles. Bien que nous ayons examiné les performances de l'algorithme, nous devons noter qu'il ne s'agit pas d'une étude du fonctionnement réel de l'appareil. Ce test ne cherche pas non plus à mesurer si ce système est plus efficace que ce que nous considérons comme la référence : la perception, la communication et le jugement des élèves, des enseignants et des administrateurs scolaires. Les universitaires et les législateurs ont soulevé des questions sur l'utilisation des mégadonnées et des algorithmes comme substitut au jugement humain. Par exemple, quels types d'impacts disparates peuvent être créés par inadvertance par un algorithme ? Lorsqu'un algorithme attribue un blâme pour des raisons difficiles à comprendre, comment le système plus large empêche-t-il de punir un comportement innocent ? Quel degré de transparence doit être fourni aux surveillés sur les données d'entraînement et la conception de tels algorithmes ? Nous espérons que cette étude suscitera de nouvelles discussions et recherches sur les appareils d'analyse audio vendus au public et sur la prise de décision algorithmique en général. # Remerciements Nous tenons à remercier les personnes suivantes pour le temps et l'expertise qu'elles ont partagés lors de l'examen de notre travail. Leur examen ne constitue pas une approbation de nos méthodes ou de notre discussion, et toute erreur nous appartient. Dr Heather Lynch, professeure agrégée au Département d'écologie et d'évolution de l'Université de Stony Brook et conseillère en science des données de ProPublica. Dr Michael Mandel, professeur agrégé d'informatique et de sciences de l'information au Brooklyn College. Dr Maureen Lynch, membre, Environmental Data Initiative. Le Dr Shae Morgan, professeur adjoint d'audiologie à la faculté de médecine de l'Université de Louisville, a examiné séparément certaines des données audio utilisées dans cette méthodologie. La journaliste de données de ProPublica, Sophie Chou, a examiné le code et l'analyse.