Introducción Este artículo complementario a nuestra [historia] principal (https://features.propublica.org/aggression-detector/the-unproven-invasiva-surveillance-technology-schools-are-using-to-monitor-students) describe la pruebas y análisis de datos realizados por ProPublica para el algoritmo de detección de agresiones de Sound Intelligence en el micrófono Louroe Digifact A. Aquí, discutimos los datos y la metodología utilizados para nuestra investigación, así como los resultados de nuestras pruebas y análisis. Esos resultados plantean preocupaciones sobre el dispositivo, en particular para los entornos escolares para los que se comercializa y vende. Primero probamos el dispositivo en situaciones simuladas para medir su desempeño en escenarios del mundo real y recopilamos vocalizaciones espontáneas y simuladas de estudiantes de secundaria. Luego analizamos los tipos de sonidos que el algoritmo encontró agresivos y determinamos, para esos sonidos, algunas características de audio comunes. Vemos este análisis como una exploración inicial del algoritmo, utilizando el sonido que probablemente encontraría en funcionamiento, en lugar de una evaluación definitiva. ## Resumen de resultados Nuestras pruebas y análisis encontraron: El algoritmo con frecuencia producía falsos positivos (falsos hallazgos de agresión) para sonidos como risas, toses, vítores y discusiones en voz alta. Ciertos tipos de gritos que esperábamos activaran el algoritmo, en particular los gritos agudos, a menudo fallaban. Algunas personas que probamos, en particular estudiantes de secundaria, tendían a generar falsos positivos mientras cantaban, reían y hablaban. La ira y la agresión expresadas en voz baja, sin los marcadores de tensión de la voz, no activaron el algoritmo. El algoritmo tiende a activarse cuando una vocalización tiene un tono más alto y contiene características de audio que generalmente corresponden a un tono vocal áspero o tensión vocal. # Descripción del sistema De acuerdo con nuestra investigación, pruebas y entrevistas con Sound Intelligence, el detector de agresiones Louroe incluye: 1) un micrófono, 2) un componente de procesamiento de sonido que extrae características de sonido de la entrada de audio sin procesar, 3) un algoritmo de aprendizaje automático que usa esas características para predecir la agresión verbal y 4) un componente de umbral que contiene configuraciones para el algoritmo. Docenas de veces por segundo, el software convierte la señal de audio recibida por el micrófono en funciones de audio. Cada conjunto de funciones de audio puede considerarse un marco de sonido y se utiliza para predecir si ese segmento de la entrada de sonido es agresivo. Según nuestra investigación y entrevistas con Sound Intelligence, el volumen del sonido no es una característica utilizada por el algoritmo porque está directamente relacionado con la distancia del sonido al micrófono, lo que no debería ser un factor para determinar la agresividad. Para entrenar el sistema, Sound Intelligence etiquetó fotogramas de audio de eventos agresivos y no agresivos y utilizó esos fotogramas etiquetados como datos de entrenamiento para un algoritmo de clasificación de aprendizaje automático. Una vez entrenado, el algoritmo de clasificación genera una puntuación que va de 0,0 a 1,0 para cada cuadro en función de sus características de audio. Esta puntuación representa una confianza general para identificar la agresión, del 0 % al 100 %. En funcionamiento, una confianza que supera un umbral establecido durante un período de tiempo suficientemente largo da como resultado una predicción de agresión por parte del dispositivo. El dispositivo también tiene configuraciones de umbral que se utilizan para ajustar el algoritmo en funcionamiento. Sin embargo, las cualidades de los sonidos que activan el dispositivo se determinan durante el entrenamiento y se establecen una vez que se instala en el dispositivo. En otras palabras, mientras que el ajuste fino cambia el comportamiento del dispositivo, no cambia los tipos de sonidos que el dispositivo correlaciona con las inferencias de agresión. Reducir la sensibilidad del dispositivo simplemente aumenta la confianza y los umbrales de tiempo que deben cumplirse para activar una alarma. En la práctica, esto puede aumentar el riesgo de falsos negativos, casos en los que el algoritmo debería activarse pero no lo hace. El mismo tipo de algoritmo Sound Intelligence se utiliza en todos los micrófonos Digifact A de Louroe, independientemente del entorno (p. ej., hospitales, escuelas, prisiones, etc.) en el que estén instalados. Si bien Sound Intelligence comercializa su algoritmo para detectar agresiones, el algoritmo en realidad también busca señalar instancias de tensión y angustia vocal (por ejemplo, cuando se activa, la página web del algoritmo muestra la advertencia "StressedVoicedetected"). A los efectos de este documento, denominamos a todas esas vocalizaciones desencadenantes como “agresivas”. # Prueba del sistema Nuestras pruebas tenían como objetivo simular el entorno operativo del mundo real para el dispositivo lo más fielmente posible. Compramos un micrófono Louroe Digifact A y obtuvimos la licencia del algoritmo de detección de agresiones. Luego reconectamos el dispositivo para que, en lugar de monitorear el entorno circundante, también pudiéramos ingresar sonido directamente en el dispositivo desde cualquier grabación de audio. Esto nos permitió monitorear la medición de agresión del dispositivo en tiempo real o probar clips de audio grabados. El audio grabado se reprodujo en el dispositivo para medir de forma reproducible la agresión prevista. Diseñamos un protocolo para probar el rendimiento del dispositivo en las voces de los estudiantes con la ayuda de la asesora de datos de ProPublica, la Dra. Heather Lynch. # Pruebas de campo El objetivo de las pruebas de campo era capturar, con la mayor precisión posible, cómo respondería el dispositivo a los sonidos en funcionamiento real. ## Datos y metodología Instalamos los dispositivos para realizar pruebas en una altura y ubicación de acuerdo con un documento de orientación proporcionado por Sound Intelligence. Grabamos clips de sonido usando el Louroe Verifact A, un dispositivo con la misma sensibilidad de micrófono y respuesta de frecuencia que el Louroe Digifact A pero sin un detector de agresión integrado. (El Digifact contiene un dispositivo Orange Pi integrado que ejecuta el detector de agresión en un sistema operativo Linux reducido). Esto nos permitió recopilar audio con un micrófono que tiene características de respuesta de frecuencia similares al micrófono Digifact y en la acústica de un espacio donde tal dispositivo sería desplegado. El sonido fue grabado desde el Verifact A en un formato de alta fidelidad. Usamos esta configuración para grabar sonido en dos escuelas secundarias: la Escuela de Artes Frank Sinatra en Queens, Nueva York, y la Academia Staples Pathways en Westport, Connecticut. Grabamos a 26 estudiantes en dos sesiones en Queens ya 14 estudiantes en una sesión en Westport. Los estudiantes tenían entre 15 y 18 años. En cada escuela, instalamos el dispositivo en el techo y grabamos a los estudiantes en un área común mientras jugaban juegos como Pictionary. También probamos y grabamos parejas de estudiantes en una habitación lateral más pequeña donde se instaló un dispositivo en el techo. Durante esta prueba por parejas, los estudiantes representaron situaciones de miedo, frustración e ira de tiras cómicas. También cantaron canciones no ensayadas e intentaron gritar de manera agresiva. Durante la grabación de este par, algunas de las vocalizaciones, en particular los gritos, eran demasiado fuertes para el Verifact A y distorsionaron su grabación, un fenómeno conocido como "recorte". Este es un problema potencial común a cualquier micrófono donde el sonido es demasiado alto o demasiado cerca del micrófono. Para dar cuenta de este problema, volvimos a evaluar a varios estudiantes en una fecha posterior en un entorno donde era menos probable que se recortara el audio grabado. Luego descartamos cualquier grabación de pareja que tuviera un recorte sustancial. En total, grabamos más de tres horas de sonido con los micrófonos Louroe en las dos escuelas. ## Resultados de las pruebas grupales El algoritmo se activó con frecuencia durante las aproximadamente dos horas de grabación grupal, durante las cuales no observamos agresión real o simulada. Varias vocalizaciones diferentes activaron el algoritmo; incluyendo vítores, carcajadas y estudiantes gritando respuestas. Esto sugiere que el algoritmo es incapaz de distinguir entre las características vocales asociadas con el entusiasmo y la exuberancia frente al miedo o la agresión genuinos. La discusión en voz alta a veces también desencadenaba predicciones de agresión. Dado que no observamos ninguna agresión durante las pruebas grupales, consideramos cualquier desencadenante como falso positivo: inferencias de comportamiento agresivo donde no lo había. Tabulamos el número de tales falsos positivos a continuación, organizados por la vocalización que activó la alarma. Un entorno escolar contiene una amplia variedad de entornos y contextos sociales en los que se espera que funcione el dispositivo. Si bien no consideramos esta tasa de falsas alarmas como representativa de la frecuencia de falsos positivos en funcionamiento, los resultados de las pruebas de nuestro grupo muestran que el algoritmo genera frecuentes falsas alarmas en un escenario escolar común. ## Resultados de las pruebas en parejas Durante nuestras pruebas con parejas de estudiantes, encontramos algunos casos de risas, algunos cantos y la tos de un estudiante activaron el dispositivo. También hubo muchos casos de gritos o gritos que no activaron el dispositivo, particularmente gritos agudos o que no contenían los marcadores de distorsión de la voz. A continuación tabulamos una serie de categorías de vocalizaciones. Durante las pruebas por parejas, los estudiantes simularon gritos o gritos agresivos y temerosos y también se les pidió que cantaran. Sin embargo, no simularon la risa o la tos, fueron vocalizaciones espontáneas registradas durante la prueba. Reconocemos que puede haber diferencias entre los gritos y gritos agresivos reales y los simulados, y el detector de agresión solo debe generar una alarma para vocalizaciones genuinas. Para dar cuenta de esto, anotamos si los clips de sonido de los gritos eran lo suficientemente agresivos. En nuestros datos de prueba, encontramos muchos clips de sonido agresivos en los que el dispositivo no respondía. Consideramos tales casos como falsos negativos. En particular, el dispositivo tendía a ignorar los gritos agudos. También encontramos 27 casos en los que el habla normal activó falsamente el algoritmo. En particular, había dos alumnas cuyas voces activaban regularmente el dispositivo mientras reían, cantaban o hablaban. ## Discusión Nuestras pruebas se diseñaron para comprender el rendimiento del algoritmo en el campo. Dada la amplia variación entre las voces de los individuos y las formas en que se vocalizan los estados emocionales, nuestra prueba no es exhaustiva ni exhaustiva. Sin embargo, estos resultados identifican aparentes debilidades en el algoritmo. Encontramos muchos casos en los que el dispositivo parecía cometer errores, ya sea al predecir agresión donde no la había (falsos positivos) o al no activarse cuando debería haberlo hecho (falsos negativos). La gran cantidad de falsos positivos combinados con falsos negativos sugiere que el dispositivo a menudo no puede diferenciar de manera confiable entre instancias reales de agresión y vocalizaciones benignas. La tendencia del algoritmo a caracterizar erróneamente los eventos también puede conducir a un ajuste fino que reduce la sensibilidad del dispositivo a un nivel en el que, de otro modo, se pasarían por alto los incidentes agresivos. # Análisis de datos Echamos un vistazo más de cerca a los clips grabados durante la prueba de pares para obtener más información sobre lo que tiende a activar el algoritmo. Examinamos los marcos de sonido en comparación con las medidas de agresión del algoritmo. De manera similar al dispositivo, luego calculamos las características para cada cuadro de sonido. Agregamos las características del sonido para comprender, a un alto nivel, las características del sonido que el algoritmo considera agresivo. ## Análisis de un cuadro de sonido Para analizar el sonido, comenzamos con los cuadros de sonido individuales que componen un clip de audio. Un cuadro de sonido se puede representar mediante su señal de audio sin procesar (una onda que representa la amplitud del sonido sobre el cuadro de sonido) o mediante cálculos sobre esa señal. Una representación comúnmente utilizada en el análisis de audio es el espectro de frecuencias, que se obtiene calculando la amplitud del cuadro de sonido sin procesar en cada frecuencia. Cualquier cuadro de sonido se puede representar completamente en el dominio del tiempo (la señal de audio) o en el dominio de la frecuencia (el espectro) y transformarse entre los dos. Los espectros de cuadros de sonido individuales se pueden combinar con el tiempo para producir una representación visual llamada espectrograma. Un espectrograma traza los componentes de frecuencia de los cuadros de sonido a lo largo del tiempo, lo que puede revelar muchos detalles sobre el sonido, como el tono y la calidad del tono. Observamos los espectrogramas de varias vocalizaciones diferentes para comprender qué tipos de sonido tienden a activar el algoritmo. El eje x es el tiempo de la grabación de sonido y el eje y es el componente de frecuencia. Un área más brillante indica que la magnitud del componente de frecuencia en ese momento es mayor. A continuación se muestra un espectrograma del habla de dos estudiantes a medida que se presentan: el estudiante A en 0,1 segundos y el estudiante B en 1,1 segundos. Estos son ejemplos de habla normal con un tono relativamente claro y poca distorsión auditiva. El algoritmo le dio a este discurso un puntaje de agresión bajo y no activó una alarma. Hay estrías brillantes y distintas visibles en la porción de frecuencia más baja (parte inferior) del espectrograma. Estos representan los componentes de frecuencia más altos del habla de los estudiantes. La banda más baja (frecuencia más baja) para cada altavoz es la frecuencia fundamental, o el tono percibido de una voz. Sucesivas bandas brillantes a intervalos regulares por encima de la fundamental representan los armónicos del discurso. Los intervalos más amplios entre esas bandas indican un tono más alto y podemos ver que la voz del estudiante B tiene un tono más alto. Cuanto más distintas sean estas bandas, más claro sonará el habla (aunque muchos factores afectan la claridad del habla). También hay una caída bastante clara en el brillo (intensidad del sonido) en los componentes de mayor frecuencia del espectrograma para ambas expresiones. Esta característica es representativa de los sonidos del habla. Las bandas armónicas tienen una mayor separación aquí, lo que indica un tono más alto para el estudiante A que su enunciado anterior. Vemos un mayor número de bandas en las frecuencias armónicas, lo que se percibe como un sonido más intenso. También hay bandas más brillantes en la parte superior del espectrograma, lo que muestra un mayor equilibrio entre los componentes de frecuencia más baja y más alta. Este equilibrio se conoce como una inclinación espectral más plana, una cualidad que a menudo se asocia con las voces acentuadas. Sin embargo, las bandas de sonido permanecen distintas y bien definidas, lo que indica que el discurso tiene un tono claro sin mucha distorsión. Si bien este clip de sonido tenía una medida de agresión más alta, finalmente el algoritmo lo clasificó como no agresivo. Los anotadores humanos tampoco encontraron este grito simulado convincentemente agresivo. Este sonido tiene una intensidad alta en los componentes de frecuencias más altas y muestra bandas mucho menos distintas en comparación con los ejemplos anteriores. Esto indica cierta tensión vocal en el hablante. La frecuencia fundamental y los armónicos están mucho menos definidos, lo que indica distorsión de audio y un tono mucho más áspero en el sonido. Esta característica también se conoce como blanqueamiento de espectro. Descubrimos que los cuadros de audio con vocalizaciones de tono más alto (frecuencia fundamental más alta), componentes de frecuencia más alta (inclinación espectral más plana) y que contienen distorsiones (blanqueamiento espectral) tendían a activar el algoritmo. Los anotadores humanos encontraron este grito simulado convincentemente agresivo y el algoritmo estuvo de acuerdo. ## Análisis de errores Al mismo tiempo, identificamos casos en los que los chillidos agudos no activaron el algoritmo. El grito de abajo es muy agudo, tiene componentes de alta frecuencia y contiene el blanqueamiento del espectro que indica tensión vocal. Sin embargo, el algoritmo no proporcionó una medida de agresión por encima de cero durante la mayor parte de la duración del sonido. Si bien este fue uno de los sonidos que tuvo una de las medidas más altas de tono y distorsión, no contenía un patrón que el algoritmo reconociera como una voz agresiva. Los modelos de aprendizaje automático, como el algoritmo de detección de agresión, dependen de la coincidencia de patrones con los datos etiquetados que se alimentan en el entrenamiento. Si los datos de entrenamiento utilizados no incluyeron ejemplos de chillidos, o si el proceso de etiquetado no identificó tales ruidos como agresivos, es posible que el algoritmo no caracterice correctamente dichos sonidos en funcionamiento. Cuando se le preguntó acerca de los falsos negativos de los chillidos más agudos, Sound Intelligence respondió que pueden deberse a que el dispositivo no procesa componentes de audio de mayor frecuencia. También citaron la posible similitud de los gritos con los llantos de bebés en sus datos de entrenamiento, que etiquetaron como no agresivos. También encontramos varios casos en los que el algoritmo determinó que cantar, reír y toser eran agresivos. Proporcionamos algunos ejemplos de tales vocalizaciones a continuación. En cada uno de estos espectrogramas, hay alguna evidencia de inclinación espectral más plana y blanqueamiento espectral, particularmente cuando se compara con el habla normal. También encontramos una serie de casos en los que el habla activa y enérgica (conocida en psicología como habla de alta excitación) activó el algoritmo. Las voces de las mujeres tienden a ser el doble de altas que las de los hombres. Descubrimos que cada voz que hablaba en la prueba de pares que activó el algoritmo pertenecía a una estudiante. Requeriría una gran cantidad de personas de un rango demográfico completo para entrenar completamente o probar la efectividad del dispositivo en todas sus aplicaciones potenciales. Al mismo tiempo, el tono y la calidad tonal varían entre las voces individuales, incluso para personas del mismo grupo demográfico. Dado que el dispositivo a menudo se instala en las escuelas, lo probamos en poblaciones de estudiantes. Sin embargo, un conjunto de datos más completo con una variedad más amplia de voces mejoraría el análisis y brindaría una comprensión más completa de los contornos y la aplicabilidad universal del algoritmo subyacente. ## Cálculo de características En lugar de examinar el espectro de los clips de audio cuadro por cuadro, el algoritmo Sound Intelligence calcula un conjunto de características del espectro y las utiliza para discriminar entre audio agresivo y no agresivo. En nuestro análisis, calculamos de manera similar las características de los marcos de sonido que representan en términos generales algunas características espectrales. Estas características son resúmenes estadísticos de las características de un espectro que pueden permitirnos diferenciar entre diferentes marcos de sonido. Fueron tomados de una revisión de la investigación académica (incluso por Sound Intelligence) sobre las características de audio comúnmente utilizadas en el campo del reconocimiento de afecto de voz y por el valor predictivo de las características para la salida del algoritmo. Sin embargo, estas no son las características exactas que utiliza el algoritmo Sound Intelligence. En su lugar, elegimos funciones que reflejaran ampliamente las características de tono y tono de un sonido. Anteriormente notamos casos en los que las vocalizaciones de tono más alto que tenían un tono más áspero y tensión vocal tendían a activar el algoritmo. Calculamos las características que corresponden a esas cualidades: ### Características relacionadas con el tono - Frecuencia fundamental: el pico con la frecuencia más baja en el espectro de sonido, que el oído humano percibe como tono. - Frecuencia Pico: la frecuencia del espectro con mayor intensidad. - Centroide espectral: el promedio de los componentes de frecuencia de un espectro, ponderado por la intensidad. ### Funciones relacionadas con la calidad del sonido - Reducción espectral: el límite de frecuencia por debajo del cual se contiene la mayor parte de la energía de un sonido. Una atenuación espectral más alta indica que hay más energía en los componentes de mayor frecuencia de un sonido. - Planitud espectral: una medida de 0,0 a 1,0 de la similitud de un espectro con el ruido blanco, que tiene una planitud espectral de 1,0. Agregamos los datos de prueba de pares y grupos y tomamos una muestra de las características del cuadro de sonido que activaron o no el detector. Luego analizamos estos datos para saber qué funciones de audio el algoritmo Sound Intelligence puede estar correlacionando con la agresión. La distribución de las cinco características discutidas se muestra en la siguiente gráfica a lo largo de las diagonales. La curva naranja representa las características de los sonidos que el algoritmo consideró agresivos, y la curva azul representa los sonidos no agresivos. A medida que las vocalizaciones se hacían más agudas, contenían más energía en los componentes de frecuencias más altas y iban acompañadas de métricas más altas para el "blanqueamiento" del espectro sonoro, el algoritmo generalmente tendía a predecir la agresión. Al observar los pares de características juntas arriba, podemos ver una separación aún mejor entre los puntos de datos que el algoritmo encontró como agresivos (puntos naranjas) o no (puntos azules). Por lo tanto, podemos separar visualmente las características de los marcos de sonido que el algoritmo considera agresivos y no agresivos e identificar rangos y combinaciones de características de sonido que se correlacionan con una inferencia de agresión. Los sonidos fuera de esos rangos, ya sean más altos o más bajos, no contenían características que el algoritmo está entrenado para detectar como agresión. ## Discusión Dado que el algoritmo opera a partir de funciones de audio y no tiene en cuenta el contexto ni el significado, los errores aparentes que encontramos son previsibles. Sound Intelligence reconoce que el detector es imperfecto, pero sostiene que el dispositivo es un valioso sistema de alerta temprana, particularmente cuando se calibra correctamente y se prueba en situaciones del mundo real. Si bien hemos examinado el rendimiento del algoritmo, debemos tener en cuenta que este no es un estudio del funcionamiento real del dispositivo. Esta prueba tampoco busca medir si este sistema es más efectivo que lo que vemos como línea de base: la percepción, comunicación y juicio de los estudiantes, maestros y administradores escolares. Académicos y legisladores han planteado preguntas sobre el uso de grandes datos y algoritmos como sustituto del juicio humano. Por ejemplo, ¿qué tipo de impactos dispares puede crear inadvertidamente un algoritmo? Cuando un algoritmo asigna la culpa por razones que son difíciles de comprender, ¿cómo evita el sistema más amplio castigar el comportamiento inocente? ¿Cuánta transparencia se debe proporcionar a los vigilados sobre los datos de entrenamiento y el diseño de dichos algoritmos? Esperamos que este estudio impulse una mayor discusión e investigación sobre los dispositivos de análisis de audio vendidos al público y la toma de decisiones algorítmica en general. # Agradecimientos Nos gustaría agradecer a las siguientes personas por el tiempo y la experiencia que compartieron al revisar nuestro trabajo. Su revisión no constituye una aprobación de nuestros métodos o nuestra discusión, y cualquier error es nuestro. Dra. Heather Lynch, profesora asociada en el Departamento de Ecología y Evolución de la Universidad de Stony Brook y asesora de ciencia de datos de ProPublica. Dr. Michael Mandel, profesor asociado de informática y ciencias de la información en Brooklyn College. Dra. Maureen Lynch, becaria, Iniciativa de datos ambientales. La Dra. Shae Morgan, profesora asistente de audiología en la Facultad de medicina de la Universidad de Louisville, revisó por separado algunos de los datos de audio utilizados en esta metodología. La reportera de datos de ProPublica, Sophie Chou, revisó el código y el análisis.