Incidentes Asociados

Los gobiernos y las empresas están recurriendo a herramientas automatizadas para dar sentido a lo que la gente publica en las redes sociales. Los legisladores piden habitualmente a las empresas de redes sociales que identifiquen y eliminen el discurso de odio, la propaganda terrorista, el acoso, las noticias falsas o la desinformación. Otras propuestas de políticas se han centrado en la minería de las redes sociales para informar las decisiones de aplicación de la ley y de inmigración. Pero estas propuestas asumen erróneamente que la tecnología automatizada puede lograr a gran escala el tipo de análisis matizado que los humanos pueden hacer a pequeña escala. Las herramientas actuales para analizar el texto de las redes sociales tienen una capacidad limitada para analizar el significado de la comunicación humana o detectar la intención del hablante.
Existe una brecha de conocimiento entre los científicos de datos que estudian el procesamiento del lenguaje natural (NLP) y los legisladores que abogan por una amplia adopción del análisis y la moderación automatizados de las redes sociales. Los formuladores de políticas deben comprender las capacidades y los límites de la PNL antes de respaldar o adoptar herramientas de análisis de contenido automatizado, en particular para tomar decisiones que afecten los derechos fundamentales o el acceso a los beneficios del gobierno. Sin las salvaguardas adecuadas, estas herramientas pueden facilitar una censura excesivamente amplia y la aplicación sesgada de leyes o términos de servicio.
Este documento se basa en la investigación existente de NLP para explicar las capacidades y limitaciones de los clasificadores de texto para publicaciones en redes sociales y otro contenido en línea. Su objetivo es ayudar a los investigadores y expertos técnicos a abordar las lagunas en el conocimiento de los formuladores de políticas sobre lo que es posible con el análisis de texto automatizado. Brindamos una descripción general de cómo funcionan los clasificadores de NLP e identificamos cinco limitaciones clave de estas herramientas que deben comunicarse a los formuladores de políticas: (1) Las herramientas de procesamiento de lenguaje natural funcionan mejor cuando se entrenan y aplican en dominios específicos, y no necesariamente se pueden aplicar con el la misma fiabilidad en diferentes contextos; (2) Las decisiones basadas en el análisis automatizado del contenido de las redes sociales corren el riesgo de marginar aún más y censurar desproporcionadamente a los grupos que ya enfrentan discriminación. Las herramientas de PNL pueden amplificar el sesgo social reflejado en el lenguaje y es probable que tengan una menor precisión para los grupos minoritarios que están subrepresentados en los datos de capacitación; (3) La clasificación precisa del texto requiere definiciones claras y consistentes del tipo de discurso a identificar. Los debates sobre políticas en torno a la moderación de contenido y la minería de redes sociales tienden a carecer de definiciones tan precisas; (4) Los desafíos de precisión y confiabilidad entre codificadores documentados en los estudios de NLP advierten contra la aplicación generalizada de las herramientas para la toma de decisiones consecuentes; y (5)
Los filtros de texto siguen siendo fáciles de evadir y no alcanzan la capacidad de los humanos para analizar el significado del texto. La revisión humana del contenido marcado sigue siendo esencial para evitar la censura excesiva. El documento concluye con recomendaciones para que los investigadores de PNL cierren la brecha de conocimiento entre los expertos técnicos y los formuladores de políticas.