Incidents associés

Les gouvernements et les entreprises se tournent vers des outils automatisés pour donner un sens à ce que les gens publient sur les réseaux sociaux. Les décideurs demandent régulièrement aux entreprises de médias sociaux d'identifier et de supprimer les discours de haine, la propagande terroriste, le harcèlement, les fausses nouvelles ou la désinformation. D'autres propositions politiques se sont concentrées sur l'exploitation des médias sociaux pour éclairer les décisions en matière d'application de la loi et d'immigration. Mais ces propositions supposent à tort que la technologie automatisée peut accomplir à grande échelle le type d'analyse nuancée que les humains peuvent faire à petite échelle. Les outils d'aujourd'hui pour analyser le texte des médias sociaux ont une capacité limitée à analyser le sens de la communication humaine ou à détecter l'intention de l'orateur.
Un fossé de connaissances existe entre les scientifiques des données qui étudient le traitement du langage naturel (TAL) et les décideurs qui plaident pour une large adoption de l'analyse et de la modération automatisées des médias sociaux. Les décideurs politiques doivent comprendre les capacités et les limites de la PNL avant d'approuver ou d'adopter des outils d'analyse de contenu automatisés, en particulier pour prendre des décisions qui affectent les droits fondamentaux ou l'accès aux avantages gouvernementaux. Sans garanties appropriées, ces outils peuvent faciliter une censure trop large et une application biaisée des lois ou des conditions de service.
Cet article s'appuie sur les recherches existantes en PNL pour expliquer les capacités et les limites des classificateurs de texte pour les publications sur les réseaux sociaux et d'autres contenus en ligne. Il vise à aider les chercheurs et les experts techniques à combler les lacunes dans les connaissances des décideurs sur ce qui est possible avec l'analyse de texte automatisée. Nous donnons un aperçu du fonctionnement des classificateurs NLP et identifions cinq limites clés de ces outils qui doivent être communiquées aux décideurs : (1) Les outils de traitement du langage naturel fonctionnent mieux lorsqu'ils sont formés et appliqués dans des domaines spécifiques, et ne peuvent pas nécessairement être appliqués avec le même fiabilité dans différents contextes ; (2) Les décisions fondées sur l'analyse automatisée du contenu des médias sociaux risquent de marginaliser davantage et de censurer de manière disproportionnée les groupes déjà victimes de discrimination. Les outils de la PNL peuvent amplifier les préjugés sociaux reflétés dans le langage et sont susceptibles d'avoir une précision moindre pour les groupes minoritaires qui sont sous-représentés dans les données de formation ; (3) Une classification précise des textes nécessite des définitions claires et cohérentes du type de discours à identifier. Les débats politiques autour de la modération de contenu et de l'exploitation des médias sociaux manquent généralement de définitions aussi précises ; (4) Les problèmes de précision et de fiabilité de l'intercodeur documentés dans les études NLP mettent en garde contre l'application généralisée des outils de prise de décision conséquente ; et (5)
Les filtres de texte restent faciles à contourner et sont bien en deçà de la capacité des humains à analyser le sens du texte. L'examen humain des contenus signalés reste essentiel pour éviter une censure excessive. Le document se termine par des recommandations aux chercheurs du PNL pour combler le fossé des connaissances entre les experts techniques et les décideurs.