Report 1383

Un experimento revela que Microsoft Outlook marca los mensajes como spam basándose en una sola palabra, como "Nigeria". Los filtros de spam en gran parte no están auditados y podrían discriminar injustamente.

En un experimento, AlgorithmWatch envió unos cientos de correos electrónicos a 10 bandejas de entrada de correo electrónico en Gmail, Yahoo, Outlook, GMX y LaPoste (los dos últimos son utilizados por millones de alemanes y franceses, respectivamente). Todas las cuentas fueron creadas específicamente para el experimento.

Los resultados, que están disponibles en línea, muestran que Microsoft Outlook considera lo siguiente como spam:

Una solicitud de pasantía de un estudiante nigeriano. El mismo correo electrónico con la palabra "Nigeria" eliminada se envió a la bandeja de entrada.

Una descripción de un programa de educación sexual. El mismo correo electrónico se envió a la bandeja de entrada después de eliminar todas las instancias de "sexo" (pero dejando solo una que dirigió el correo electrónico a la carpeta de correo no deseado).

Un extracto de un discurso de Joe Biden sobre la deuda estudiantil. Eliminar las palabras "préstamo", "inversión" y "mil millones" de un correo electrónico similar resultó en su entrega en la bandeja de entrada.

Los detectores de spam de otros proveedores no mostraron el mismo comportamiento. Outlook fue el único proveedor donde pudimos identificar las palabras que activaron el filtro de spam.

Microsoft se negó a comentar. Es poco probable que un ingeniero de Outlook haya creado una regla explícita para marcar cualquier mensaje que contenga "Nigeria" como spam. En cambio, un algoritmo de aprendizaje automático probablemente identificó a "Nigeria" como un fuerte discriminador entre mensajes spam y no spam. Microsoft no pone a disposición de los investigadores el conjunto de datos de entrenamiento de su filtro de spam.

El credo de SpamAssassin

SpamAssassin es un filtro de spam desarrollado por Apache Software Foundation. Es ampliamente utilizado por organizaciones que mantienen sus propios servidores de correo electrónico. A diferencia de la mayoría de las ofertas comerciales, el código de SpamAssassin es de código abierto y se puede revisar.

Si bien las reglas de SpamAssassin cambian a diario, sus archivos de configuración predeterminados identifican palabras como "Costa de Marfil", "Nigeria" o "gobierno de Nigeria" como spam. La frase “Oprah!”, una artista afroamericana, aparece como potencialmente spam, aunque la regla está actualmente inactiva.

Las reglas se modifican en función de las comprobaciones diarias de los datos de entrenamiento enviados por los usuarios. No parece que se haga ningún esfuerzo para garantizar que los datos enviados por los usuarios no discriminen injustamente.

Los datos enviados por el usuario no están disponibles, pero algunos de los conjuntos de datos de entrenamiento sí lo están. SpamAssassin publicó un corpus público de correo spam y no spam (que la comunidad antispam llama ham) que, aunque tiene más de 15 años, todavía se usa ampliamente. En la carpeta de correo no deseado, 59 correos electrónicos de 1397 son de nigerianos. En la carpeta del jamón, no hay ninguno.

El Comité de Gestión del Proyecto SpamAssassin no respondió a nuestras preguntas, pero afirmó que los problemas con reglas específicas eran manejados por "la comunidad".

Privilegio blanco

El liderazgo de SpamAssassin es consciente del racismo y el privilegio de los blancos incrustados en el software. En julio, anunció que su próximo lanzamiento usaría "lista de bienvenida" y "lista de bloqueo" para reemplazar los términos racistas que se usaban hasta entonces.

Sin embargo, mientras SpamAssassin dice que “[tienen] un interés personal particular en atraer colaboradores de una diversidad de culturas”, su Comité de Gestión de Proyectos parece estar compuesto exclusivamente por hombres blancos (algunos miembros usan seudónimos y no se pudo verificar con certeza). ). Y al menos uno de sus miembros firma rutinariamente los correos electrónicos que publica en la lista de correo de SpamAssassin con citas antifeministas de un columnista de extrema derecha.

Problema 1383

Incidentes Asociados

Incidente 831 Reporte
AI Spam Filters Allegedly Block Legitimate Emails Based on Biased Keyword Detection

Los filtros de spam son eficientes y no controversiales. Hasta que los miras.

Problema 1383

Incidentes Asociados

Incidente 831 ReporteAI Spam Filters Allegedly Block Legitimate Emails Based on Biased Keyword Detection

Los filtros de spam son eficientes y no controversiales. Hasta que los miras.

Incidente 831 Reporte
AI Spam Filters Allegedly Block Legitimate Emails Based on Biased Keyword Detection