Inteligencia Artificial
Investigación: los algoritmos antispam mostraron un sesgo político durante las elecciones estadounidenses de 2020

Según un nuevo estudio, los algoritmos de filtrado de spam (SFA) de tres de los proveedores de correo electrónico más importantes del mundo exhibieron un sesgo político durante las elecciones de Estados Unidos de 2020, con Gmail de Google sesgado hacia la izquierda y Microsoft Outlook y Yahoo Mail favoreciendo los correos electrónicos de candidatos de derecha.
El documento dice:
'Nuestras [observaciones] revelaron que todas las SFA exhibieron sesgos políticos en los meses previos a las elecciones estadounidenses de 2020. Gmail se inclinó hacia la izquierda (demócratas) mientras que Outlook y Yahoo se inclinaron hacia la derecha (republicanos). Gmail marcó un 59.3 % más de correos electrónicos de los candidatos de la derecha como spam en comparación con los candidatos de la izquierda, mientras que Outlook y Yahoo marcaron un 20.4 % y un 14.2 % más de correos electrónicos de los candidatos de la izquierda como spam en comparación con los candidatos de la derecha, respectivamente.
El análisis de los autores, afirman, demuestra "sesgos agregados" en la actividad de SFA.
El documento también reconoce la posibilidad de marcación de spam 'farmed', donde los actores que buscan silenciar las voces de la oposición podrían solicitar u obtener acceso a comunicaciones oficiales de partidos y afiliaciones 'hostiles' con la intención de reportar la comunicación como spam, influyendo así en los algoritmos que determinar la probabilidad de procedencia del spam de un remitente en particular.
Sin embargo, observan los investigadores, esto no explica las marcadas variaciones en la forma en que los diferentes proveedores de correo electrónico parecen haber configurado acciones en función de los comentarios de los usuarios finales:
Podría decirse que también existe la posibilidad de que las SFA de los servicios de correo electrónico aprendieron de las opciones de algunos votantes que marcaron ciertos correos electrónicos de campaña como correo no deseado y comenzaron a marcar esos correos electrónicos de campaña similares como correo no deseado para otros votantes. Si bien no tenemos ninguna razón para creer que hubo intentos deliberados de estos servicios de correo electrónico para crear estos sesgos para influir en los votantes, el hecho es que sus SFA han aprendido a marcar más correos electrónicos de una afiliación política como spam en comparación con otra.
Dado que estos destacados servicios de correo electrónico son utilizados activamente por una parte considerable de la población votante y muchos de los votantes de hoy confían en la información que ven (o no ven) en línea, tales sesgos pueden tener un impacto imperceptible en los resultados de una elección.'
El se titula Un vistazo a los sesgos políticos en los algoritmos de filtrado de spam de correo electrónico durante las elecciones estadounidenses de 2020, y proviene de cuatro investigadores del Departamento de Ciencias de la Computación de la Universidad Estatal de Carolina del Norte.
Alrededor de las casas
El estudio de los investigadores cubre un período de cinco meses desde julio de 2020 hasta finales de noviembre del mismo año, en el que crearon 102 nuevas direcciones de correo electrónico en las tres plataformas de correo electrónico y se suscribieron a dos notificaciones por correo electrónico de candidatos presidenciales, 78 del Senado y 156 de la Cámara. liza.
Para descontar los factores demográficos, las cuentas de correo electrónico se crearon con diferentes factores demográficos para cada usuario final (ficticio) y se dividieron en dos líneas: la primera estudió las tendencias generales de sesgo en los algoritmos de filtrado de spam en todos los servicios de correo electrónico combinados para la presidencia, la Cámara y el Senado. candidatos; y el segundo examinó las formas en que varias interacciones de correo electrónico (como marcar o desmarcar como correo no deseado por parte del usuario final) parecían afectar el comportamiento de los filtros algorítmicos de correo no deseado.
Varias observaciones clave se enfocaron durante el estudio. Los autores informan que Gmail "se inclinó hacia la izquierda", mientras que Outlook y Yahoo se inclinaron hacia la derecha. Yahoo retuvo el 55.2 % de todos los correos electrónicos políticos en la bandeja de entrada del usuario, mientras que Outlook filtró el 71.8 % de los correos electrónicos de candidatos políticos de todo tipo.
Sin embargo, Gmail retuvo la mayoría de los correos electrónicos de candidatos de izquierda en la bandeja de entrada (< 10.12 % marcados como correo no deseado) mientras [enviaba] la mayoría de los correos electrónicos de candidatos de derecha a la carpeta de correo no deseado (hasta un 77.2 % marcados como correo no deseado).
"Observamos además que el porcentaje de correos electrónicos marcados por Gmail como spam de los candidatos de derecha creció constantemente a medida que se acercaba la fecha de las elecciones, mientras que el porcentaje de correos electrónicos marcados como spam de los candidatos de izquierda se mantuvo casi igual".
Selección de candidatos
Si bien los candidatos presidenciales a los que se suscribieron para el estudio se limitaron a Joe Biden y Donald Trump, los investigadores tuvieron cuidado de tomar decisiones representativas al considerar suscribirse a las comunicaciones por correo electrónico de los candidatos al Senado y la Cámara, por varias razones.
En primer lugar, los estados tienen un número variable de escaños en la Cámara, según el recuento de la población del estado. En segundo lugar, el número de candidatos al Senado y a la Cámara de los dos principales partidos políticos varía según los estados. Además, ciertos candidatos estuvieron representados solo por sitios web oficiales .gov, que tienen prohibido por ley enviar correos electrónicos de campaña; y, finalmente, algunas de las listas de suscripción de los candidatos estaban protegidas por CAPTCHA, que no podían ser automatizados por el marco de recopilación de datos personalizado de los investigadores.

Distribución de la afiliación política de las suscripciones de correo electrónico de los candidatos al Senado y la Cámara. Fuente: https://arxiv.org/pdf/2203.16743.pdf
Para equilibrar el desequilibrio resultante entre los candidatos demócratas y republicanos, los investigadores se suscribieron a la información de correo electrónico de campaña del número máximo de candidatos en cualquier estado donde los candidatos de derecha e izquierda fueran iguales en número, excepto en estados como Alaska, que solo tenía un Senado republicano. candidato.
En total, los autores tuvieron que dar cuenta justa de 11 de esos estados y finalmente terminaron con los 50 estados representados. 78 de las suscripciones en 36 estados ascendieron a 44 listas de candidatos demócratas y 34 republicanos para el Senado, mientras que hubo 156 suscripciones en 42 estados para candidatos a la Cámara: 81 demócratas y 75 republicanos.
Analizando los datos
Los investigadores recopilaron 318,108 20 correos electrónicos en los tres servicios de correo electrónico en el período activo de recopilación de datos del estudio, que se truncó después del XNUMX de noviembre debido a la rápida caída en el volumen de correos después de esa fecha. Contenido de datos recopilados para cada correo electrónico incluido Versión MIME, Tipo de contenido, Asunto, Desde, A, Fecha, ID de mensaje, Entregado a, Recibido-SPFy el Recibido por.
Debido a los desafíos involucrados en la representación justa de las comunicaciones de ambos partidos políticos, el análisis de puntaje de propensión (PSA) fue elegido como el método estadístico para los datos. PSA genera covariables a partir de datos desequilibrados que igualan las distribuciones en circunstancias excepcionales en las que los grupos de control y las divisiones estadísticas tradicionales no son fácilmente aplicables.
Los autores concluyen que los SFA para los servicios de correo electrónico estudiados muestran un sesgo político y que la consistencia relativa inicial entre los servicios diverge en un comportamiento bastante más específico con el tiempo.
Gmail marca un porcentaje más alto (67.6 %) de los correos electrónicos políticos de derecha como spam, en comparación con solo el 8.2 % de los correos electrónicos afiliados a la izquierda, pero responde de manera más dinámica a las interacciones de los usuarios que desmarcan los correos como spam que sus cohortes. Outlook, en cambio, marca el 95.8 % de los correos electrónicos políticos de izquierda como spam, en comparación con el 75.4 % de los correos electrónicos de derecha, y Yahoo marca un 14.2 % más de correos electrónicos de izquierda que de derecha.

Distribución acumulada del porcentaje de correos electrónicos demócratas (azul) y republicanos (rojo) que fueron marcados como spam en las cuentas de correo electrónico de cada servicio.
Además, los resultados sugieren que en el transcurso del período del estudio, Gmail responde de manera bastante genérica a un mayor volumen de correos electrónicos en todas las afiliaciones políticas marcándolos cada vez más como spam, independientemente de su procedencia. Yahoo reportó constantemente los correos electrónicos de tendencia izquierdista como spam a medida que avanzaban las campañas, al mismo tiempo que disminuyó la cantidad de correos electrónicos de derecha marcados como spam. Outlook parecía menos afectado por el aumento del volumen de correos de cualquiera de los partidos políticos, manteniendo un sesgo general de derecha.

Porcentaje de correos electrónicos marcados como spam en ambos partidos políticos y los tres proveedores de correo electrónico durante los 153 días del período de estudio.
Respuesta a la interacción del usuario
Cuando marcamos un correo electrónico no deseado como 'No es spam', la intención es capacitar al sistema de correo electrónico para que no marque correos similares en el futuro, aunque el tipo subyacente de regla (basada en correo electrónico, basada en contenido, etc.) no siempre es completamente claro.
Los resultados del estudio encontraron que de los tres proveedores de correo electrónico examinados, solo Gmail respondió notablemente a una entrada de "no spam" del usuario. Por el contrario, este envío de spam a la bandeja de entrada impulsado por el usuario (S→I) la interacción tuvo un efecto a largo plazo muy limitado en Outlook y Yahoo.
Los investigadores observan:
'[Debido] a la interacción S→I, el sesgo político en Gmail se redujo significativamente. Sin embargo, inesperadamente, aumentó tanto en Outlook como en Yahoo porque ninguno de los dos servicios reaccionó de forma notable al deseo del usuario de no marcar como spam los correos electrónicos que los dos servicios marcaban como spam.'
Conclusión
Los autores concluyen que Gmail responde 'significativamente' a la interacción del usuario en comparación con Outlook y Yahoo, a pesar de su propia predisposición izquierdista.
Los autores declaran:
"Si bien el sesgo político en Gmail se mantuvo sin cambios después de la interacción de lectura, disminuyó significativamente debido a las interacciones I→S y S→I".
Y continúa:
"Si bien los sesgos políticos cambiaron en respuesta a varias interacciones, Gmail mantuvo su inclinación hacia la izquierda, mientras que Outlook y Yahoo mantuvieron su inclinación hacia la derecha en todos los escenarios".
Los investigadores reconocen una expectativa general por parte del usuario final de que los filtros de spam pueden y adaptarán su comportamiento en función de la intervención del usuario (como mover un correo electrónico de una carpeta de spam a la bandeja de entrada, o marcar un correo como "no spam"), pero que este mecanismo no es confiable y ciertamente no es consistente entre los tres proveedores de correo electrónico estudiados.
El papel señala:
"[Nosotros] no encontramos ninguna acción consistente que se pudiera recomendar a los usuarios para ayudarlos a reducir el sesgo en la forma en que la SFA trata los correos electrónicos políticos que se les envían".
Publicado por primera vez el 4 de abril de 2022.