Connect with us

Investigación: Los algoritmos anti-spam mostraron sesgo político durante las elecciones de EE. UU. de 2020

Inteligencia artificial

Investigación: Los algoritmos anti-spam mostraron sesgo político durante las elecciones de EE. UU. de 2020

mm

Según un nuevo estudio, los algoritmos de filtrado de spam (SFAs) de tres de los principales proveedores de correo electrónico del mundo exhibieron sesgo político durante las elecciones de 2020 en los Estados Unidos, con Gmail de Google inclinándose hacia la izquierda, y Microsoft Outlook y Yahoo Mail favoreciendo los correos electrónicos de los candidatos de derecha.

El documento establece:

‘Nuestras [observaciones] revelaron que todos los SFAs exhibieron sesgos políticos en los meses previos a las elecciones de 2020 en EE. UU. Gmail se inclinó hacia la izquierda (demócratas) mientras que Outlook y Yahoo se inclinaron hacia la derecha (republicanos). Gmail marcó un 59,3% más de correos electrónicos de los candidatos de derecha como spam en comparación con los candidatos de izquierda, mientras que Outlook y Yahoo marcaron un 20,4% y un 14,2% más de correos electrónicos de los candidatos de izquierda como spam en comparación con los candidatos de derecha, respectivamente.’

El análisis de los autores, afirman, demuestra ‘sesgos agregados’ en la actividad de los SFAs.

El documento también reconoce la posibilidad de ‘marcado de spam cultivado’, donde actores que buscan silenciar voces de oposición podrían solicitar o obtener acceso a comunicaciones oficiales de ‘partidos hostiles’ y afiliaciones con la intención de informar la comunicación como spam, influyendo así en los algoritmos que determinan la probabilidad de que un correo electrónico sea spam desde un remitente en particular.

Sin embargo, los investigadores observan que esto no explica las marcadas variaciones en la forma en que los diferentes proveedores de correo electrónico parecen haber configurado acciones en función de la retroalimentación de los usuarios:

‘Arguablemente, también existe la posibilidad de que los SFAs de los servicios de correo electrónico hayan aprendido de las elecciones de algunos votantes que marcaron ciertos correos electrónicos de campaña como spam y comenzaron a marcar esos / correos electrónicos de campaña similares como spam para otros votantes. Si bien no tenemos razón para creer que hubo intentos deliberados por parte de estos servicios de correo electrónico para crear estos sesgos para influir en los votantes, el hecho es que sus SFAs han aprendido a marcar más correos electrónicos de una afiliación política como spam en comparación con la otra. ‘

‘Como estos servicios de correo electrónico prominentes son activamente utilizados por una parte significativa de la población votante y como muchos de los votantes de hoy dependen de la información que ven (o no ven) en línea, dichos sesgos pueden tener un impacto inigorable en los resultados de una elección.’

El documento se titula Un vistazo a los sesgos políticos en los algoritmos de filtrado de spam de correo electrónico durante las elecciones de EE. UU. 2020, y proviene de cuatro investigadores del Departamento de Ciencias de la Computación de la Universidad Estatal de Carolina del Norte.

Alrededor de las casas

El estudio de los investigadores abarca un período de cinco meses desde julio de 2020 hasta finales de noviembre del mismo año, durante el cual crearon 102 nuevas direcciones de correo electrónico en las tres plataformas de correo electrónico, y se suscribieron a dos listas de notificación de correo electrónico presidencial, 78 senadores y 156 candidatos a la Cámara de Representantes.

Para descartar factores demográficos, las cuentas de correo electrónico se crearon con factores demográficos variables para cada usuario (ficticio) y se dividieron en dos vertientes: la primera estudió las tendencias generales de sesgo en los algoritmos de filtrado de spam en todos los servicios de correo electrónico combinados para candidatos presidenciales, de la Cámara y del Senado; y la segunda examinó las formas en que las diversas interacciones de correo electrónico (como marcar o desmarcar como spam por parte del usuario) parecían afectar el comportamiento de los filtros de spam algorítmicos.

Varias observaciones clave surgieron durante el estudio. Los autores informan que Gmail ‘se inclinó hacia la izquierda’, mientras que Outlook y Yahoo se inclinaron hacia la derecha. Yahoo retuvo el 55,2% de todos los correos electrónicos políticos en la bandeja de entrada del usuario, mientras que Outlook filtró el 71,8% de los correos electrónicos de los candidatos políticos de todos los colores.

‘Gmail, sin embargo, retuvo la mayoría de los correos electrónicos de los candidatos de izquierda en la bandeja de entrada (< 10,12% marcados como spam) mientras [enviaba] la mayoría de los correos electrónicos de los candidatos de derecha a la carpeta de spam (hasta un 77,2% marcados como spam). ‘

‘Además, observamos que el porcentaje de correos electrónicos marcados por Gmail como spam de los candidatos de derecha creció constantemente a medida que se acercaba la fecha de la elección, mientras que el porcentaje de correos electrónicos marcados como spam de los candidatos de izquierda permaneció más o menos igual.’

Selección de candidatos

Si bien los candidatos presidenciales suscritos para el estudio se limitaron a Joe Biden y Donald Trump, los investigadores se esforzaron por hacer elecciones representativas al considerar la suscripción a comunicaciones por correo electrónico de los candidatos del Senado y la Cámara, por varias razones.

En primer lugar, los estados tienen diferentes números de escaños en la Cámara, según el recuento de población del estado. En segundo lugar, el número de candidatos del Senado y la Cámara de los dos principales partidos políticos varía según los estados. Además, ciertos candidatos solo estaban representados por sitios web oficiales .gov, que están prohibidos por ley de enviar correos electrónicos de campaña; y finalmente, algunas de las listas de suscripción de los candidatos estaban protegidas por CAPTCHAs, que no podían ser automatizadas por el marco de recopilación de datos personalizado de los investigadores.

Distribución de la afiliación política de las suscripciones de correo electrónico de los candidatos del Senado y la Cámara.

Distribución de la afiliación política de las suscripciones de correo electrónico de los candidatos del Senado y la Cámara. Fuente: https://arxiv.org/pdf/2203.16743.pdf

Para igualar el desequilibrio resultante entre candidatos demócratas y republicanos, los investigadores se suscribieron a la información de correo electrónico de campaña del número máximo de candidatos en cualquier estado donde los candidatos de izquierda y derecha fueran iguales en número, excepto en estados como Alaska, que solo tenía un candidato republicano al Senado.

En total, los autores tuvieron que dar cuenta de 11 estados de esta manera, y finalmente terminaron con los 50 estados representados. 78 de las suscripciones en 36 estados equivalían a 44 listas de candidatos demócratas al Senado y 34 listas de candidatos republicanos, mientras que había 156 suscripciones en 42 estados para candidatos a la Cámara – 81 demócratas y 75 republicanos.

Análisis de datos

Los investigadores recopilaron 318.108 correos electrónicos en los tres servicios de correo electrónico durante el período de recopilación de datos activo del estudio, que se truncó después del 20 de noviembre debido al rápido descenso en el volumen de correos electrónicos después de esa fecha. El contenido de los datos recopilados para cada correo electrónico incluyó MIME-Version, Content Type, Asunto, De, Para, Fecha, Message-ID, Delivered-To, Received-SPF, y Received-By.

Debido a los desafíos involucrados en representar las comunicaciones de ambos partidos políticos de manera justa, se eligió el Análisis de Puntuación de Propensión (PSA) como el método estadístico para los datos. El PSA genera covariables a partir de datos no equilibrados que igualan las distribuciones en circunstancias excepcionales donde los grupos de control y las divisiones estadísticas tradicionales no son fácilmente aplicables.

Los autores concluyen que los SFAs para los servicios de correo electrónico estudiados exhiben sesgo político, y que la consistencia relativa al principio entre los servicios se diversifica en un comportamiento más específico con el tiempo.

Gmail marca un porcentaje más alto (67,6%) de correos electrónicos políticos de derecha como spam, en comparación con un mero 8,2% de correos electrónicos afiliados a la izquierda, pero responde más dinámicamente a las interacciones del usuario que desmarcan correos electrónicos como spam que sus cohortes. Outlook, en cambio, marca el 95,8% de los correos electrónicos de izquierda como spam, en comparación con el 75,4% para los correos electrónicos de derecha, y Yahoo marca un 14,2% más de correos electrónicos de izquierda como spam que los correos electrónicos de derecha.

Distribución acumulativa del porcentaje de correos electrónicos demócratas (azul) y republicanos (rojo) que fueron marcados como spam en cada una de las 22 cuentas de correo electrónico de cada servicio.

Distribución acumulativa del porcentaje de correos electrónicos demócratas (azul) y republicanos (rojo) que fueron marcados como spam en las cuentas de correo electrónico de cada servicio.

Además, los resultados sugieren que a lo largo del período del estudio, Gmail responde de manera genérica a un aumento en el volumen de correos electrónicos en todas las afiliaciones políticas, marcándolos cada vez más como spam, independientemente de su procedencia. Yahoo informó consistentemente correos electrónicos de izquierda como spam a medida que avanzaban las campañas, al mismo tiempo que disminuía la cantidad de correos electrónicos de derecha marcados como spam. Outlook parecía ser el menos afectado por el aumento del volumen de correos electrónicos de cualquier partido político, manteniendo un sesgo general hacia la derecha.

Porcentaje de correos electrónicos marcados como spam en ambos partidos políticos y los tres proveedores de correo electrónico durante los 153 días del período de estudio.

Porcentaje de correos electrónicos marcados como spam en ambos partidos políticos y los tres proveedores de correo electrónico durante los 153 días del período de estudio.

Respuesta a la interacción del usuario

Cuando marcamos un correo electrónico de spam como ‘No es spam’, la intención es entrenar al sistema de correo electrónico para que no marque correos electrónicos similares en el futuro, aunque el tipo subyacente de regla (basado en correo electrónico, basado en contenido, etc.) no siempre es completamente claro.

Los resultados del estudio encontraron que de los tres proveedores de correo electrónico examinados, solo Gmail respondió notablemente a una entrada de ‘no spam’ del usuario. En contraste, esta interacción de spam a bandeja de entrada (S→I) del usuario tuvo un efecto a largo plazo muy limitado en Outlook y Yahoo.

Los investigadores observan:

‘[Debido] a la interacción S→I, el sesgo político en Gmail se redujo significativamente. Sin embargo, inesperadamente, aumentó en ambos Outlook y Yahoo porque ninguno de los dos servicios reaccionó notablemente al deseo del usuario de no marcar los correos electrónicos como spam que los dos servicios estaban marcando como spam.’

Conclusión

Los autores concluyen que Gmail responde ‘significativamente’ a la interacción del usuario en comparación con Outlook y Yahoo, a pesar de su propia predisposición hacia la izquierda.

Los autores establecen:

‘Mientras que el sesgo político en Gmail permaneció sin cambios después de la interacción de lectura, disminuyó significativamente debido a las interacciones I→S y S→I.’

Y continúan:

‘Mientras que los sesgos políticos cambiaron en respuesta a varias interacciones, Gmail mantuvo su inclinación hacia la izquierda mientras que Outlook y Yahoo mantuvieron su inclinación hacia la derecha en todos los escenarios.’

Los investigadores reconocen una expectativa general del usuario final de que los filtros de spam pueden y deben adaptar su comportamiento en función de la intervención del usuario (como mover un correo electrónico de una carpeta de spam a la bandeja de entrada, o marcar un correo electrónico como ‘no es spam’), pero que este mecanismo no es confiable y ciertamente no es consistente en los tres proveedores de correo electrónico estudiados.

El documento señala:

‘[No] encontramos ninguna acción consistente que se pueda recomendar a los usuarios para ayudarlos a reducir el sesgo en la forma en que el SFA trata los correos electrónicos políticos que se les envían.’

 

Publicado por primera vez el 4 de abril de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.