Connect with us

Pesquisa: Algoritmos Anti-Spam Mostraram Viés Político Durante as Eleições dos EUA em 2020

Inteligência artificial

Pesquisa: Algoritmos Anti-Spam Mostraram Viés Político Durante as Eleições dos EUA em 2020

mm

De acordo com um novo estudo, os algoritmos de filtragem de spam (SFAs) de três dos maiores provedores de e-mail do mundo exibiram viés político durante as eleições dos EUA em 2020, com o Gmail da Google inclinando-se para a esquerda, e o Microsoft Outlook e o Yahoo Mail favorecendo e-mails de candidatos de direita.

O artigo afirma:

‘Nossas [observações] revelaram que todos os SFAs exibiram vieses políticos nos meses que antecederam as eleições dos EUA em 2020. O Gmail se inclinou para a esquerda (Democratas), enquanto o Outlook e o Yahoo se inclinaram para a direita (Republicanos). O Gmail marcou 59,3% mais e-mails de candidatos de direita como spam em comparação com os candidatos de esquerda, enquanto o Outlook e o Yahoo marcaram 20,4% e 14,2% mais e-mails de candidatos de esquerda como spam em comparação com os candidatos de direita, respectivamente.’

A análise dos autores, eles afirmam, demonstra ‘vieses agregados’ na atividade do SFA.

O artigo também reconhece a possibilidade de marcação de spam “cultivada”, onde atores que buscam silenciar vozes de oposição podem solicitar ou obter acesso a comunicações oficiais de “partidos hostis” e afiliações com a intenção de relatar a comunicação como spam, influenciando assim os algoritmos que determinam a probabilidade de procedência de spam de um remetente em particular.

No entanto, os pesquisadores observam, isso não explica as variações marcadas na forma como os diferentes provedores de e-mail parecem ter configurado ações com base em feedback de usuários finais:

‘Argumenta-se que também há a possibilidade de que os SFAs dos serviços de e-mail tenham aprendido com as escolhas de alguns eleitores que marcaram certos e-mails de campanha como spam e começaram a marcar esses/e-mails de campanha semelhantes como spam para outros eleitores. Embora não tenhamos razão para acreditar que houve tentativas deliberadas desses serviços de e-mail de criar esses vieses para influenciar os eleitores, o fato é que seus SFAs aprenderam a marcar mais e-mails de uma afiliação política como spam em comparação com a outra.

‘Como esses serviços de e-mail proeminentes são ativamente usados por uma parte significativa da população eleitoral e como muitos dos eleitores de hoje dependem das informações que veem (ou não veem) online, tais vieses podem ter um impacto inegável nos resultados de uma eleição.’

O artigo é intitulado Um Olhar sobre os Vieses Políticos em Algoritmos de Filtragem de Spam de E-mail Durante a Eleição dos EUA em 2020, e vem de quatro pesquisadores do Departamento de Ciência da Computação da Universidade Estadual da Carolina do Norte.

Ao Redor das Casas

O estudo dos pesquisadores abrange um período de cinco meses, de julho de 2020 a novembro do mesmo ano, durante o qual criaram 102 novos endereços de e-mail nas três plataformas de e-mail e se inscreveram em duas listas de notificação de e-mail de candidatos presidenciais, 78 listas de notificação de e-mail de candidatos ao Senado e 156 listas de notificação de e-mail de candidatos à Câmara.

Para descontar fatores demográficos, as contas de e-mail foram criadas com fatores demográficos variados para cada usuário final (fictício) e divididas em duas vertentes: a primeira estudou tendências gerais de viés em algoritmos de filtragem de spam em todos os serviços de e-mail combinados para candidatos presidenciais, Câmara e Senado; e a segunda examinou as maneiras pelas quais várias interações de e-mail (como marcar ou desmarcar como spam pelo usuário final) pareciam impactar o comportamento de filtros de spam algorítmicos.

Várias observações importantes surgiram durante o estudo. Os autores relatam que o Gmail “se inclinou para a esquerda”, enquanto o Outlook e o Yahoo se inclinaram para a direita. O Yahoo manteve 55,2% de todos os e-mails políticos na caixa de entrada do usuário, enquanto o Outlook filtrou 71,8% dos e-mails de candidatos políticos de todos os matizes.

‘O Gmail, no entanto, manteve a maioria dos e-mails de candidatos de esquerda na caixa de entrada (< 10,12% marcados como spam) enquanto [enviou] a maioria dos e-mails de candidatos de direita para a pasta de spam (até 77,2% marcados como spam).

‘Além disso, observamos que o percentual de e-mails marcados pelo Gmail como spam de candidatos de direita aumentou constantemente à medida que a data da eleição se aproximava, enquanto o percentual de e-mails marcados como spam de candidatos de esquerda permaneceu mais ou menos o mesmo.’

Escolhendo Candidatos

Embora os candidatos presidenciais inscritos para o estudo tenham sido limitados a Joe Biden e Donald Trump, os pesquisadores tomaram cuidado para fazer escolhas representativas ao considerar a inscrição em comunicações de e-mail de candidatos ao Senado e à Câmara, por várias razões.

Em primeiro lugar, os estados têm números variados de assentos na Câmara, com base na contagem populacional do estado. Em segundo lugar, o número de candidatos ao Senado e à Câmara entre os dois principais partidos políticos varia entre os estados. Além disso, certos candidatos foram representados apenas por sites oficiais .gov, que são proibidos por estatuto de enviar e-mails de campanha; e, finalmente, algumas listas de inscrição de candidatos foram protegidas por CAPTCHAs, que não puderam ser automatizadas pelo framework de coleta de dados personalizado dos pesquisadores.

Distribuição de afiliação política de inscrições de e-mail de candidatos ao Senado e à Câmara. Fonte: https://arxiv.org/pdf/2203.16743.pdf

Distribuição de afiliação política de inscrições de e-mail de candidatos ao Senado e à Câmara. Fonte: https://arxiv.org/pdf/2203.16743.pdf

Para equalizar o desequilíbrio resultante entre candidatos democratas e republicanos, os pesquisadores se inscreveram em informações de e-mail de campanha do maior número de candidatos em qualquer estado onde os candidatos de esquerda e direita eram iguais em número, exceto em estados como o Alasca, que tinha apenas um candidato republicano ao Senado.

Ao todo, os autores tiveram que levar em conta de forma justa 11 desses estados e, finalmente, acabaram com todos os 50 estados representados. 78 das inscrições em 36 estados somaram 44 listas de candidatos democratas ao Senado e 34 listas de candidatos republicanos, enquanto havia 156 inscrições em 42 estados para candidatos à Câmara – 81 democratas e 75 republicanos.

Analisando os Dados

Os pesquisadores coletaram 318.108 e-mails nos três serviços de e-mail durante o período ativo de coleta de dados do estudo, que foi truncado após 20 de novembro devido à queda rápida no volume de e-mails após essa data. O conteúdo de dados coletado para cada e-mail incluiu MIME-Version, Content Type, Assunto, De, Para, Data, Message-ID, Delivered-To, Received-SPF e Received-By.

Devido aos desafios envolvidos em representar de forma justa as comunicações de ambos os partidos políticos, a Análise de Escore de Propensão (PSA) foi escolhida como o método estatístico para os dados. A PSA gera covariáveis a partir de dados desequilibrados que equalizam distribuições em circunstâncias excepcionais onde grupos de controle e divisões estatísticas tradicionais não são facilmente aplicáveis.

Os autores concluem que os SFAs para os serviços de e-mail estudados exibem viés político e que a consistência relativa inicial nos serviços diverge em comportamento mais específico ao longo do tempo.

O Gmail marca um percentual mais alto (67,6%) de e-mails políticos de direita como spam, em comparação com um mero 8,2% de e-mails afiliados à esquerda, mas responde de forma mais dinâmica a interações de usuários que desmarcam e-mails como spam do que seus colegas. O Outlook, por outro lado, marca 95,8% de e-mails políticos de esquerda como spam, em comparação com 75,4% para e-mails de direita, e o Yahoo marca 14,2% mais e-mails de esquerda como spam do que e-mails de direita.

Distribuição cumulativa do percentual de e-mails democratas (azul) e republicanos (vermelho) que foram marcados como spam em cada um dos 22 contas de e-mail de cada serviço.

Distribuição cumulativa do percentual de e-mails democratas (azul) e republicanos (vermelho) que foram marcados como spam em contas de e-mail de cada serviço.

Além disso, os resultados sugerem que ao longo do período do estudo, o Gmail responde de forma genérica a um aumento no volume de e-mails de todas as afiliações políticas, aumentando a marcação deles como spam, independentemente da procedência. O Yahoo relatou consistentemente e-mails de esquerda como spam à medida que as campanhas progrediam, ao mesmo tempo diminuindo o número de e-mails de direita marcados como spam. O Outlook pareceu ser o menos afetado pelo aumento do volume de e-mails de qualquer partido político, mantendo um viés geral de direita.

Percentual de e-mails marcados como spam em ambos os partidos políticos e em todos os três provedores de e-mail ao longo dos 153 dias do período de estudo.

Percentual de e-mails marcados como spam em ambos os partidos políticos e em todos os três provedores de e-mail ao longo dos 153 dias do período de estudo.

Resposta à Interação do Usuário

Quando marcamos um e-mail de spam como ‘Não é spam’, a intenção é treinar o sistema de e-mail para não sinalizar e-mails semelhantes no futuro, embora o tipo subjacente de regra (baseado em e-mail, conteúdo, etc.) nem sempre seja entirely claro.

Os resultados do estudo encontraram que, dos três provedores de e-mail examinados, apenas o Gmail respondeu notavelmente a uma entrada ‘não é spam’ do usuário. Em contraste, essa interação de spam-para-caixa de entrada (S→I) do usuário teve um efeito a longo prazo muito limitado no Outlook e no Yahoo.

Os pesquisadores observam:

‘[Devido] à interação S→I, o viés político no Gmail diminuiu significativamente. No entanto, inesperadamente, aumentou no Outlook e no Yahoo, pois nenhum dos dois serviços reagiu notavelmente ao desejo do usuário de não marcar os e-mails como spam que os dois serviços estavam marcando como spam.’

Conclusão

Os autores concluem que o Gmail responde ‘significativamente’ à interação do usuário em comparação com o Outlook e o Yahoo, apesar de sua própria inclinação para a esquerda.

Os autores afirmam:

‘Embora o viés político no Gmail tenha permanecido inalterado após a interação de leitura, diminuiu significativamente devido às interações I→S e S→I.’

E continuam:

‘Embora os vieses políticos tenham mudado em resposta a várias interações, o Gmail manteve sua inclinação para a esquerda, enquanto o Outlook e o Yahoo mantiveram sua inclinação para a direita em todos os cenários.’

Os pesquisadores reconhecem uma expectativa geral do usuário final de que os filtros de spam possam e devem adaptar seu comportamento com base na intervenção do usuário (como mover um e-mail da pasta de spam para a caixa de entrada, ou marcar um e-mail como ‘não é spam’), mas que esse mecanismo não é confiável e certamente não é consistente entre os três provedores de e-mail estudados.

O artigo observa:

‘[Nós] não encontramos nenhuma ação consistente que se pudesse recomendar aos usuários para ajudá-los a reduzir o viés na forma como o SFA trata e-mails políticos que são enviados a eles.’

 

Publicado pela primeira vez em 4 de abril de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.