Искусственный интеллект
Исследование: Алгоритмы против спама показали политическую предвзятость во время выборов в США 2020 года

Согласно новому исследованию, алгоритмы фильтрации спама (SFAs) от трех крупнейших в мире провайдеров электронной почты демонстрировали политическую предвзятость во время выборов в США в 2020 году, при этом Gmail от Google склонялся влево, а Microsoft Outlook и Yahoo Mail отдавали предпочтение электронным письмам от кандидатов правого крыла.
В статье говорится:
‘Наши наблюдения показали, что все SFAs демонстрировали политические предвзятости в месяцы, предшествующие выборам в США 2020 года. Gmail склонялся влево (демократы), тогда как Outlook и Yahoo склонялись вправо (республиканцы). Gmail помечал на 59,3% больше электронных писем от правых кандидатов как спам по сравнению с левыми кандидатами, тогда как Outlook и Yahoo помечали на 20,4% и 14,2% больше электронных писем от левых кандидатов как спам по сравнению с правыми кандидатами, соответственно.’
Анализ авторов, по их утверждениям, демонстрирует ‘агрегированные предвзятости’ в деятельности SFA.
Статья также признает возможность ‘культурного’ помечания спама, когда акторы, стремящиеся заставить замолчать оппозиционные голоса, могут обратиться или получить доступ к официальным сообщениям от ‘враждебных’ партий и организаций с целью сообщения о сообщении как о спаме, тем самым влияя на алгоритмы, которые определяют вероятность спама от конкретного отправителя.
Однако исследователи отмечают, что это не объясняет заметных различий в том, как разные провайдеры электронной почты, кажется, настроили действия на основе обратной связи от пользователей:
‘Возможно, также есть возможность того, что SFAs электронных сервисов научились на выборах некоторых избирателей, помечая определенные кампании электронных писем как спам, и начали помечать эти/podobные кампании электронных писем как спам для других избирателей. Хотя у нас нет оснований полагать, что были преднамеренные попытки этих электронных сервисов создать эти предвзятости для влияния на избирателей, остается тот факт, что их SFAs научились помечать больше электронных писем от одной политической принадлежности как спам по сравнению с другой.’
‘Поскольку эти известные электронные сервисы активно используются значительной частью избирателей и поскольку многие избиратели сегодня полагаются на информацию, которую они видят (или не видят) в Интернете, такие предвзятости могут иметь неизбежное влияние на результаты выборов.’
Статья названа Взгляд на политические предвзятости в алгоритмах фильтрации спама электронной почты во время выборов в США 2020 и исходит от четырех исследователей из Департамента компьютерных наук Университета штата Северная Каролина.
Вокруг домов
Исследование исследователей охватывает период пяти месяцев с июля 2020 года до конца ноября того же года, в течение которого они создали 102 новых адреса электронной почты на трех платформах электронной почты и подписались на два президентских, 78 сенатских и 156 доменных кандидатов в списки уведомлений электронной почты.
Чтобы исключить демографические факторы, электронные почтовые аккаунты были созданы с различными демографическими факторами для каждого (фиктивного) конечного пользователя и разделены на две ветви: первая изучала общие тенденции предвзятости в алгоритмах фильтрации спама на всех объединенных электронных сервисах для президентских, палатных и сенатских кандидатов; и вторая изучала, как различные электронные взаимодействия (такие как помечание или снятие пометки как спам конечным пользователем) казались влияющими на поведение алгоритмов фильтрации спама.
Несколько ключевых наблюдений стали очевидными во время исследования. Авторы сообщают, что Gmail ‘склонялся влево’, тогда как Outlook и Yahoo склонялись вправо. Yahoo сохранила 55,2% всех политических электронных писем в ящике пользователя, тогда как Outlook отфильтровала 71,8% электронных писем от политических кандидатов всех мастей.
‘Gmail, однако, сохранила большинство электронных писем левых кандидатов в ящике (< 10,12% помечено как спам), тогда как [отправила] большинство электронных писем правых кандидатов в папку спама (до 77,2% помечено как спам). ‘
‘Мы также наблюдали, что процент электронных писем, помеченных Gmail как спам от правых кандидатов, стабильно рос по мере приближения даты выборов, тогда как процент электронных писем, помеченных как спам от левых кандидатов, оставался примерно одинаковым.’
Выбор кандидатов
Хотя президентские кандидаты, подписанные для исследования, были ограничены Джо Байденом и Дональдом Трампом, исследователи позаботились о том, чтобы сделать представительные выборы при рассмотрении подписки на электронные сообщения от сенатских и палатных кандидатов, по нескольким причинам.
Во-первых, штаты имеют разное количество мест в Палате представителей, основанное на численности населения штата. Во-вторых, количество сенатских и палатных кандидатов от двух основных политических партий варьируется по штатам. Кроме того, некоторые кандидаты представлены только официальными сайтами .gov, которые запрещены законом отправлять кампании электронных писем; и, наконец, некоторые списки подписчиков кандидатов были защищены CAPTCHAs, которые не могли быть автоматизированы настраиваемым фреймворком сбора данных исследователей.

Распределение политической принадлежности электронных подписок от сенатских и палатных кандидатов. Источник: https://arxiv.org/pdf/2203.16743.pdf
Чтобы уравнять полученную несбалансированность между демократическими и республиканскими кандидатами, исследователи подписались на кампании электронных сообщений от максимального количества кандидатов в любом штате, где левые и правые кандидаты были равны по числу, за исключением штатов, таких как Аляска, которая имела только одного республиканского сенатского кандидата.
В общей сложности авторы должны были учесть 11 таких штатов и в конечном итоге получили представительство всех 50 штатов. 78 подписок по 36 штатам составили 44 демократических и 34 республиканских сенатских кандидата, тогда как было 156 подписок по 42 штатам для палатных кандидатов – 81 демократ и 75 республиканцев.
Анализ данных
Исследователи собрали 318 108 электронных писем по трем электронным сервисам в период активного сбора данных, который был обрезан после 20 ноября из-за быстрого падения объема писем после этой даты. Содержание данных, собранных для каждого электронного письма, включало MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF и Received-By.
Из-за проблем, связанных с представлением обоих политических партий справедливо, был выбран метод пропенсионного анализа (PSA) в качестве статистического метода для данных. PSA генерирует ковариаты из несбалансированных данных, которые уравнивают распределения в исключительных обстоятельствах, когда контрольные группы и традиционные статистические разрезы не легко применимы.
Авторы заключили, что SFAs для электронных сервисов, изучаемых в исследовании, демонстрируют политическую предвзятость, и что ранние относительные постоянства по сервисам расходятся в более конкретное поведение со временем.
Gmail помечает более высокий процент (67,6%) правых политических электронных писем как спам по сравнению с всего 8,2% левых электронных писем, но реагирует более динамично на взаимодействие пользователя, которое помечает письма как не спам, чем его коллеги. Outlook, вместо этого, помечает 95,8% левых электронных писем как спам по сравнению с 75,4% для правых электронных писем, и Yahoo помечает на 14,2% больше левых электронных писем как спам, чем правых электронных писем.

Кумулятивное распределение процента демократических (синих) и республиканских (красных) электронных писем, которые были помечены как спам в электронных почтовых ящиках каждого сервиса.
Кроме того, результаты предполагают, что за период исследования Gmail реагирует довольно общим образом на увеличение объема электронных писем по всем политическим принадлежностям, увеличивая пометку их как спам, независимо от происхождения. Yahoo последовательно сообщала о левых электронных письмах как о спаме по мере прогресса кампаний, одновременно уменьшая количество правых писем, помеченных как спам. Outlook, казалось, был наименее затронут увеличением объема писем от любой политической партии, сохраняя общую правую предвзятость.

Процент электронных писем, помеченных как спам, по обеим политическим партиям и всем трем электронным провайдерам за 153 дня исследования.
Ответ на взаимодействие пользователя
Когда мы помечаем спам-письмо как ‘Не спам’, намерение состоит в том, чтобы обучить электронную систему не флагировать подобные письма в будущем, хотя основной тип правила (электронное, контентное и т. д.) не всегда совершенно ясен.
Результаты исследования показали, что из трех электронных провайдеров, изучаемых в исследовании, только Gmail реагировал заметно на ‘не спам’ вход от пользователя. Напротив, это взаимодействие пользователя со спамом в долгосрочной перспективе имело очень ограниченный эффект в Outlook и Yahoo.
Исследователи отмечают:
‘[Из-за] взаимодействия S→I политическая предвзятость в Gmail уменьшилась значительно. Однако неожиданно, она увеличилась в обоих Outlook и Yahoo, поскольку ни один из двух сервисов не отреагировал заметно на желание пользователя не помечать электронные письма как спам, которые два сервиса помечали как спам.’
Заключение
Авторы заключили, что Gmail реагирует ‘значительно’ на взаимодействие пользователя по сравнению с Outlook и Yahoo, несмотря на свою левую предвзятость.
Авторы заявляют:
‘Хотя политическая предвзятость в Gmail осталась неизменной после чтения взаимодействия, она уменьшилась значительно из-за взаимодействий I→S и S→I.’
И продолжают:
‘Хотя политические предвзятости менялись в ответ на различные взаимодействия, Gmail сохранила свою левую предвзятость, тогда как Outlook и Yahoo сохранили свою правую предвзятость во всех сценариях.’
Исследователи признают общее ожидание конечным пользователем, что фильтры спама могут и будут адаптировать свое поведение на основе вмешательства пользователя (такого как перемещение электронного письма из папки спама в ящик или пометка письма как ‘не спам’), но что этот механизм не надежен и, конечно, не последовательен по всем трем электронным провайдерам, изучаемым в исследовании.
Статья отмечает:
‘[Мы] не нашли никаких последовательных действий, которые можно было бы рекомендовать пользователям, чтобы помочь им уменьшить предвзятость в том, как SFA обрабатывает политические электронные письма, которые отправляются им.’
Опубликовано впервые 4 апреля 2022 года.












