Штучний інтелект

Дослідження: Алгоритми боротьби зі спамом показали політичну упередженість під час виборів у США 2020 року

Published April 4, 2022

Updated April 28, 2026

Martin Anderson

За даними нового дослідження, алгоритми фільтрації спаму (SFAs) трьох найбільших провайдерів електронної пошти світу демонстрували політичну упередженість під час виборів у США 2020 року, при цьому Gmail від Google схилявся до лівих поглядів, а Microsoft Outlook і Yahoo Mail віддавали перевагу електронним листам від правих кандидатів.

У статті зазначається:

‘Наші спостереження показали, що всі СФА демонстрували політичну упередженість у місяці, що передували виборам у США 2020 року. Gmail схилявся до лівих (демократів), тоді як Outlook і Yahoo схилялися до правих (республіканців). Gmail позначав на 59,3% більше електронних листів від правих кандидатів як спам порівняно з лівими кандидатами, тоді як Outlook і Yahoo позначали на 20,4% і 14,2% більше електронних листів від лівих кандидатів як спам порівняно з правими кандидатами, відповідно.’

Аналіз авторів, вони стверджують, демонструє ‘агреговані упередженості’ в діяльності СФА.

У статті також визнається можливість ‘відмічання спаму’, коли актори, які намагаються заглушити голоси опозиції, можуть звернутися або отримати доступ до офіційних повідомлень від ‘ворожих’ партій і організацій з метою позначення цих повідомлень як спам, тим самим впливając на алгоритми, які визначають імовірність спаму від певного відправника.

Однак дослідники спостерігають, що це не пояснює відмічених відмінностей у тому, як різні провайдери електронної пошти, здається, налаштовували дії на основі зворотного зв’язку від кінцевих користувачів:

‘Можливо, також є можливість, що СФА електронних послуг вивчили вибір деяких виборців, які позначали певні кампанійні електронні листи як спам, і почали позначати ці/подібні кампанійні електронні листи як спам для інших виборців. Хоча у нас немає підстав вважати, що були свідомі спроби з боку цих електронних послуг створити ці упередженості для впливу на виборців, залишається той факт, що їх СФА вивчили позначати більше електронних листів від однієї політичної партії як спам порівняно з іншою.’

‘Оскільки ці відомі електронні послуги активно використовуються значною частиною виборчої аудиторії і оскільки багато виборців сьогодні покладаються на інформацію, яку вони бачать (або не бачать) в Інтернеті, такі упередженості можуть мати незначний вплив на результати виборів.’

Стаття дослідження називається A Peek into the Political Biases in Email Spam Filtering Algorithms During US Election 2020 і походять від чотирьох дослідників з кафедри комп’ютерних наук університету штату Північна Кароліна.

Round the Houses

Дослідження вчених охоплює період п’яти місяців з липня 2020 року до кінця листопада того ж року, протягом якого вони створили 102 нових адрес електронної пошти на трьох платформах електронної пошти, і підписалися на два президентських, 78 сенатських і 156 будинкових кандидатів на отримання електронних повідомлень.

Щоб виключити демографічні чинники, електронні адреси створювалися з різними демографічними чинниками для кожного (вигаданого) кінцевого користувача, і розділялися на два напрямки: перший вивчав загальні тенденції упередженості в алгоритмах фільтрації спаму на всіх об’єднаних електронних послугах для президентських, Палати представників і сенатських кандидатів; і другий вивчав, яким чином різні взаємодії з електронною поштою (наприклад, позначення або позначення як спам кінцевим користувачем) здавалися впливати на поведінку алгоритмів фільтрації спаму.

Кілька ключових спостережень стали очевидними під час дослідження. Автори повідомляють, що Gmail ‘схилявся до лівих’, тоді як Outlook і Yahoo схилялися до правих. Yahoo зберігала 55,2% усіх політичних електронних листів у поштовій скриньці користувача, тоді як Outlook фільтрувала 71,8% електронних листів від політичних кандидатів усіх партій.

‘Gmail, однак, зберігала більшість електронних листів лівих кандидатів у поштовій скриньці (< 10,12% позначених як спам), тоді як [відправляла] більшість електронних листів правих кандидатів у папку спаму (до 77,2% позначених як спам). ‘

‘Ми далі спостерігали, що відсоток електронних листів, позначених Gmail як спам від правих кандидатів, поступово зростав, коли наближалася дата виборів, тоді як відсоток електронних листів, позначених як спам від лівих кандидатів, залишався приблизно тим же.’

Пікінг Кандидатів

Хоча президентські кандидати, підписані для дослідження, були обмежені Джо Байденом і Дональдом Трампом, дослідники прийняли заходи, щоб зробити представницький вибір при розгляді підписки на електронні повідомлення від сенатських і будинкових кандидатів, з кількох причин.

По-перше, штати мають різну кількість місць у Палаті представників, залежно від кількості населення штату. По-друге, кількість сенатських і будинкових кандидатів від двох основних політичних партій варіюється по штатах. Крім того, деякі кандидати представлені тільки офіційними сайтами .gov, які законодавчо заборонені відправляти кампанійні електронні листи; і, нарешті, деякі списки підписки кандидатів були захищені CAPTCHAs, які не могли бути автоматизовані спеціальною системою збору даних дослідників.

Щоб зрівняти результатну нерівність між демократичними і республіканськими кандидатами, дослідники підписалися на кампанійні електронні повідомлення від максимальної кількості кандидатів у будь-якому штаті, де ліві і праві кандидати були рівні за кількістю, окрім штатів, таких як Аляска, який мав тільки одного республіканського сенатського кандидата.

Всього автори мали справедливо врахувати 11 таких штатів і, нарешті, мали представництво всіх 50 штатів. 78 підписок по 36 штатам склали 44 демократичних і 34 республіканських сенатських кандидатів, тоді як було 156 підписок по 42 штатам для будинкових кандидатів – 81 демократ і 75 республіканців.

Аналіз Даних

Дослідники зібрали 318 108 електронних листів по трьом електронним послугам під час активного періоду збору даних, який був обрізаний після 20 листопада через швидке зниження обсягу листів після цієї дати. Зібрані дані для кожного електронного листа включали MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF, і Received-By.

Через труднощі, пов’язані з представленням обидвох політичних партій справедливо, аналіз пропенсійної оцінки (PSA) був вибраний як статистичний метод для даних. PSA генерує коваріати з несбалансованих даних, які рівнізують розподіли у виняткових обставинах, коли контрольні групи і традиційні статистичні розрізи не легко застосовуються.

Автори висновують, що СФА для електронних послуг, вивчених у дослідженні, демонструють політичну упередженість, і що рання відносна стабільність по всіх послугах розходиться у більш специфічну поведінку з часом.

Gmail позначає більший відсоток (67,6%) правих політичних електронних листів як спам порівняно з лівими афілійованими електронними листами, але реагує більш динамічно на взаємодію з користувачем, яка позначає електронні листи як спам, ніж його колеги. Outlook, натомість, позначає 95,8% лівих електронних листів як спам порівняно з 75,4% для правих електронних листів, і Yahoo позначає на 14,2% більше лівих електронних листів як спам порівняно з правими електронними листами.

Розподіл політичної афілійованості підписок на електронні листи сенатських і будинкових кандидатів. Джерело: https://arxiv.org/pdf/2203.16743.pdf

Крім того, результати свідчать про те, що протягом періоду дослідження Gmail реагує досить загально на збільшення обсягу електронних листів по всіх політичних афілійованостях, поступово позначаючи їх як спам, незалежно від походження. Yahoo послідовно повідомляла ліві електронні листи як спам, коли кампанії просувалися, одночасно зменшуючи кількість правих електронних листів, позначених як спам. Outlook, здавалося, був найменш під впливом зростаючого обсягу електронних листів від будь-якої політичної партії, підтримуючи загальну праву упередженість.

Відсоток електронних листів, позначених як спам по обидві політичні партії і трьом електронним послугам протягом 153 днів періоду дослідження.

Відгук на взаємодію з користувачем

Коли ми позначаємо спам-електронний лист як ‘Не спам’, мета полягає в тому, щоб навчити систему електронної пошти не позначати подібні листи в майбутньому, хоча підхід до типу правила (електронний, контент-орієнтований тощо) не завжди цілком зрозумілий.

Результати дослідження показали, що серед трьох електронних послуг, вивчених у дослідженні, тільки Gmail реагував помітно на вхід ‘не спам’ від користувача. Натомість ця взаємодія користувача зі спамом (S→I) мала дуже обмежений довгостроковий ефект у Outlook і Yahoo.

Дослідники спостерігають:

‘[Через] взаємодію S→I політична упередженість у Gmail зменшилася суттєво. Однак несподівано вона збільшилася в обох Outlook і Yahoo, оскільки жодна з цих послуг не реагувала помітно на бажання користувача не позначати електронні листи як спам, які ці дві служби позначали як спам.’

Висновок

Автори висновують, що Gmail реагує ‘суттєво’ на взаємодію з користувачем порівняно з Outlook і Yahoo, незважаючи на свою ліву упередженість.

Автори заявляють:

‘Хоча політична упередженість у Gmail залишилася незмінною після взаємодії з читанням, вона зменшилася суттєво через взаємодію I→S і S→I.’

І продовжують:

‘Хоча політичні упередженості змінилися у відповідь на різні взаємодії, Gmail зберіг свою ліву упередженість, тоді як Outlook і Yahoo зберігали свою праву упередженість у всіх сценаріях.’

Дослідники визнають загальне очікування кінцевим користувачем, що фільтри спаму можуть і будуть адаптувати свою поведінку на основі втручання користувача (наприклад, переміщення електронного листа з папки спаму в поштову скриньку, або позначення листа як ‘не спам’), але що цей механізм не є надійним і, безумовно, не є послідовним по всіх трьох електронних послугах, вивчених у дослідженні.

У статті зазначається:

‘[Ми] не знайшли жодних послідовних дій, які можна було б рекомендувати користувачам, щоб допомогти їм зменшити упередженість у тому, як СФА обробляє політичні електронні листи, які їм надсилаються.’

Опубліковано вперше 4 квітня 2022 року.