Штучний інтелект

MIT: вимірювання медійної упередженості в основних джерелах новин за допомогою машинного навчання

Published September 14, 2021

Updated April 28, 2026

Martin Anderson

Дослідження в MIT використовує техніки машинного навчання для ідентифікації упередженого формулювання в близько 100 найбільших і найвпливовіших джерел новин у США та за їх межами, включаючи 83 найвпливовіших друкованих видань. Це дослідження показує шлях до автоматизованих систем, які потенційно можуть класифікувати політичний характер видання та надати читачам глибше розуміння етичної позиції видання щодо питань, про які вони можуть відчувати сильну зацікавленість.

Ця робота зосереджена на тому, як теми розглядаються з особливим формулюванням, наприклад, “недокументований іммігрант” | “незаконний іммігрант”, “плід” | “немовля”, “демонстранти” | “анархісти”.

Проект використовував техніки обробки природної мови (NLP) для витягування та класифікації таких випадків “зарядженого” мовлення (при припущенні, що, здавалося б, більш “нейтральні” терміни також представляють політичну позицію) у широкій карті, яка розкриває ліву та праву упередженість понад три мільйони статей з близько 100 джерел новин, що призводить до навігаційної ландшафту упередженості видань у питаннях.

Стаття від Саманти Д’Алонзо та Макса Тегмарка з фізичного факультету MIT спостерігає, що низка недавніх ініціатив щодо “факт-чекінгу” після численних скандалів з “фейковими новинами” можна інтерпретувати як нечесні та служать інтересам певних груп. Проект має на меті надати більш даних підхід до вивчення використання упередженості та “впливової” мови в контексті новин, які вважаються нейтральними.

Спектр (буквально) лівих до правих фраз, отриманий з дослідження. Джерело: https://arxiv.org/pdf/2109.00024.pdf

Обробка NLP

Джерельні дані дослідження були отримані з відкритої бази даних Newspaper3K і складалися з 3 078 624 статей, отриманих з 100 джерел новин, включаючи 83 газет. Газети були вибрані на основі їхньої популярності, тоді як онлайн-джерела новин також включали статті з військового аналітичного сайту Defense One та Science.

Джерела, використані в дослідженні.

У статті зазначається, що завантажений текст був “мінімально” попередньо оброблений. Прямі цитати були видалені, оскільки дослідження цікавиться мовою, обраною журналістами (хоча вибір цитат сам по собі є цікавним напрямком дослідження).

Британські правописи були змінені на американські для уніфікації бази даних, усунуто всі знаки пунктуації, а також усунуто всі, крім порядкових чисел. Початкова велика літера була переведена в малий реєстр, але всі інші великі літери залишилися без змін.

Перші 100 000 найпоширеніших фраз були визначені та класифіковані, а потім ранжировані, очищені та об’єднані в список фраз. Усі зайві мови, які могли бути ідентифіковані (наприклад, “Поділитися цією статтею” та “стаття перепублікована”), були видалені. Варіації практично ідентичних фраз (наприклад, “більше технології” та “Більше технологій”, “кібербезпека” та “кібербезпека”) були уніфіковані.

‘Натпікінг’

Перший тест був проведений на тему “Black lives matter”, і вдалося розрізнити фразову упередженість та валентні синоніми по всьому даних.

Загальні компоненти для статей про Black Lives Matter (BLM). Ми бачимо людей, які беруть участь у громадській діяльності, характеризованих буквально та фігурально зліва направо, як демонстрантів, анархістів і, на правому кінці спектру, як ‘бунтарів’. Газети, які походять від фрази, представлені в правій панелі.

Хоча “протестувальники” переходять від “анархістів” до “бунтарів”, коли ми рухаємося уздовж політичної позиції джерела, стаття зазначає, що позиція витягування та аналізу NLP ускладнюється практикою “натпікінгу” – коли джерело новин цитує фразу, яку бачить як дійсну іншою політичною частиною суспільства, і може (очевидно) покладатися на свою аудиторію, щоб бачити фразу негативно. Стаття цитує “розформувати поліцію” як приклад цього.

Природно, це означає, що “лівостороння” фраза з’являється в іншому правосторонньому контексті та представляє незвичайну складність для системи NLP, яка покладається на кодифіковані фрази для дії як індикатори політичних позицій.

Такі фрази є “бі-валентними”, тоді як певні інші фрази мають таку універсально негативну конотацію (наприклад, “інфантицид”), що вони завжди представляються як негативні по всьому джерелам.

Дослідження також розкриває подібні карти для “гарячі” теми, такі як аборт, цензура технологій, імміграція в США та контроль над зброєю.

Хобі-коні

Є певні суперечливі політичні нахили в джерелах новин, які не діляться передбачуваним чином, наприклад, тема військових витрат. Стаття виявила, що “лівостороннє” CNN опинилося поряд з правостороннім National Review та Fox News на цю тему.

Загалом, однак, політична позиція можна визначити іншими фразами, такими як перевага фрази “військово-промисловий комплекс” над більш правосторонньою “оборонною промисловістю”. Результати показують, що перша використовується критичними щодо влади виданнями, такими як Canary та American Conservative, тоді як друга використовується частіше Fox та CNN.

Дослідження встановлює кілька інших прогресій від критичної щодо влади мови до проурядової мови, включаючи прогрес від “вбито” до більш пасивного “вбивство”; “в’язні-злочинці” до “ув’язнені люди”; та “виробники нафти” до “більша нафта”.

Валентні синоніми з упередженням влади, зверху вниз.

Дослідження визнає, що джерела новин будуть “відхилятися” від своєї базової політичної позиції, або на лінгвістичному рівні (наприклад, використання бі-валентних фраз), або з інших мотивів. Наприклад, шановане правостороннє британське видання The Spectator, засноване в 1828 році, часто та помітно публікує лівосторонні статті, які суперечать загальному політичному потоку його контенту – чи робить це з відчуттям безстороннього висвітлення або періодично розбурює свою основну аудиторію у трафіку-генеруючих бурях коментарів, є питанням для кон’єктури – і не простим випадком для системи машинного навчання, яка шукає чіткі та послідовні токени.

Ці особливі “хобі-коні” та двозначне використання “дисонансних” поглядів серед окремих джерел новин трохи заплутує ліво-праву карту, яку дослідження в кінцевому підсумку пропонує, хоча й надає широке уявлення про політичну приналежність.

Утримувана значимість

Хоча дослідження датується 2 вересня та опубліковане наприкінці серпня 2021 року, воно отримало відносно мало уваги. Частково це може бути тому, що критичні дослідження, спрямовані на основні джерела новин, малоймовірно будуть з ентузіазмом прийняті ними; але це також може бути через неохоту авторів створювати чіткі та недвозначні графіки, які стратифікують, де впливові та потужні джерела новин стоять на різних питаннях, разом з агрегованими значеннями, які вказують на ступінь, до якого видання нахилиться вліво чи вправо.

Відповідно, автори здаються такими, що докладають зусиль, щоб пом’якшити потенційний інцидентний ефект результатів.

Аналогічно, обширні опубліковані дані проекту показують частоту випадків слів, але здаються анонімізованими, що робить складно отримати чітке уявлення про медійну упередженість серед джерел новин, які вивчаються. Без операціоналізації проекту це залишає тільки вибрані приклади, представлені в статті.

Пізніші дослідження цього типу, можливо, будуть більш корисними, якщо вони будуть враховувати не тільки формулювання, використане для тем, але й те, чи була тема розглянута взагалі, оскільки мовчання говорить об’ємно, і має в собі окрему політичну характеристику, яка часто говорить про більше, ніж просто бюджетні обмеження або інші прагматичні чинники, які можуть інформувати вибір новин.

Тим не менше, дослідження MIT здається найбільшим свого типу на сьогодні та може сформувати основу для майбутніх систем класифікації, а також вторинних технологій, таких як плагіни браузера, які можуть попередити випадкових читачів про політичну фарбування видання, яке вони зараз читать.

Бульбуль, упередженість та phảnдія

Крім того, потрібно буде розглянути, чи такі системи будуть进一步 посилювати одну з найбільш суперечливих сторін алгоритмічних систем рекомендацій – тенденцію привести глядача в середовища, де він ніколи не побачить контрастної чи викликувальної точки зору, що, ймовірно, ще більше зміцнить позицію читача щодо ключових питань.

Чи такий “бульбуль” є “безпечним середовищем”, перепоною інтелектуальному зростанню чи захистом від часткової пропаганди, є оцінкою – філософською проблемою, яку складно підходити з механістичної, статистичної точки зору систем машинного навчання.

Далі, як і дослідження MIT докладає зусиль, щоб дозволити даним визначити результати, класифікація політичної цінності фраз є невід’ємно певним видом оцінки, і тим, який не може легко витримати здатність мови перекодувати токсичний чи суперечливий контент у нові фрази, які не знаходяться в довіднику, правила форуму чи навчальній базі даних.

Якщо така кодифікація стане частиною популярних онлайн-систем, здається ймовірним, що тривале зусилля щодо картографування етичної та політичної температури основних джерел новин може розвинутися у холодну війну між здатністю ІІ класифікувати упередженість та здатністю видавців виражати свою позицію в еволюційному ідомі, призначеному для регулярного обгону розуміння семантики машинним навчанням.

Related Topics:Bias media News nlp research