Зв'язатися з нами

Створення та ідентифікація пропаганди за допомогою машинного навчання

Штучний Інтелект

Створення та ідентифікація пропаганди за допомогою машинного навчання

mm

Нове дослідження зі Сполучених Штатів і Катару пропонує новий метод виявлення фейкових новин, які були написані так, як люди насправді написати фейкові новини – шляхом вбудовування неточних тверджень у здебільшого правдивий контекст та використання популярних методів пропаганди, таких як звернення до влади та завантажена мова.

Результатом проекту стало створення нового навчального набору даних з виявлення фейкових новин під назвою PropaNews, яка включає в себе ці техніки. Автори дослідження виявили, що детектори, навчені на новому наборі даних, на 7.3-12% точніші у виявленні написаної людиною дезінформації, ніж попередні сучасні підходи.

З нової статті приклади «апелювання до авторитету» та «завантаженої мови». Джерело: https://arxiv.org/pdf/2203.05386.pdf

З нової статті приклади «апелювання до авторитету» та «завантаженої мови». Джерело: https://arxiv.org/pdf/2203.05386.pdf

Автори стверджують, що, наскільки їм відомо, проект є першим, хто використовує методи пропаганди (а не відверту фактичну неточність) у текстових прикладах, створених машиною, призначених для підживлення детекторів фейкових новин.

Остання робота в цій галузі, як вони стверджують, вивчала упередженість або переформулювала «пропагандистські» дані в контексті упередженості (ймовірно, через те, що упередженість стала високо фінансовим сектором машинного навчання в епоху після Analytica).

Автори стверджують:

«На відміну від цього, наша робота створює фейкові новини, використовуючи методи пропаганди та зберігаючи більшість правильної інформації. Отже, наш підхід більше підходить для вивчення захисту від фейкових новин, написаних людьми».

Вони додатково ілюструють зростаючу актуальність більш складних методів виявлення пропаганди*:

«[Написана людьми] дезінформація, яка часто використовується для маніпулювання певними групами населення, мала катастрофічний вплив на численні події, такі як Вибори президента США 2016 року, Brexit, Пандемія COVID-19, а також нещодавній напад Росії на Україну. Отже, нам терміново потрібен механізм захисту від написаної людьми дезінформації».

Команда папір має титул Фальсифікація фейкових новин для виявлення справжніх фейкових новин: генерація навчальних даних із пропагандою, і походить від п’яти дослідників з Університету Іллінойсу Урбана-Шампейн, Колумбійського університету, Університету Хамада Бін Халіфи в Катарі, Університету Вашингтона та Інституту ШІ Аллена.

Визначення неправди

Проблема кількісної оцінки пропаганди здебільшого пов’язана з матеріально-технічним забезпеченням: дуже дорого найняти людей, щоб розпізнавати та коментувати матеріал реального світу з характеристиками, подібними до пропаганди, для включення в навчальний набір даних, і потенційно набагато дешевше видобувати та використовувати функції високого рівня. які, ймовірно, працюватимуть на «невидимих» майбутніх даних.

Для більш масштабованого рішення дослідники спочатку зібрали створені людьми дезінформаційні статті з джерел новин, які вважалися малоточними, через сайт Media Bias Fact Check.

Вони виявили, що в 33% досліджених статей використовувалися нещирі методи пропаганди, в тому числі терміни, що викликають емоції, логічні помилки та звернення до влади. Ще 55% статей містили неточну інформацію, змішану з точною.

Формування звернень до влади

Команда звернення до влади підхід має два випадки використання: цитування неточних тверджень і цитування повністю фіктивних тверджень. Дослідження зосереджено на другому випадку використання.

У новому проекті фреймворк природної мови RoBERTa визначає ще два приклади звернення до авторитету та завантаженої мови.

У новому проекті фреймворк природної мови RoBERTa визначає ще два приклади звернення до авторитету та завантаженої мови.

Щоб створити згенеровану машиною пропаганду для нового набору даних, дослідники використали попередньо підготовлену архітектуру seq2seq. БАРТ виявити помітні речення, які згодом можна було б змінити на пропаганду. Оскільки не було загальнодоступного набору даних, пов’язаного з цим завданням, автори використовували модель екстрактивного підсумовування запропонований у 2019 році оцінити речення.

Для однієї статті з кожного досліджуваного ЗМІ дослідники замінили ці «відмічені» речення фальшивими аргументами від «авторитетів», отриманих як із служби запитів Wikidata, так і від авторитетів, згаданих у статтях (тобто людей та/або організацій).

Створення завантаженої мови

Завантажена мова містить слова, часто викликані сенсацією прислівники та прикметники (як у наведеному вище прикладі), які містять неявні оціночні судження, вплетені в контекст надання факту.

Щоб отримати дані щодо завантаженої мови, автори використали набір даних із a 2019 дослідження що містить 2,547 завантажена мова екземпляри. Оскільки не всі приклади в даних за 2019 рік включали прислівники чи прикметники, що викликають емоції, дослідники використовували SpaCy для виконання аналізу залежностей і тегування частини мови (PoS), зберігаючи лише відповідні приклади для включення в структуру.

У результаті процесу фільтрації отримано 1,017 дійсних зразків завантажена мова. Інший екземпляр BART використовувався для маскування та заміни помітних речень у вихідних документах завантаженою мовою.

Набір даних PropaNews

Після проміжного модельного навчання, проведеного в 2015 р Набір даних CNN/DM з Google Deep Mind і Оксфордського університету, дослідники створили набір даних PropaNews, конвертувавши нетривіальні статті з «надійних» джерел, таких як The New York Times та The Guardian у «змінені» версії, що містять створену алгоритмічну пропаганду.

Експеримент було змодельовано на основі дослідження 2013 року в Ганновері, яке автоматично генерувало хронологічні підсумки новинних історій у 17 новинних подіях і загалом 4,535 історій.

Згенерована дезінформація була передана 400 унікальним працівникам Amazon Mechanical Turk (AMT), які охоплювали 2000 завдань людського інтелекту (HIT). Вважаються лише пропагандистські статті точний працівниками були включені до остаточної версії PropaNews. Рішення щодо розбіжностей було оцінено за угодою працівника з агрегатом (WAWA) метод.

Остаточна версія PropaNews містить 2,256 статей, збалансованих між фейковими та реальними публікаціями, 30% з яких використовують звернення до влади, з використанням ще 30%. завантажена мова. Решта просто містить неточну інформацію того типу, яка значною мірою заповнювала попередні набори даних у цій галузі досліджень.

Дані були розподілені у співвідношенні 1,256:500:500 між розподілами навчання, тестування та перевірки.

Набір даних HumanNews

Щоб оцінити ефективність навчених процедур виявлення пропаганди, дослідники зібрали 200 написаних людьми новинних статей, включаючи статті, розвінчані Politifact, і опубліковані в 2015-2020 роках.

Ці дані були доповнені додатковими спростованими статтями з ненадійних ЗМІ, а загальна сума була перевірена студентом магістратури з інформатики.

Остаточний набір даних під назвою HumanNews також включає 100 статей з Los Angeles Times.

Випробування

Процес виявлення порівнювався з попередніми фреймворками у двох формах: PN-Срібло, який не враховує перевірку анотатора AMT, і PN-Золото, який включає валідацію як критерій.

Конкуруючі фреймворки включали пропозицію 2019 року Гровер-ГЕН, 2020-і роки Факт-ГЕН та FakeEvent, де статті з PN-Silver замінюються документами, створеними цими старішими методами.

Варіанти Grover і RoBERTa виявилися найефективнішими під час навчання на новому наборі даних PropaNews, і дослідники дійшли висновку, що «Детектори, навчені на PROPANEWS, працюють краще в ідентифікації написаної людьми дезінформації порівняно з навчанням на інших наборах даних».

Дослідники також зауважують, що навіть напівпошкоджений набір даних абляції PN-Silver перевершує старіші методи на інших наборах даних.

Застарілий?

Автори повторюють відсутність на сьогоднішній день досліджень щодо автоматизованої генерації та ідентифікації фейкових новин, орієнтованих на пропаганду, і попереджають, що використання моделей, навчених на даних до критичних подій (таких як COVID або, ймовірно, поточна ситуація на сході Європа) не можна очікувати оптимальної роботи:

«Близько 48% неправильно класифікованої дезінформації, написаної людьми, спричинені неможливістю отримати динамічні знання з нових джерел новин. Наприклад, статті, пов’язані з COVID, зазвичай публікуються після 2020 року, тоді як ROBERTA пройшла попереднє навчання щодо статей новин, опублікованих до 2019 року. Для ROBERTA дуже складно виявляти дезінформацію на такі теми, якщо детектор не оснащено можливостями отримання динамічних знань. зі статей новин.'

Крім того, автори зазначають, що RoBERTa досягає 69.0% точності для виявлення фейкових новинних статей, якщо матеріал опубліковано до 2019 року, але падає до 51.9% точність, коли застосовується до новинних статей, опублікованих після цієї дати.

Пальтерування та контекст

Хоча в дослідженні це безпосередньо не розглядається, цілком можливо, що таке глибоке занурення в семантичний афект зрештою може вирішити більш витончену веонізацію мови, таку як фальшивий – корисливе та вибіркове використання правдивих тверджень для отримання бажаного результату, який може суперечити сприйнятому духу та наміру використаних доказів.

Пов’язаним і трохи більш розвиненим напрямком досліджень є НЛП, комп’ютерне бачення та мультимодальне дослідження дослідження контексту як доповнення до значення, де вибіркове й корисливе перевпорядкування чи реконтекстуалізація правдивих фактів стає еквівалентним спробі виявити іншу реакцію, ніж факти могли б спричинити зазвичай, якби вони були представлені більш чітко й лінійно.

 

* Моє перетворення внутрішніх цитат авторів на прямі гіперпосилання.

Вперше опубліковано 11 березня 2022 р.