Искусственный интеллект

Генерация и идентификация пропаганды с помощью машинного обучения

опубликованный 11 марта 2022

обновлено 9 декабря 2022

Мартин Андерсон

Новое исследование, проведенное в США и Катаре, предлагает новый метод выявления фейковых новостей, написанных так, как это делают люди. на самом деле писать фальшивые новости - путем включения неточных заявлений в в основном правдивый контекст и использования популярных пропагандистских методов, таких как апеллирует к власти и загруженный язык.

Результатом проекта стало создание нового обучающего набора данных по обнаружению фейковых новостей под названием ПропаНовости, который включает в себя эти методы. Авторы исследования обнаружили, что детекторы, обученные на новом наборе данных, на 7.3–12% точнее обнаруживают дезинформацию, написанную человеком, чем предыдущие передовые подходы.

Из новой статьи примеры «обращения к авторитету» и «нагруженного языка». Источник: https://arxiv.org/pdf/2203.05386.pdf

В новой статье приводятся примеры «апелляции к авторитету» и «нагруженного языка». Источник: https://arxiv.org/pdf/2203.05386.pdf

Авторы утверждают, что, насколько им известно, проект является первым, в котором методы пропаганды (а не прямая фактическая неточность) включаются в сгенерированные машиной текстовые примеры, предназначенные для подпитки детекторов фальшивых новостей.

Они утверждают, что последние исследования в этой области были посвящены изучению предвзятости или переосмыслению «пропагандистских» данных в контексте предвзятости (возможно, потому, что предвзятость стала высокофинансируемым сектором машинного обучения в эпоху пост-Analytica).

Авторы заявляют:

«Напротив, наша работа создаёт фейковые новости, используя пропагандистские приёмы и сохраняя большую часть достоверной информации. Следовательно, наш подход больше подходит для изучения защиты от фейковых новостей, написанных человеком».

Они также иллюстрируют растущую актуальность более сложных методов обнаружения пропаганды*:

«[Написанная человеком] дезинформация, которая часто используется для манипулирования определенным населением, оказала катастрофическое влияние на множество событий, таких как Президентские выборы 2016 года в США, Brexit, COVID-19 пандемияи недавнее нападение России на Украину. Следовательно, нам срочно необходим механизм защиты от дезинформации, написанной человеком».

статье называется Фальсификация фейковых новостей для обнаружения реальных фейковых новостей: генерация обучающих данных, загруженных пропагандой, и исходит от пяти исследователей из Иллинойсского университета Урбана-Шампейн, Колумбийского университета, Университета Хамада бин Халифа в Катаре, Вашингтонского университета и Института искусственного интеллекта Аллена.

Определение неправды

Проблема количественной оценки пропаганды в значительной степени носит логистический характер: нанимать людей для распознавания и аннотирования реального материала с характеристиками, схожими с пропагандой, для включения в обучающий набор данных — очень дорого, а извлекать и использовать высокоуровневые признаки, которые, скорее всего, будут работать с «невидимыми» будущими данными, — потенциально гораздо дешевле.

Чтобы найти более масштабируемое решение, исследователи сначала собрали дезинформационные статьи, созданные людьми, из новостных источников, которые, как считается, имеют низкую фактическую точность, через сайт Media Bias Fact Check.

Они обнаружили, что в 33% исследованных статей использовались неискренние методы пропаганды, в том числе термины, вызывающие эмоции, логические ошибки и обращение к властям. Еще 55% статей содержали недостоверную информацию, смешанную с достоверной.

Генерация обращений к властям

обращение к власти Этот подход имеет два варианта использования: цитирование неточных утверждений и цитирование полностью вымышленных утверждений. Исследование сосредоточено на втором варианте использования.

В новом проекте фреймворк для вывода на естественном языке RoBERTa выделяет еще два примера обращения к авторитету и загруженному языку.

С целью создания машинной пропаганды для нового набора данных исследователи использовали предварительно обученную архитектуру seq2seq. БАРТ для выявления характерных предложений, которые впоследствии можно было бы превратить в пропаганду. Поскольку общедоступного набора данных, относящегося к этой задаче, не было, авторы использовали модель экстрактивного суммирования. предложенный в 2019 оценить выразительность предложения.

Для одной статьи из каждого изученного новостного ресурса исследователи заменили эти «отмеченные» предложения поддельными аргументами от «авторитетов», полученными как из Службы запросов Wikidata, так и от авторитетов, упомянутых в статьях (т. е. людей и/или организаций).

Создание загруженного языка

Загруженный язык включает слова, часто сенсационные наречия и прилагательные (как в проиллюстрированном выше примере), которые содержат неявные оценочные суждения, запутанные в контексте предоставления факта.

Чтобы получить данные о загруженном языке, авторы использовали набор данных из исследование в 2019 г. содержащий 2,547 загруженный язык экземпляры. Поскольку не все примеры в данных 2019 года включали вызывающие эмоции наречия или прилагательные, исследователи использовали СпаСи выполнять синтаксический анализ зависимостей и маркировку частей речи (PoS), сохраняя только подходящие примеры для включения в структуру.

В результате фильтрации было получено 1,017 образцов действительных загруженный язык. Другой экземпляр BART использовался для маскировки и замены выделяющихся предложений в исходных документах загруженным языком.

Набор данных PropaNews

После промежуточного модельного обучения, проведенного в 2015 г. Набор данных CNN/DM С помощью Google Deep Mind и Оксфордского университета исследователи создали набор данных PropaNews, преобразовав нетривиальные статьи из «заслуживающих доверия» источников, таких как The New York Times и The Guardian в «исправленные» версии, содержащие искусственно созданную алгоритмическую пропаганду.

Эксперимент был смоделирован на основе исследования, проведенного в Ганновере в 2013 году, в результате которого автоматически были созданы сводки новостей по 17 новостным событиям, а всего 4,535 историй.

Сгенерированная дезинформация была передана 400 уникальным работникам Amazon Mechanical Turk (AMT), охватывающим 2000 задач человеческого интеллекта (HIT). Только пропагандистские статьи считались точный рабочими были включены в финальную версию PropaNews. Судебные решения по разногласиям оценивались по рабочему соглашению с агрегатом (ВАВА) метод.

Окончательная версия PropaNews содержит 2,256 статей, сбалансированных между поддельными и реальными выводами, 30% из которых используют кредитное плечо. обращение к власти, а еще 30% используют загруженный язык. Остальная часть просто содержит неточную информацию того типа, который в значительной степени заполнял предыдущие наборы данных в этой области исследований.

Данные были разделены на 1,256:500:500 для обучения, тестирования и проверки.

Набор данных HumanNews

Чтобы оценить эффективность обученных процедур обнаружения пропаганды, исследователи собрали 200 написанных людьми новостных статей, включая статьи, развенчанные Politifact и опубликованные в период с 2015 по 2020 год.

Эти данные были дополнены дополнительными опровергнутыми статьями из ненадежных новостных СМИ, а общая сумма была проверена аспирантом, специализирующимся в области компьютерных наук.

Окончательный набор данных под названием HumanNews также включает 100 статей из Los Angeles Times.

Tests

Процесс обнаружения противопоставлялся предыдущим структурам в двух формах: PN-серебро, который игнорирует проверку аннотатора AMT, и PN-золото, который включает проверку в качестве критерия.

Конкурирующие фреймворки включали предложение 2019 года. Гровер-GEN2020 Факт-GEN и Поддельное событие, при этом статьи из PN-Silver заменяются документами, созданными этими старыми методами.

Варианты Grover и RoBERTa оказались наиболее эффективными при обучении на новом наборе данных PropaNews, и исследователи пришли к выводу, что «Детекторы, обученные на PROPANEWS, лучше выявляют дезинформацию, написанную человеком, по сравнению с детекторами, обученными на других наборах данных».

Исследователи также отмечают, что даже полуискаженный набор данных абляции PN-Silver превосходит старые методы на других наборах данных.

Устаревший?

Авторы вновь заявляют об отсутствии на сегодняшний день исследований, касающихся автоматического создания и выявления пропагандистских фейковых новостей, и предупреждают, что использование моделей, обученных на данных до критических событий (таких как COVID или, возможно, текущая ситуация на востоке Европе) нельзя ожидать оптимальной работы:

«Около 48% неверно классифицированной дезинформации, написанной человеком, вызвано невозможностью извлекать динамические знания из новых источников новостей. Например, статьи, связанные с COVID, обычно публикуются после 2020 года, в то время как ROBERTA была предварительно обучена на новостных статьях, опубликованных до 2019 года. ROBERTA крайне сложно обнаружить дезинформацию по таким темам, если детектор не оснащён возможностями извлечения динамических знаний из новостных статей».

Авторы также отмечают, что RoBERTa достигает точности 69.0% для обнаружения поддельных новостных статей, когда материал был опубликован до 2019 года, но снижается до 51.9% точности при применении к новостным статьям, опубликованным после этой даты.

Пальтерация и контекст

Хотя исследование не рассматривает этот вопрос напрямую, вполне возможно, что подобное глубокое погружение в семантическое воздействие может в конечном итоге помочь в решении более тонкой проблемы использования языка в качестве оружия, например кривляние – корыстное и избирательное использование правдивых утверждений для получения желаемого результата, который может противоречить предполагаемому духу и намерениям используемых подтверждающих доказательств.

Родственное и несколько более развитое направление исследований в области НЛП, компьютерного зрения и мультимодальных исследований — это изучение контекста как дополнение к смыслу, когда выборочное и своекорыстное переупорядочение или реконтекстуализация истинных фактов становится эквивалентным попытке вызвать иную реакцию, чем могли бы обычно вызывать факты, если бы они были представлены в более ясной и линейной форме.

* Мое преобразование встроенных ссылок авторов в прямые гиперссылки.

Впервые опубликовано 11 марта 2022 г.