заглушки Повторная идентификация заблокированных комментаторов в социальных сетях с помощью машинного обучения - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Повторная идентификация запрещенных комментаторов социальных сетей с помощью машинного обучения

mm
обновленный on

Исследователи из Университета Джона Хопкинса разработали подход Deep Metric для выявления онлайн-комментаторов, у которых, возможно, были заблокированы предыдущие учетные записи или которые могут использовать несколько учетных записей для астротурфинга или иным образом манипулировать добросовестностью онлайн-сообществ, таких как Reddit и Twitter.

Подход, представленный в Новый документ под руководством исследователя НЛП Алима Хана, не требует автоматического или ручного аннотирования входных данных и улучшает результаты предыдущих попыток, даже если доступны только небольшие образцы текста и когда текст не присутствовал в наборе данных на момент Тренировочное время.

Система предлагает простую схему увеличения данных с вложениями разных размеров, обученными на большом наборе данных, содержащем более 300 миллионов комментариев, охватывающих миллион различных учетных записей пользователей.

Типовая архитектура системы повторной идентификации Джона Хопкинса, где основными компонентами являются 1) текстовый контент, 2) суб-функция Reddit и 3) время/дата публикации. Источник: https://arxiv.org/pdf/2105.07263.pdf

Типовая архитектура системы повторной идентификации Джона Хопкинса, где основными компонентами являются 1) текстовый контент, 2) суб-функция Reddit и 3) время/дата публикации. Источник: https://arxiv.org/pdf/2105.07263.pdf

Платформа, основанная на данных об использовании Reddit, учитывает текстовый контент, размещение в подразделах Reddit и время публикации. Три фактора сочетаются с различными методами встраивания, включая одномерные свертки и линейные проекции, и им помогают механизм внимания и слой максимального объединения.

Хотя система концентрируется на текстовой области, исследователи утверждают, что ее подход может быть перенесен на анализ видео или изображений, поскольку производный алгоритм работает с частотными вхождениями на высоком уровне, несмотря на различную длину входных данных для точек обучающих данных.

Избегайте «сдвига темы»

Одна из ловушек, в которую могут попасть исследования такого рода и которую авторы специально предусмотрели при разработке системы, заключается в чрезмерном акцентировании повторения определенных тем или тем в сообщениях с разных учетных записей.

Хотя пользователь действительно может повторяться или итеративно писать в определенном направлении мысли, тема, вероятно, будет развиваться и «дрейфовать» с течением времени, обесценивая ее использование в качестве ключа к идентичности. Авторы характеризуют эту потенциальную ловушку как «правильность по неправильным причинам». учился у Джона Хопкинса.

Методика обучения

Система использует тренировка смешанной точности, инновация, представленная в 2018 году Baidu и NVIDIA, которая вдвое сокращает требования к памяти за счет использования чисел с плавающей запятой половинной точности: 16-битных значений с плавающей запятой вместо 32-битных значений. Данные были обучены на двух графических процессорах V100, среднее время обучения составило 72 часа.

В схеме используется упрощенное кодирование текста, а сверточные кодировщики ограничены 2-4 подсловами. Хотя средняя длина фреймворков такого рода составляет максимум пять подслов, исследователи обнаружили, что такая экономия не только не повлияла на эффективность ранжирования, но и что увеличение количества подслов до максимум пяти фактически деградировавший точность ранжирования.

Набор данных

Исследователи получили набор данных из 300 миллионов сообщений Reddit за 2020 год. Pushshift Reddit Корпус набор данных, называемый набором данных для миллионов пользователей (MUD).

Набор данных включает все сообщения авторов Reddit, опубликовавших от 100 до 1000 сообщений в период с июля 2015 года по июнь 2016 года. Таким образом, выборка во времени обеспечивает достаточную продолжительность истории для исследования и снижает влияние спорадических спам-сообщений, которые не входят в область исследования. целей исследования.

Статистика по производному набору данных для проекта повторного идентификатора Джона Хопкинса.

Статистика по производному набору данных для проекта повторного идентификатора Джона Хопкинса.

Итоги

На изображении ниже показано кумулятивное улучшение результатов, поскольку точность ранжирования проверяется с интервалом в один час во время обучения. Через шесть часов система превосходит базовые достижения соответствующих предыдущих инициатив.

В исследовании абляции исследователи обнаружили, что удаление суб-функции Reddit из рабочего процесса на удивление мало повлияло на точность ранжирования, предполагая, что система очень эффективно обобщает с помощью надежного инструментария функций.

Частота публикации в качестве подписи для повторной идентификации

Это также указывает на то, что фреймворк легко переносится на другие системы комментирования или публикации, где доступно только текстовое содержание и дата/время публикации, и, по сути, что временная частота публикации сама по себе является ценным сопутствующим индикатором фактического текста. содержание.

Исследователи отмечают, что попытка выполнить ту же оценку в рамках содержимого одного суб-реддита представляет собой более сложную задачу, поскольку сам суб-реддит служит прокси-сервером темы, и, возможно, для выполнения этой роли потребуется дополнительная схема.

Тем не менее, исследование смогло достичь многообещающих результатов в рамках этих ограничений, с единственной оговоркой, что система работает лучше при больших объемах и может вызвать дополнительные трудности при повторной идентификации пользователей, где количество сообщений невелико.

Развитие работы

В отличие от многих инициатив в области контролируемого обучения, функции в схеме повторной идентификации Хопкинса являются дискретными и достаточно надежными, поэтому производительность системы заметно улучшается по мере увеличения объема данных.

Исследователи выражают заинтересованность в разработке системы путем принятия более детального подхода к анализу времени публикации, поскольку часто предсказуемые графики механических спамеров (автоматические или иные) поддаются идентификации с помощью такого подхода, и это позволит либо более эффективно исключать роботизированный контент из исследования, в первую очередь нацеленного на надоедливых пользователей или помогающего идентифицировать автоматизированный контент.