Искусственный интеллект

Обнаружение враждебных высказываний ИИ для борьбы со стереотипами и дезинформацией

Published August 13, 2023

Updated April 4, 2026

Haziqa Sajid

Featured Blog Image-AI Hate Speech Detection to Combat Stereotyping & Disinformation

Сегодня интернет является жизненной артерией глобальной связи и общения. Однако с этой беспрецедентной онлайн-связностью мы также сталкиваемся с темной стороной человеческого поведения, то есть враждебными высказываниями, стереотипами и вредным контентом. Эти проблемы проникли в социальные сети, онлайн-форумы и другие виртуальные пространства, нанося долгосрочный ущерб отдельным лицам и обществу. Поэтому необходима система обнаружения враждебных высказываний.

Согласно данным Центра исследований Pew, 41% американских взрослых говорят, что они лично столкнулись с интернет-абьюзом, и 25% являются жертвами серьезных преследований.

Чтобы создать более позитивную и уважительную онлайн-среду, важно принимать активные меры и использовать силу технологий. В этом отношении искусственный интеллект (ИИ) предоставляет инновационные решения для обнаружения и борьбы с враждебными высказываниями и стереотипами.

Ограничения текущих методов смягчения и необходимость активных мер

Текущие меры по смягчению враждебных высказываний ограничены. Они не могут эффективно предотвратить распространение вредного контента в интернете. Эти ограничения включают:

Реактивные подходы, в основном полагающиеся на человеческую модерацию и статические алгоритмы, не могут идти в ногу с быстрым распространением враждебных высказываний.
Огромный объем онлайн-контента перегружает человеческих модераторов, что приводит к задержкам в реакции и пропуску случаев вредной риторики.
Кроме того, контекстуальное понимание и эволюционирующие языковые нюансы представляют собой проблемы для автоматизированных систем, чтобы точно определить и интерпретировать случаи враждебных высказываний.

Чтобы решить эти ограничения и создать более безопасную онлайн-среду, необходимо перейти к активным мерам. Принимая меры, основанные на ИИ, мы можем укрепить наши цифровые сообщества, способствуя инклюзивности и сплочению онлайн-мира.

Обнаружение и флагирование враждебных высказываний с помощью ИИ

В борьбе с враждебными высказываниями ИИ становится мощным союзником, с алгоритмами машинного обучения (МО) для быстрого и точного обнаружения и флагирования вредного контента. Анализируя огромные объемы данных, модели ИИ могут научиться распознавать закономерности и языковые нюансы, связанные с враждебными высказываниями, что позволяет им эффективно категоризировать и реагировать на оскорбительный контент.

Чтобы обучить модели ИИ для точного обнаружения враждебных высказываний, используются методы обучения с учителем и без учителя. Обучение с учителем предполагает предоставление помеченных примеров враждебных высказываний и безвредного контента, чтобы научить модель различать эти две категории. Напротив, методы обучения без учителя и полуучителя используют непомеченные данные, чтобы развить понимание модели враждебных высказываний.

Использование методов контрвысказывания ИИ для борьбы с враждебными высказываниями

Контрвысказывания становятся мощной стратегией для борьбы с враждебными высказываниями, напрямую оспаривая и решая вредные нарративы. Это предполагает создание убедительного и информативного контента для продвижения сочувствия, понимания и терпимости. Это позволяет отдельным лицам и сообществам активно участвовать в создании позитивной цифровой среды.

Хотя конкретные детали отдельных моделей контрвысказывания могут варьироваться в зависимости от технологии ИИ и подходов к разработке, некоторые общие особенности и методы включают:

Генерация естественного языка (ГЯ): Модели контрвысказывания используют ГЯ для создания человеческих ответов в письменной или устной форме. Ответы являются связными и контекстно-релевантными для конкретного случая враждебных высказываний, которые они оспаривают.
Анализ настроений: Модели контрвысказывания ИИ используют анализ настроений для оценки эмоционального тона враждебных высказываний и адаптации своих ответов соответственно. Это гарантирует, что контрвысказывания являются как эффективными, так и сочувствующими.
Контекстуальное понимание: Анализируя контекст, окружающий враждебные высказывания, модели контрвысказывания могут создавать ответы, решающие конкретные проблемы или заблуждения, что способствует более эффективному и сосредоточенному контрвысказыванию.
Разнообразие данных: Чтобы избежать предвзятости и обеспечить справедливость, модели контрвысказывания обучаются на разнообразных наборах данных, представляющих различные точки зрения и культурные нюансы. Это помогает создавать инклюзивные и культурно-чувствительные ответы.
Обучение на обратной связи пользователей: Модели контрвысказывания могут непрерывно улучшаться, обучаясь на обратной связи пользователей. Этот цикл обратной связи позволяет модели усовершенствовать свои ответы на основе реальных взаимодействий, повышая свою эффективность со временем.

Примеры борьбы с враждебными высказываниями с помощью ИИ

Реальный пример метода контрвысказывания ИИ – это “Метод Redirect“, разработанный Google’s Jigsaw и Moonshot CVE. Метод Redirect использует нацеленную рекламу для достижения людей, восприимчивых к экстремистским идеологиям и враждебным высказываниям. Этот подход, основанный на ИИ, направлен на то, чтобы отговорить людей от участия во вредном контенте и продвигать сочувствие, понимание и отход от экстремистских убеждений.

Исследователи также разработали новую модель ИИ под названием BiCapsHate, которая служит мощным инструментом против онлайн-враждебных высказываний, как сообщается в IEEE Transactions on Computational Social Systems. Она поддерживает двунаправленный анализ языка, улучшая понимание контекста для точного определения вредного контента. Это достижение направлено на смягчение вредного воздействия враждебных высказываний в социальных сетях, предлагая потенциал для более безопасных онлайн-взаимодействий.

Аналогично, исследователи в Университете Мичигана использовали ИИ для борьбы с онлайн-враждебными высказываниями, используя подход под названием Rule By Example (RBE). Используя глубокое обучение, этот подход учит правила классификации враждебных высказываний на примерах вредного контента. Эти правила применяются к входному тексту для точного определения и прогнозирования онлайн-враждебных высказываний.

Этические соображения для моделей обнаружения враждебных высказываний

Чтобы максимизировать эффективность моделей контрвысказывания ИИ, этические соображения имеют первостепенное значение. Однако важно сбалансировать свободу слова и запрет на распространение вредного контента, чтобы избежать цензуры.

Прозрачность в разработке и развертывании моделей контрвысказывания ИИ необходима для создания доверия и подотчетности среди пользователей и заинтересованных сторон. Кроме того, обеспечение справедливости равно важно, поскольку предвзятости в моделях ИИ могут увековечить дискриминацию и исключение.

Например, ИИ, предназначенный для выявления враждебных высказываний, может непреднамеренно усиливать расовую предвзятость. Исследование показало, что ведущие модели ИИ для обнаружения враждебных высказываний в 1,5 раза чаще флагировали твиты афроамериканцев как оскорбительные. Они в 2,2 раза чаще флагировали твиты как враждебные высказывания, написанные на афроамериканском английском. Аналогичные доказательства были получены в исследовании 155 800 постов в Twitter, связанных с враждебными высказываниями, подчеркивающих проблему решения расовой предвзятости в модерации контента ИИ.

В другом исследовании исследователи протестировали четыре системы ИИ для обнаружения враждебных высказываний и обнаружили, что все они испытывают трудности в точном определении токсичных предложений. Чтобы диагностировать точные проблемы в этих моделях обнаружения враждебных высказываний, они создали таксономию 18 типов враждебных высказываний, включая оскорбления и угрожающий язык. Они также подчеркнули 11 сценариев, которые вызывают проблемы у ИИ, таких как использование нецензурной лексики в безобидных заявлениях. В результате исследование создало HateCheck, открытый набор данных из почти 4 000 примеров, направленный на улучшение понимания нюансов враждебных высказываний для моделей ИИ.

Осведомленность и цифровая грамотность

Борьба с враждебными высказываниями и стереотипами требует активного и многогранного подхода. Поэтому повышение осведомленности и продвижение цифровой грамотности имеет важное значение в борьбе с враждебными высказываниями и стереотипами.

Обучение людей о влиянии вредного контента способствует культуре сочувствия и ответственного онлайн-поведения. Стратегии, которые поощряют критическое мышление, наделяют пользователей возможностью различать легитимную дискуссию и враждебные высказывания, снижая распространение вредных нарративов. Кроме того, оснащение пользователей навыками для определения и эффективного реагирования на враждебные высказывания имеет важное значение. Это позволит им оспаривать и противостоять вредной риторике, способствуя более безопасной и уважительной цифровой среде.

По мере эволюции технологии ИИ потенциал решения проблем враждебных высказываний и стереотипов с большей точностью и воздействием растет экспоненциально. Поэтому важно укрепить ИИ-основанные контрвысказывания как мощный инструмент для содействия сочувствию и позитивному взаимодействию в интернете.

Для получения более подробной информации о тенденциях и технологиях ИИ посетите unite.ai.