заглушки Алгоритм TextFooler обманывает НЛП AI - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Алгоритм TextFooler обманывает НЛП ИИ

mm
обновленный on

Какими бы впечатляющими ни стали алгоритмы и системы обработки естественного языка в последние годы, они по-прежнему уязвимы для такого рода эксплойта, известного как «противостоятельный пример». Состязательные примеры тщательно продуманных фраз, которые могут заставить систему НЛП вести себя неожиданным и нежелательным образом. Программы ИИ могут работать неправильно с этими странными примерами, и в результате исследователи ИИ пытаются разработать способы защиты от последствий состязательных примеров.

Недавно группа исследователей из Университета Гонконга и Агентства по науке, технологиям и исследованиям в Сингапуре объединилась для создания алгоритма, демонстрирующего опасность враждебных примеров. Как сообщает Wired, алгоритм был назван ТекстФулер исследовательской группой, и он работает, слегка изменяя части предложения, влияя на то, как классификатор НЛП может интерпретировать предложение. Например, алгоритм преобразовывал одно предложение в другое подобное предложение, и предложение было передано в классификатор, предназначенный для определения того, был ли отзыв отрицательным или положительным. Исходная фраза была:

«Персонажи, отлитые невозможно изобретенным ситуации, являются полностью отчуждены от реальности ».

Он был преобразован в это предложение:

«Персонажи, отлитые невозможно инженерии обстоятельства, являются полностью отчуждены от реальности ».

Эти незначительные изменения побудили классификатор текста классифицировать отзыв как положительный, а не как отрицательный. Исследовательская группа протестировала тот же подход (замену определенных слов синонимами) на нескольких разных наборах данных и алгоритмах классификации текста. Исследовательская группа сообщает, что им удалось снизить точность классификации алгоритма до 10% вместо 90%. И это несмотря на то, что люди, читающие эти предложения, интерпретируют их так, чтобы они имели одинаковое значение.

Эти результаты вызывают беспокойство в эпоху, когда алгоритмы НЛП и ИИ используются все чаще и чаще для решения важных задач, таких как оценка медицинских претензий или анализ юридических документов. Неизвестно, насколько опасны состязательные примеры для используемых в настоящее время алгоритмов. Исследовательские группы по всему миру все еще пытаются выяснить, какое влияние они могут оказать. Недавно в отчете, опубликованном Stanford Human-Centered AI group, говорилось, что враждебные примеры могут обмануть алгоритмы ИИ и использоваться для совершения налогового мошенничества.

Есть некоторые ограничения в недавнем исследовании. Например, хотя Самир Сингх, доцент кафедры компьютерных наук Калифорнийского университета в Ирвине, отмечает, что использованный состязательный метод был эффективным, он опирается на некоторые знания об архитектуре ИИ. ИИ необходимо неоднократно проверять, пока не будет найдена эффективная группа слов, и такие повторяющиеся атаки могут быть обнаружены программами безопасности. Сингх и его коллеги провели собственное исследование по этому вопросу и обнаружили, что передовые системы, такие как алгоритмы OpenAI, могут выдавать расистский, вредоносный текст при запросе определенных триггерных фраз.

Состязательные примеры также являются потенциальной проблемой при работе с визуальными данными, такими как фотографии или видео. Один известный пример включает в себя применение определенных тонких цифровых преобразований к изображению котенка, что побуждает классификатор изображений интерпретировать его как монитор или настольный ПК. В другом примере исследование, проведенное профессором Калифорнийского университета в Берекели Доун Сонг, показало, что состязательные примеры можно использовать для изменения того, как дорожные знаки воспринимаются системами компьютерного зрения, что потенциально может быть опасно для автономных транспортных средств.

Исследования, подобные тем, которые провела команда из Гонконга и Сингапура, могут помочь инженерам ИИ лучше понять, какие уязвимости есть в алгоритмах ИИ, и, возможно, разработать способы защиты от этих уязвимостей. В качестве примера можно использовать ансамблевые классификаторы, чтобы уменьшить вероятность того, что состязательный пример сможет обмануть систему компьютерного зрения. В этом методе используется ряд классификаторов, и входное изображение подвергается небольшим преобразованиям. Большинство классификаторов обычно различают аспекты истинного содержания изображения, которые затем объединяются. В результате, даже если несколько классификаторов будут обмануты, большинство из них не будут обмануты, и изображение будет правильно классифицировано.