Модели и платформы ИИ

Что такое враждебная поэзия? Новый метод взлома ИИ

mm

Безопасность искусственного интеллекта (ИИ) превратилась в постоянную игру в кошки-мышки. Когда разработчики добавляют ограничения, чтобы блокировать вредные запросы, атакующие продолжают пробовать новые способы их обхода. Одним из самых странных поворотов является враждебная поэзия. Этот тактический прием включает в себя маскировку запросов под стихи и использование рифмы, метафоры и необычной фразеологии, чтобы сделать рискованные инструкции менее похожими на те, которые системы безопасности обучены обнаруживать.

На практике сам контент не меняется сильно. Это оболочка, которая меняется, что может быть достаточно, чтобы запутать фильтры, основанные на закономерностях. Это напоминание о том, что с сегодняшними моделями то, как что-то спрашивается, может быть почти так же важно, как и то, что спрашивается.

Что произошло, когда исследователи использовали стихи, чтобы взломать ИИ?

В начале 2025 года исследователи продемонстрировали, что крупные языковые модели (КЯМ) могут быть запрограммированы на ответы на ограниченные запросы, обернув их в поэтическую форму. Вместо того, чтобы давать прямые, триггерные инструкции, исследователи встроили те же запросы внутрь рифм, метафор и повествовательных стихов.

На поверхности запросы казались творческими упражнениями в написании, но под поверхностью они несли тот же замысел, который обычно блокируется. На 25 передовых проприетарных и открытых моделей команда сообщила, что поэтическая обертка достигла среднего успеха взлома в 62% для手作ных стихов и около 43% для массового «перевода в стихи» с использованием стандартизированного мета-запроса.

Ответы сами по себе не были новыми типами сбоев, а знакомыми, появляющимися через неожиданную дверь. Модели были подтолкнуты к производству контента, который они обычно избегают — таких, как объяснения, касающиеся незаконных или вредных действий — потому, что основной запрос был фрагментирован и скрыт поэтической структурой.

Основным выводом исследования является то, что стилистические вариации сами по себе могут быть достаточными, чтобы избежать систем безопасности, настроенных на более буквальную фразеологию. Это раскрывает уязвимость, которая очевидна во всех семействах моделей и подходах к выравниванию.

Как работает враждебная поэзия

Враждебные атаки используют простую реальность — системы машинного обучения не «понимают» язык так, как люди. Они обнаруживают закономерности, прогнозируют вероятные продолжения и следуют инструкциям на основе того, что их обучение и слои безопасности интерпретируют как замысел.

Когда запрос формулируется в прямой, буквальной форме, его легче защитным системам распознать и заблокировать. Однако, когда та же цель маскируется — разделена, смягчена или переформулирована — защитные слои могут пропустить то, что на самом деле спрашивается.

Почему поэзия может быть эффективным средством

Поэзия естественно построена на двусмысленности. Она полагается на метафору, абстракцию, необычную структуру и косвенную фразеологию. Это именно те черты, которые могут стереть границу между «безобидным творческим письмом» и «запросом, который должен быть отклонен».

В том же исследовании 2025 года исследователи сообщили, что поэтические запросы вызвали опасные ответы с успехом в 90% на широком наборе моделей, указывая на то, что стиль сам по себе может существенно изменить результаты.

Как стихотворение скрывает реальный запрос

Рассмотрим запрос как сообщение, а стихотворение как упаковку. Фильтры безопасности часто ищут очевидные признаки, такие как явные ключевые слова, прямая пошаговая фразеология или узнаваемый злой замысел.

Поэзия может скрыть этот замысел с помощью фигурального языка или распределить его по строкам, что делает его труднее обнаружить в изоляции. Тем временем основная модель все равно восстанавливает смысл достаточно хорошо, чтобы ответить, потому что она оптимизирована для вывода замысла даже тогда, когда язык косвенный.

Обнаружение и смягчение взломов

Когда методы взлома становятся более творческими, разговор должен сдвинуться от того, как они работают, к тому, как их обнаруживают и сдерживают. Это особенно верно сейчас, когда ИИ является частью повседневных рутин для многих людей, поскольку 27% сообщают об использовании его несколько раз в день.

Когда больше людей используют крупные языковые модели (КЯМ), должны быть протестированы и изучены дополнительные меры безопасности. Эта задача включает в себя построение многослойных защит, которые могут адаптироваться к новым стилям запросов и трюкам обхода по мере их появления.

Дилемма разработчика

Самой трудной частью взломов для команд ИИ-безопасности является то, что они не приходят как одна известная угроза. Они постоянно меняются со временем. Это постоянное изменение происходит потому, что пользователь может перефразировать запрос, разделить его на фрагменты, обернуть в ролевую игру или замаскировать под творческое письмо. Затем каждая новая упаковка может изменить, как система интерпретирует замысел запроса.

Эта задача быстро масштабируется, когда ИИ уже интегрирован в повседневные рутинные действия, поэтому фактическое использование создает бесконечные возможности для появления краевых случаев.

Поэтому сегодня безопасность ИИ больше похожа на управление рисками во времени. Фреймворк управления рисками ИИ NIST (AI RMF) явно рассматривает управление рисками как непрерывный набор действий — организованный вокруг управление, картирование, измерение и управление — а не как статический чек-лист. Цель состоит в том, чтобы создать процессы, которые делают его легче выявлять возникающие режимы сбоев, расставлять приоритеты для исправлений и укреплять меры безопасности, когда появляются новые стили взлома.

Как модели защищают себя

Безопасность ИИ состоит из нескольких слоев. Большинство систем имеют более одного защитного слоя, работающего вместе, каждый из которых ловит разные виды рискованного поведения. На внешнем слое входные и выходные фильтры действуют как шлюз.

Входящие запросы сканируются на наличие нарушений политики до того, как они достигнут основной модели, в то время как исходящие ответы проверяются, чтобы убедиться, что ничего не проходит на пути обратно к пользователю. Эти системы хороши в обнаружении прямых запросов или знакомых красных флагов, но они также являются наиболее легкими для обхода, что является причиной, по которой более обманчивые взломы часто обходят их.

Следующий слой защиты происходит внутри самой модели. Когда техники взлома обнаруживаются, они часто превращаются в примеры для обучения. Это то место, где происходит обучение с помощью противостояния и обучение с подкреплением от обратной связи человека (RLHF).

Оттачивая модели на примерах неудачных или рискованных взаимодействий, разработчики фактически учат систему распознавать закономерности, которые она должна отказать, даже когда они обернуты в творческий или косвенный язык. Со временем этот процесс помогает привить модель против целых классов атак.

Роль «красной команды» ИИ

Вместо того, чтобы ждать, пока произойдет взлом, компании используют команды «красной команды» ИИ. Эти команды являются группами, задача которых — попытаться взломать модели в контролируемых средах. Они подходят к системам так, как это сделал бы атакующий, экспериментируя с необычной фразеологией, творческими форматами и краевыми случаями, чтобы обнаружить, где меры безопасности не справляются. Цель состоит в том, чтобы раскрыть слабые места до того, как они появятся в реальном использовании.

«Красная команда» теперь становится неотъемлемой частью жизненного цикла разработки в сегодняшних стратегиях кибербезопасности. Когда команда обнаруживает новую технику взлома, полученные данные напрямую питают обратно в конвейеры обучения и оценки. Эта информация используется для определения фильтров, корректировки политики и укрепления обучения с помощью противостояния, чтобы подобные попытки были менее вероятными для успеха в будущем. Со временем это создает непрерывный цикл — поиск сбоев, обучение на них и улучшение системы, затем повтор.

Когда поэзия становится стресс-тестом для безопасности ИИ

Враждебная поэзия напоминает нам, что меры безопасности ИИ зависят от того, как пользователь формулирует вопросы, а не только от того, что спрашивается. Когда модели становятся более доступными и широко используются, исследователи продолжат проверять пробелы между творческим языком и системами безопасности, предназначенными для обнаружения более прямого замысла. Основным выводом является то, что более безопасный ИИ будет получен из нескольких защит, которые эволюционируют так же быстро, как и взломы.

Zac Amos - это технический писатель, который фокусируется на искусственном интеллекте. Он также является редактором рубрики в ReHack, где вы можете прочитать больше его работ.