Искусственный интеллект
Что такое враждебная поэзия? Новый метод взлома ИИ
Безопасность искусственного интеллекта (ИИ) превратилась в постоянную игру в кошки-мышки. Когда разработчики добавляют ограничения, чтобы блокировать вредные запросы, атакующие продолжают пробовать новые способы обойти их. Одним из самых странных поворотов является враждебная поэзия. Этот тактический прием включает в себя маскировку подсказок в виде стихов и использование рифмы, метафоры и необычной фразеологии, чтобы сделать рискованные инструкции менее похожими на те вещи, которые системы безопасности обучены обнаруживать.
На практике содержание само по себе не меняется много. Это обертка, которая меняется, что может быть достаточно, чтобы запутать фильтры, основанные на шаблонах. Это напоминание о том, что с сегодняшними моделями то, как что-то спрашивается, может иметь значение почти так же, как и то, что спрашивается.
Что произошло, когда исследователи использовали стихи, чтобы взломать ИИ?
В начале 2025 года исследователи продемонстрировали, что большие языковые модели (БЯМ) могут быть запущены для ответа на ограниченные подсказки, обернув их в поэтическую форму. Вместо того, чтобы выдавать прямые, запускающие политику инструкции, исследователи встроили те же запросы внутрь рифм, метафор и повествовательных стихов.
На поверхности подсказки казались творческими упражнениями в написании, но под поверхностью они несли тот же замысел, который обычно блокируется. По 25 передовым проприетарным и открытым моделям, команда сообщила, что поэтическая рамка достигла среднего успеха в 62% для手одельных стихов и около 43% для массового “перевода в стихи” с использованием стандартизированного мета-подсказки.
Ответы сами по себе не были новыми типами неудач, а знакомыми, появляющимися через неожиданную дверь. Модели были подтолкнуты к производству контента, который они обычно избегают — таких как объяснения, касающиеся незаконных или вредных действий — потому, что основной запрос был фрагментирован и скрыт поэтической структурой.
Основным выводом исследования является то, что стилистическое разнообразие само по себе может быть достаточным, чтобы избежать систем безопасности, настроенных на более буквальную фразеологию. Это раскрывает уязвимость, которая очевидна во всех семействах моделей и подходах к выравниванию.
Как работает враждебная поэзия
Враждебные атаки используют простую реальность — системы машинного обучения не “понимают” язык так, как люди. Они обнаруживают шаблоны, прогнозируют вероятные продолжения и следуют инструкциям на основе того, что их обучение и слои безопасности интерпретируют как замысел.
Когда подсказка сформулирована в прямой, буквальной форме, это легче для ограничений распознавать и блокировать. Однако, когда та же цель маскируется — разделена, смягчена или переформулирована — защитные слои могут пропустить то, что на самом деле запрашивается.
Почему поэзия может быть эффективным средством
Поэзия естественно построена для двусмысленности. Она полагается на метафору, абстракцию, необычную структуру и косвенную фразеологию. Это именно те характеристики, которые могут стереть границу между “безобидным творческим письмом” и “запросом, который должен быть отклонен”.
В том же исследовании 2025 года исследователи сообщили, что поэтические подсказки вызвали не安全ные ответы с успехом в 90% по широкому спектру моделей, указывая на то, что стиль может существенно изменить результат.
Как стихотворение скрывает реальный запрос
Рассмотрите запрос как сообщение и стихотворение как упаковку. Фильтры безопасности часто ищут очевидные признаки, такие как явные ключевые слова, прямая пошаговая фразеология или узнаваемый злонамеренный замысел.
Поэзия может скрыть этот замысел через фигуративный язык или распределить его по строкам, что делает его труднее обнаружить в изоляции. Тем временем основная модель все равно восстанавливает смысл достаточно хорошо, чтобы ответить, потому что она оптимизирована для вывода замысла даже тогда, когда язык косвенный.
Обнаружение и смягчение взломов
Когда методы взлома становятся более творческими, разговор должен сместиться от того, как они работают, к тому, как их обнаруживают и сдерживают. Это особенно верно сейчас, когда ИИ является частью повседневных рутин для многих людей, поскольку 27% сообщают, что используют его несколько раз в день.
Когда больше людей используют большие языковые модели (БЯМ), должны быть протестированы и изучены дополнительные меры безопасности. Эта задача включает в себя построение многослойных защит, которые могут адаптироваться к новым стилям подсказок и трюкам обхода, когда они появляются.
Дилемма разработчика
Самой трудной частью взломов для команд ИИ-безопасности является то, что они не приходят как одна известная угроза. Они постоянно меняются со временем. Это постоянное изменение происходит потому, что пользователь может перефразировать подсказку, разделить ее на фрагменты, обернуть в ролевую игру или замаскировать ее под творческое письмо. Затем каждая новая упаковка может изменить, как система интерпретирует замысел подсказки.
Эта задача быстро масштабируется, когда ИИ уже интегрирован в повседневные рутинные действия, поэтому фактическое использование создает бесконечные возможности для краевых случаев.
Поэтому сегодня безопасность ИИ выглядит больше как управление риском во времени. Каркас управления рисками ИИ NIST (AI RMF) явно рассматривает управление риском как непрерывный набор действий — организованный вокруг управлять, картографировать, измерять и управлять — а не как статический чек-лист. Цель состоит в том, чтобы создать процессы, которые делают его легче выявлять возникающие режимы неудач, расставлять приоритеты исправлений и укреплять меры безопасности, когда появляются новые стили взлома.
Как модели защищают себя
Безопасность ИИ состоит из нескольких слоев. Большинство систем имеют более одного защитного слоя, работающего вместе, с каждым, который ловит разные виды рискованного поведения. На внешнем слое входная и выходная фильтрация действует как шлюз.
Входящие подсказки сканируются на наличие нарушений политики до того, как они достигнут основной модели, а выходные ответы проверяются, чтобы убедиться, что ничего не проходит на обратном пути к пользователю. Эти системы хороши в выявлении прямых запросов или знакомых красных флагов, но они также являются наиболее легкими для обхода, что является причиной, по которой более обманчивые взломы часто обходят их.
Следующий слой защиты происходит внутри самой модели. Когда техники взлома обнаруживаются, они часто превращаются в обучающие примеры. Это то место, где враждебное обучение и обучение с подкреплением от обратной связи человека (RLHF) входят в картину.
Отшлифовывая модели на примерах неудачных или рискованных взаимодействий, разработчики фактически учат систему распознавать шаблоны, которые она должна отклонить, даже когда они завернуты в творческий или косвенный язык. Со временем этот процесс помогает инокулировать модель от целых классов атак.
Роль “красной команды” ИИ
Вместо того, чтобы ждать, пока произойдет взлом, компании используют команды ИИ “красной команды”. Эти команды являются группами, задачей которых является попытка взломать модели в контролируемых средах. Они подходят к системам так, как это сделал бы атакующий, экспериментируя с необычной фразеологией, творческими форматами и краевыми случаями, чтобы обнаружить, где меры безопасности не справляются.
Цель состоит в том, чтобы раскрыть слабые места до того, как они появятся в реальном использовании. Когда команда обнаруживает новый метод взлома, полученные данные напрямую питают обратно в обучающие и оценочные конвейеры. Эта информация используется для определения фильтров, корректировки политики и укрепления враждебного обучения, чтобы подобные попытки были менее вероятными для успеха в будущем. Со временем это создает непрерывный цикл — поиск неудач, обучение на них и улучшение системы, затем повтор.
Когда поэзия становится тестом на прочность для безопасности ИИ
Враждебная поэзия напоминает нам, что меры безопасности ИИ зависят от того, как пользователь формулирует вопросы, а не только от того, что спрашивается. Когда модели становятся более доступными и широко используются, исследователи будут продолжать проверять пробелы между творческим языком и системами безопасности, предназначенными для обнаружения более прямого замысла. Основным выводом является то, что более безопасный ИИ будет получен из нескольких защит, которые эволюционируют так же быстро, как и методы взлома.












