Искусственный интеллект
Что такое враждебная поэзия? Новый метод взлома ИИ.
Безопасность искусственного интеллекта (ИИ) превратилась в постоянную игру в кошки-мышки. Пока разработчики добавляют средства защиты от вредоносных запросов, злоумышленники продолжают искать новые способы их обхода. Один из самых странных поворотов — это тактика «противодействия поэзии». Эта тактика заключается в маскировке запросов под стихи и использовании рифмы, метафор и необычных формулировок, чтобы рискованные инструкции выглядели менее похожими на то, что системы безопасности обучены распознавать.
На практике само содержимое меняется незначительно. Меняется лишь оболочка, что может сбить с толку фильтры, основанные на шаблонах. Это напоминание о том, что в современных моделях способ формулировки вопроса может иметь почти такое же значение, как и сам вопрос.
Что произошло, когда исследователи использовали стихи для взлома ИИ?
В начале 2025 года исследователи продемонстрировали, что большие языковые модели (БЛМ) могут реагировать на ограниченные запросы, облекая их в поэтическую форму. Вместо того чтобы давать прямые, запускающие политику инструкции, исследователи встраивали те же запросы в рифмы, метафоры и повествовательные стихи.
На первый взгляд, задания казались упражнениями по развитию творческого письма, но на самом деле они несли в себе тот же замысел, который обычно приводит к блокировке. В ходе исследования, проведенного с использованием 25 собственных и открытых моделей взвешивания, команда сообщила, что поэтическое оформление обеспечило средний показатель успешности взлома системы на уровне... 62% за стихи, написанные от руки и около 43% для массового «преобразования в стихи» с использованием стандартизированного мета-подсказки.
Сами по себе ответы не представляли собой новых типов неудач, а скорее знакомые, появившиеся неожиданно. Модели были вынуждены создавать контент, которого они обычно избегают, — например, объяснения, касающиеся незаконной или вредной деятельности, — поскольку лежащий в основе запрос был фрагментирован и завуалирован поэтической структурой.
Главный вывод исследования заключается в том, что одних лишь стилистических вариаций может быть достаточно, чтобы обойти системы безопасности, настроенные на более буквальную формулировку. Это выявляет уязвимость, которая очевидна во всех семействах моделей и подходах к выравниванию.
Как работает состязательная поэзия
Атаки с использованием враждебных элементов основаны на простой действительности — системы машинного обучения не «понимают» язык так, как это делают люди. Они выявляют закономерности, прогнозируют вероятные продолжения и следуют инструкциям, основываясь на том, что их обучающие и защитные уровни интерпретируют как намерение.
Когда запрос сформулирован прямолинейно и буквально, защитным механизмам легче распознать и заблокировать его. Однако, когда та же цель замаскирована — разделена, смягчена или переформулирована — защитные слои могут упустить то, что на самом деле требуется.
Почему поэзия может быть эффективным средством
Поэзия по своей природе склонна к двусмысленности. Она опирается на метафоры, абстракцию, необычную структуру и косвенную формулировку. Именно эти черты могут размыть грань между «безобидным художественным произведением» и «просьбой, в которой следует отказать».
В том же исследовании 2025 года исследователи сообщили, что поэтические подсказки вызывали небезопасные ответы с вероятностью успеха 90% в широком диапазоне моделей, что указывает на то, что стиль сам по себе может существенно изменить результаты.
Как стихотворение скрывает настоящую просьбу
Рассматривайте просьбу как сообщение, а стихотворение — как упаковку. Фильтры безопасности часто ищут очевидные признаки, такие как явные ключевые слова, прямая пошаговая формулировка или очевидный злой умысел.
В поэзии намерение может быть скрыто за образным языком или распределено по строкам, что затрудняет его обнаружение в отрыве от контекста. Между тем, базовая модель всё ещё достаточно хорошо восстанавливает смысл, чтобы реагировать, поскольку она оптимизирована для вывода намерения даже при косвенном использовании языка.
Выявление и предотвращение взломов джейлбрейка.
По мере того как методы взлома становятся все более изобретательными, дискуссия должна сместиться с того, как они работают, на то, как их обнаруживают и блокируют. Это особенно актуально сейчас, когда искусственный интеллект стал частью повседневной жизни многих людей. 27% сообщают об его использовании. несколько раз в день.
Поскольку все больше людей используют большие языковые модели (БЛМ), необходимо тестировать и изучать дополнительные меры защиты. Эта задача включает в себя создание многоуровневой защиты, способной адаптироваться к новым стилям подсказок и уловкам обхода по мере их появления.
Дилемма разработчика
Самая большая сложность для команд, занимающихся обеспечением безопасности ИИ при взломе, заключается в том, что угрозы не являются единым известным явлением. Они постоянно меняются со временем. Эта постоянная изменчивость происходит потому, что пользователь может перефразировать запрос, разбить его на фрагменты, облечь в ролевую игру или замаскировать под творческое письмо. Затем каждая новая интерпретация может изменить то, как система понимает смысл запроса.
Эта задача быстро усложняется, когда ИИ уже интегрирован в повседневную жизнь, поэтому фактическое использование создает бесконечные возможности для возникновения нестандартных ситуаций.
Вот почему сегодня безопасность ИИ больше похожа на управление рисками во времени. Структура управления рисками в области ИИ (AI RMF) Национального института стандартов и технологий (NIST) явно рассматривает управление рисками. как непрерывный набор действий — организована вокруг принципов управления, картирования, измерения и контроля, а не в виде статичного контрольного списка. Цель состоит в создании процессов, которые упростят выявление возникающих проблем, определение приоритетов в устранении неполадок и усиление мер безопасности по мере появления новых стилей джейлбрейка.
Как модели защищают себя
Система безопасности ИИ состоит из нескольких уровней. В большинстве систем используется более одного средства защиты, работающего совместно, причем каждый из них выявляет различные виды рискованного поведения. На внешнем уровне фильтрация входных и выходных данных выступает в роли привратника.
Входящие запросы сканируются на предмет нарушений правил, прежде чем достигнут основной модели, а исходящие ответы проверяются, чтобы ничего не ускользнуло от пользователя на обратном пути. Эти системы хорошо справляются с выявлением прямых запросов или знакомых тревожных сигналов, но их также проще всего обойти, поэтому более хитрые джейлбрейки часто обходят их.
Следующий уровень защиты находится внутри самой модели. Когда обнаруживаются методы взлома, их часто используют в качестве обучающих примеров. Именно здесь вступают в игру состязательное обучение и обучение с подкреплением на основе обратной связи от человека (RLHF).
Благодаря тонкой настройке моделей на примерах неудачных или рискованных взаимодействий разработчики фактически учат систему распознавать шаблоны, которые она должна отклонять, даже если они завуалированы в нестандартной или косвенной форме. Со временем этот процесс помогает защитить модель от целых классов атак.
Роль искусственного интеллекта в «тестировании на проникновение»
Вместо того чтобы ждать взлома системы, компании используют команды «красных» по борьбе с ИИ. Эти команды занимаются взломом моделей в контролируемых условиях. Они подходят к системам так же, как и злоумышленники, экспериментируя с необычными формулировками, креативными форматами и крайними случаями, чтобы выявить слабые места в системах защиты. Цель — обнаружить уязвимые места до того, как они проявятся в реальных условиях.
В современных стратегиях кибербезопасности тестирование на проникновение (red teaming) становится ключевой частью жизненного цикла разработки. Когда команда обнаруживает новый метод взлома (jailbreak), полученные данные напрямую поступают в конвейеры обучения и оценки. Эта информация используется для определения фильтров, корректировки политик и усиления обучения противодействию, чтобы подобные попытки в будущем с меньшей вероятностью увенчались успехом. Со временем это создает непрерывный цикл — выявление сбоев, извлечение уроков из них и улучшение системы, затем повторение.
Когда поэзия становится проверкой на прочность для безопасности ИИ
Враждебная поэзия напоминает о том, что защита ИИ зависит от того, как пользователь формулирует вопросы, а не только от того, что он делает. По мере того, как модели становятся более доступными и широко используемыми, исследователи будут продолжать изучать разрывы между креативным языком и системами безопасности, предназначенными для выявления более прямых намерений. Вывод таков: более безопасный ИИ будет создан за счет множества средств защиты, которые развиваются так же быстро, как и взломы читов.












