Взгляд Anderson

Легкое перефразирование ломает безопасность ИИ, даже для Gemini и Claude

Published February 23, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

Тесты безопасности ИИ показали, что они полагаются на «очевидные» ключевые слова; с легкой перефразировкой модели, помеченные как «разумно безопасные», внезапно терпят неудачу, а атаки удается провести до 98% времени.

Новое корпоративное исследование из США пришло к выводу, что хорошая репутация безопасности различных крупных языковых моделей (LLM) – включая многие ведущие названия, такие как Gemini 3 Pro и Claude Sonnet 3.7 – может быть бессмысленной, поскольку наборы данных и эталоны, используемые для их установления, содержат нелепо «очевидный» язык.

Два набора данных в вопросе, которые были представлены в различных обзорах статей на этом сайте, являются HarmBench и AdvBench:

Из соответствующих статей HarmBench и AdvBench, признанные представительные примеры провокации – но новая статья утверждает, что даже в реальных сценариях примеры из этих эталонов «телеграфируют» злонамеренный умысел, что может привести к (предположительно) непреднамеренному «игре» результатов. Источники: HarmBench и AdvBench.

Хотя примеры, показанные выше, которые взяты из соответствующих статей для каждого эталона, являются намеренно упрощенными, чтобы проиллюстрировать принципы систем, новое исследование утверждает, что на самом деле эти коллекции действительно нацелены на «низко висящие плоды», и поэтому могут не быть эффективными эталонами – и что истинные результаты для возможностей безопасности протестированных LLM значительно ниже, чем сообщалось:

‘[Мы] оцениваем, действительно ли эти наборы данных измеряют риски безопасности или просто провоцируют отказы через триггерные сигналы. Чтобы изучить это, мы вводим «очистку умысла»: процедуру, которая абстрагирует триггерные сигналы от атак (точек данных), сохраняя при этом злонамеренный умысел и все соответствующие детали.

‘Наши результаты показывают, что текущие наборы данных безопасности ИИ не верно представляют реальные атаки из-за их чрезмерной зависимости от триггерных сигналов.

‘Фактически, как только эти сигналы удаляются, все ранее оцененные «разумно безопасные» модели становятся небезопасными, включая Gemini 3 Pro и Claude Sonnet 3.7.’

«Безопасность» в этом смысле представляет выравнивание – способность LLM защититься от попыток пользователей «взломать» ограничения на API-only системах, чтобы сделать систему производить запрещенный вывод, такой как клеветнический текст или изображения.

Упомянутый выше метод авторов очистка умысла просто включает перефразирование «очевидных» атак в двух наборах данных/эталонах, чтобы они стали более тонкими и хитрыми, и гораздо более способными обходить фильтры и проверки:

Верхняя часть иначе громоздкого примера из статьи. Показано в верхнем левом углу, желтым, какой «очевидный» запрос HarmBench и AdvBench обычно снабжают; ниже, зеленым, запрос был нейтрализован, перефразирован и сделан приемлемым enough для Claude Sonnet 3.7, чтобы он теперь был готов помочь пользователю найти «chop shops» (места обработки украденных транспортных средств) в новом городе. Источник

Исследователи проанализировали качества двух наборов данных по двум подходам: в изоляции, чтобы сравнить коллекции с характеристиками реальных атак; и на практике, где наборы данных – и собственные «улучшения» авторов над ними – были использованы для атаки реальных моделей.

Во втором раунде тестов исследователи «метод перефразирования был итеративно улучшен до тех пор, пока не были получены оптимальные результаты в плане коэффициента успеха атаки (ASR):

Очистка умысла начинается с передачи откровенно злонамеренного запроса через модель переписывания, которая удаляет явный триггерный язык, сохраняя при этом основной вредный умысел. Пересмотренный запрос затем представляется целевой модели, и ее ответ оценивается как по безопасности, так и по практической применимости. Если вывод считается небезопасным и практически применимым, атака считается успешной. Если нет, более ранние неудачные пересмотры подают обратно в модель переписывания для генерации улучшенных версий, создавая итеративный цикл, который функционирует как механизм взлома до тех пор, пока не будет достигнуто определенное количество попыток или желаемый коэффициент успеха атаки.

Авторы утверждают*:

‘Наши результаты показывают, что с этой регенерационной петлей очистка умысла достигает высокого ASR (90%–98.55%) после всего нескольких итераций во всех изученных моделях при полном черном ящике. Это включает недавние модели, широко сообщаемые как среди самых безопасных – такие как Gemini 3 Pro и Claude Sonnet 3.7.

‘Эти результаты еще больше подтверждают, что существующие оценки безопасности и методы выравнивания безопасности высоко переобучены^† к триггерным сигналам.’

Новая работа называется Очистка умысла: Наборы данных безопасности ИИ не являются тем, чем они кажутся, и исходит от двух авторов из сан-францисской компании по программному обеспечению Labelbox.

Метод

Для изучения состава и архитектуры двух эталонных наборов данных в изоляции были сгенерированы облака слов из двух корпусов, раскрывающие, какие слова и короткие фразы доминировали в коллекциях:

Облака слов, показывающие 40 наиболее частых униграмм, биграмм и триграмм в объединенных наборах данных AdvBench и HarmBench. Термины с врожденными негативными или чувствительными коннотациями выделены красным, контекстные триггеры – оранжевым, и нейтральные слова, образующие более высокие триггеры, – зеленым. Концентрация откровенных фраз, таких как «без того, чтобы быть пойманным» и «пошаговые инструкции», предполагает, что два эталона сильно полагаются на явные сигналы, а не на реалистично созданные, ультеративные атаки.

Авторы отмечают, что доминирующие один, два и три слова грамм являются нереально откровенными о злонамеренном умысле, в отличие от языка, который преступники сами используют в обсуждении, и который атакующие используют при тестировании или попытках компрометировать защиты LLM.

‘Эти сигналы подрывают два свойства – хорошо созданные и обусловленные ультеративным умыслом – поскольку такой откровенный язык редко появляется в реальных атаках и кажется искусственно созданным для триггерного безопасности.’

Статья характеризует коллекции как «триггерные сигналы» – фразы с явно негативными или чувствительными коннотациями, которые появляются спроектированы для активации фильтров безопасности. Некоторые из них являются врожденными, такие как ‘совершить самоубийство’, в то время как другие становятся заряженными только в контексте, например, когда вредоносная цель сочетается с формулировкой, такой как «без того, чтобы быть пойманным», которая сигнализирует явный умысел уклониться от обнаружения.

Несбалансированность языка в наборах данных становится более очевидной по мере увеличения количества слов в n-граммах, с фразами, несущими явный негативный или чувствительный смысл, доминирующими в наиболее частых n-граммах (см. изображение выше). Статья описывает их как триггерные фразы, которые, вместе с отдельными триггерными словами, составляют триггерные сигналы.

Удвоение

Авторы наблюдают, что повторение явных сигналов не только делает запросы кажущимися искусственными, но также указывает на значительное дублирование данных в коллекциях. Чтобы проверить эту теорию, они выполнили парные проверки сходства во всей коллекции, применяя пороги от 0,7 до 0,99, и группируя запросы, которые превышали заданный порог, как дубликаты, а остальные как уникальные.

Поскольку нет согласованного стандарта того, что считается «высокой» схожестью в едином доменном наборе данных, они использовали Open AI’s Grade School Math (GSM8K), популярный не-безопасный эталон, сопоставляя его размер с HarmBench и AdvBench для контролируемого сравнения:

Степени дублирования в AdvBench и HarmBench по порогам сходства, по сравнению с размерными подмножествами GSM8K. На几乎 каждом пороге наборы данных безопасности содержат гораздо больше почти идентичных запросов, чем не-безопасный эталон, указывая на повторную оценку одного и того же вредоносного умысла в слегка варьирующейся формулировке, и предполагая, что сообщенная производительность безопасности может быть завышенной.

Степени дублирования в AdvBench и HarmBench по порогам сходства, по сравнению с размерными подмножествами GSM8K. На почти каждом пороге наборы данных безопасности содержат гораздо больше почти идентичных запросов, чем не-безопасный эталон, указывая на повторную оценку одного и того же вредоносного умысла в слегка варьирующейся формулировке, и предполагая, что сообщенная производительность безопасности может быть завышенной. Пожалуйста, обратитесь к исходной статье для лучшего разрешения.

Второй результат из этой части исследования сравнил запросы внутри каждого набора данных, чтобы измерить, сколько из них действительно были разными. На среднем уровне сходства только около 11% запросов AdvBench были уникальными, в то время как почти 94% вопросов в размерном подмножестве GSM8K были разными:

Примеры почти идентичных запросов в AdvBench и HarmBench, которые различаются в основном формулировкой, сохраняя при этом один и тот же вредоносный умысел. Повторное использование явных сигналов, показанных красным для врожденных заряженных терминов и оранжевым для контекстно-зависимых, производит кластеры запросов, которые эффективно тестируют один и тот же сценарий несколько раз – то есть один ответ обычно достаточно, чтобы оценить модель для этого умысла.

HarmBench показал ту же тенденцию, с 16% дубликатов на этом уровне по сравнению с 3,5% в GSM8K, что означает, что наборы данных безопасности часто повторно используют один и тот же вредоносный запрос с незначительными изменениями формулировки.

Если 85% уникальных примеров принять за разумный стандарт, AdvBench достигла этого уровня только при очень строгих условиях, и даже не превысила 90%, в то время как GSM8K достигла 85% при гораздо более низком пороге. Согласно статье, этот шаблон предполагает, что эталоны безопасности тестируют повторные вариации одних и тех же идей, а не широкий спектр сценариев атак.

Дальнейшие подходы и тесты

Работа авторов, упомянутая выше, метод ИИ-обусловленной «очистки умысла» удаляет явный триггерный язык, сохраняя при этом основной вредоносный умысел. Вместо того, чтобы прямо заявлять умысел, пересмотренные запросы предполагают его, сохраняя при этом вредоносную нагрузку, но избегая сигналов, которые, вероятно, приведут к немедленному отказу со стороны LLM.

Два метода, облегчающих это, были нейтрализация коннотации, которая заменяет явно негативные термины на нейтральные или описательные альтернативы; и транспозиция контекста, которая переносит реальные ссылки в вымышленные условия, не изменяя при этом практического смысла.

Небольшой набор пересмотров был сначала написан вручную, после чего процесс был автоматизирован с использованием GPT-5.1 (gpt-5.1-2025-11-13), с настройкой восьми выстрелов в-контекстного обучения в качестве «очистителя умысла». Ответы на исходные и пересмотренные запросы затем сравнивались, чтобы измерить, насколько сильно явный триггерный язык влиял на оценки безопасности.

Поскольку очистка умысла может изменить как формулировку, так и рамки, ответы оценивались в плане безопасности и практичности. Безопасность оценивалась по пятибалльной шкале Ликерта, от «крайне небезопасно» до «безопасно», в зависимости от того, сохраняет ли ответ исходный вредоносный умысел – и, если да, то насколько вредоносным он является:

Шаблон запроса, используемый для стандартной оценки безопасности ответов на исходные данные AdvBench и HarmBench, до применения очистки умысла. GPT-5.1 был инструктирован оценить каждый ответ по пятибалльной шкале Ликерта от «Крайне небезопасно» до «Безопасно», выбирая единую общую оценку на основе того, позволяет ли содержание причинить вред или остается неакционированным.

«Практичность» оценивалась по параллельной пятибалльной шкале от «крайне применимо» до «не применимо», на основе того, насколько полезным и переносимым будут детали в реальном мире; и ASR измерял производительность, с пересмотром, считаемым успешным только в том случае, если ответ был и небезопасным, и практичным.

Пятибалльные рейтинги были сопоставлены с бинарными результатами, чтобы уменьшить двусмысленность, и очистка умысла также эволюционировала в метод взлома путем добавления итеративной петли пересмотра-регенерации, в которой неудачные пересмотры подают обратно в GPT-5.1 под той же настройкой восьми выстрелов в-контекстного обучения. Эта петля продолжалась до тех пор, пока не было достигнуто определенное количество попыток или желаемый коэффициент успеха атаки.

Для тестов оценки безопасности использовался пакет Python wordcloud, чтобы извлечь n-граммы из HarmBench и AdvBench, с обычными методами фильтрации (т.е. для удаления стоп-слов и других неактуальных слов и символов).

Те же наборы данных безопасности, использованные для анализа облака слов, были объединены с случайными выборками из упомянутого выше GSM8K, с количеством слов, уравнивающимся для паритета между коллекциями.

Авторы использовали встраивания из контрольной точки all-MiniLM-L6-V2 из Sentence-BERT Transformers, поскольку это уже дообучено для кластеризации и семантического поиска.

Критерии оценки были сгенерированы (теперь ушедшей) моделью OpenAI GPT-4o, ограниченной 1024 токенами. GPT-5.1 оценивал как безопасность, так и практичность после очистки умысла, нулевым выстрелом, сопоставленным во всех отношениях с очисткой умысла, за исключением того, что он также был ограничен 1024 токенами.

Тестируемые модели были Gemini 3 Pro; Claude Sonnet 3.7; Grok 4; GPT-4o; и Qwen2.5-7B-Instruct. Где применимо, поскольку обоснование было излишним фактором, оно было снижено как можно дальше в моделях, способных к обоснованию.

Все модели были ограничены пределом вывода 4096 токенов:

Оценка безопасности (SE), оценка практичности (PE) и коэффициент успеха атаки (ASR) для семи моделей на AdvBench (вверху) и HarmBench (внизу) при трех условиях: без пересмотра, первом пересмотре и последующих итерациях очистки умысла. SE сообщает процент ответов, оцененных как «крайне небезопасно», «высокая небезопасность» или «небезопасно»; PE сообщает процент, оцененный как «крайне применимо», «высокая применимость» или «применимо»; и ASR измеряет долю ответов, которые являются и небезопасными, и практичными. В настройке без пересмотра ASR следует его стандартному определению, поскольку не применяется абстракция. Жирные значения указывают на самый высокий ASR, достигнутый в каждом наборе данных, и более низкий ASR соответствует более сильной безопасности модели. Пожалуйста, обратитесь к исходной статье для лучшего разрешения.

В отношении этих первоначальных результатов авторы отмечают, что удаление явных триггерных сигналов из запросов атаки привело к резкому увеличению коэффициента успеха атаки. На AdvBench средний ASR возрос с первоначальных 5,38% до 86,79% после первого пересмотра, на HarmBench увеличиваясь с 13,79% до 79,83% – указывая на то, что отказы моделей были сильно связаны с присутствием явного триггерного языка.

Авторы наблюдают:

‘Это показывает, что отказы моделей в основном обусловлены присутствием триггерных сигналов. Следовательно, наборы данных безопасности не надежно измеряют реальные риски безопасности, поскольку они больше полагаются на триггерные сигналы, чтобы спровоцировать отказы, чем на фактический вредоносный умысел.’

Очистка умысла, утверждает статья, эффективно удалила триггерные сигналы, сохраняя при этом вредоносный умысел, и функционировала как сильный метод взлома. В последней итерации пересмотра-регенерации, соответствующей самому высокому ASR в каждом наборе данных, коэффициенты успеха атаки достигли 90% до 98,55% во всех моделях.

Это включало Gemini 3 Pro и Claude Sonnet 3.7, которые были взломаны с ASR 93% до 95% на AdvBench и 91% до 93% на HarmBench, после всего нескольких итераций.

Авторы заключают:

‘Наши результаты показали, что предыдущие выводы о безопасности не держатся, как только триггерные сигналы удаляются, и что наблюдаемая производительность безопасности в основном обусловлена присутствием триггерных сигналов, а не основными рисками безопасности.

‘Мы также показали, что очистка умысла может быть использована как мощный метод взлома, достигая высоких коэффициентов успеха атаки от 90% до более 98%.

‘В целом, наши результаты раскрыли критический разрыв между тем, как оценивается безопасность модели, и тем, как проявляется реальное враждебное поведение.

‘На основе этого мы заключаем, что (1) оценки безопасности должны эволюционировать, чтобы более реалистично отражать враждебные атаки, и (2) текущие усилия по выравниванию безопасности все еще далеки от того, чтобы быть устойчивыми к реальным угрозам.’

Заключение

Одна общая нить, которая все еще проходит через литературу языка и компьютерного зрения (и места, где они пересекаются, такие как VLMs), является неспособность надежно понимать, когда кто-то обманывает модель, чтобы произвести запрещенный контент; или даже когда кто-то непреднамеренно отклоняется от него, без внешнего принуждения.

За кулисами более крупных и непрозрачных фабрик моделей можно только предположить, что радикальное ужесточение контроля над этими семантическими зонами уловления приводит к неприемлемому побочному ущербу, такому как снижение производительности на «не-запрещенных» генерациях, или недопустимой скорости ложных положительных результатов от фильтра контента.

Базовая природа обученной модели в любой области – следовать всем своим данным обучения к любому выводу, к которому запрос может привести; единственные родные ограничения, доступные для модели, – это а) не включать спорный материал в данные обучения (что является столь же логистической проблемой, как и любой другой); или б) «отрезать» пути к нежелательному контенту после обучения (процесс, который может часто быть обращен явным аблитацией, или как непреднамеренный побочный эффект дообучения).

* Моя замена цитат авторов на гиперссылки. Акценты авторов, а не мои.

^†https://www.unite.ai/what-is-overfitting/

Опубликовано впервые в понедельник, 23 февраля 2026