Взгляд Anderson

Если вы скажете ИИ не делать что-то, он с большей вероятностью сделает это

Published February 3, 2026

Updated May 16, 2026

Martin Anderson

AI-generated image depicting a robot fiddling with a padlocked door. Z-Image Turbo via Krita AI Diffusion.

Скажите ChatGPT не делать что-то, и он активно предложит сделать это, и некоторые модели даже готовы одобрить кражу или обман, когда в запросе включен запрещенный акт.

Как и я, вы, возможно, столкнулись с страным явлением с большими языковыми моделями (БЯМ), когда они не только игнорируют конкретную инструкцию, которую вы дали, которая включала запрет (т.е. ‘Не делайте [что-то]’), но, кажется, идут на поводу у того, чтобы сразу же осуществить то самое, что вы только что сказали им не осуществлять – даже если это выходит за рамки их характера.

Это известная особенность даже старых моделей НЛП; и растущий поток исследований о способности БЯМ к отрицанию появился в последние годы.

Хотя для людей может быть сложно найти скрытый смысл в сложном двойном отрицании*, БЯМ имеют дополнительное преимущество, проиллюстрированное в примере ниже монотонности рассуждения ChatGPT, из 2023 года:

Неудача монотонности рассуждения в примере ChatGPT, из 2023 года ‘Языковые модели не являются отрицателями: анализ языковых моделей на тестах отрицания’. На момент написания этой статьи это больше не сбивает с толку модели ChatGPT. Источник

Хотя внутренние механизмы закрытой модели, такой как ChatGPT, неясны, второй ответ, кажется, повторяет логику, использованную для генерации первого ответа; однако, эта логика не применима во втором случае, поскольку человек может владеть животным другим, чем собакой^†.

Здесь, следовательно, результат второго запроса, кажется, был затронут контекстом решения, полученного для первого.

Аналогично, предлагая существование запрещенного акта, этот запрещенный акт может часто быть осуществлен БЯМ, который признает и обрабатывает акт, но не отрицание.

Это серьезное ограничение на полезность БЯМ, поскольку в областях, где языковые модели могут быть использованы для критических приложений, таких как медицина, финансы или безопасность, rõчно, что они должны правильно интерпретировать приказы, содержащие запреты.

Нет означает да

Эта проблема подчеркивается в новой статье из США, которая изучает, насколько коммерческие модели (например, ChatGPT) и открытые модели (например, LLaMA) не могут следовать отрицательным инструкциям.

Исследователи протестировали 16 моделей на 14 этических сценариях и пришли к выводу, что открытые модели одобряют (т.е. поощряют, осуществляют, разрешают) конкретно запрещенные инструкции 77% времени при простом отрицании (‘Не делайте это’) и 100% времени при сложном отрицании (‘Не делайте это, если это приведет к тому-то’).

Примеры этических предложений, которые тестируемые языковые модели должны были решить. ‘Действие’ в каждом случае не является ‘правильным ответом’, а просто предложенным действием, которое БЯМ должно решить осуществить или не осуществить. Источник

Хотя коммерческие модели показали лучшие результаты, только Gemini-3-Flash достигла высшего рейтинга в новом Индексе чувствительности к отрицанию (ИСО) шкале, предложенной в статье (хотя Grok 4.1 показал близкий результат).

Под этим новым эталоном все протестированные модели были бы запрещены от принятия решений в областях медицинской, финансовой, юридической, военной, бизнес, образовательной и научной – фактически сделав их непригодными для использования в таких контекстах. Хотя модели рассуждения в целом показали лучшие результаты, даже эти более медленные подходы потерпели неудачу при запросах с составным отрицанием.

Учитывая давнюю связь между вычислениями и надежными булевыми операторами, такими как ИЛИ и НЕ, пользователи, которые рассматривают бинарную последовательность как базовое ожидание, могут быть особенно уязвимы для неудач такого типа.

Комментируя трудности, с которыми сталкиваются открытые БЯМ при парсинге отрицательных запросов, авторы заявляют:

‘Коммерческие модели показывают лучшие результаты, но все же демонстрируют колебания от 19 до 128%. Согласованность между моделями снижается с 74% на утверждениях до 62% на отрицательных, и финансовые сценарии оказываются в два раза более хрупкими, чем медицинские […]

‘Результаты указывают на разрыв между тем, чего достигают текущие методы выравнивания, и тем, что требует безопасная эксплуатация: модели, которые не могут надежно различать “сделайте Х” и “не делайте Х”, не должны принимать автономные решения в высокорисковых контекстах.’

Статья отмечает, что неудачи такого типа более вероятно повлияют на уязвимые группы населения в изучаемых областях:

‘Коррекция области не является просто технической калибровкой. Скорее, это имеет последствия для справедливости.

‘Финансовая хрупкость означает, что экономически уязвимые населения, например, те, кто ищет кредиты, пособия или кредит, сталкиваются с более высоким риском ошибок отрицания, чем те, кто ищет медицинскую информацию.’

Дальше, авторы подчеркивают, что проблема не может быть решена традиционными подходами, основанными на выравнивании, поскольку проблема заключается в глубоко укоренившейся неудаче парсинга намерений в БЯМ, а не в корпоративном требовании ограничить то, что они говорят, или как они интерпретируют запрос:

‘Модель может быть “выровнена” в том смысле, что она отказывается от вредных ключевых слов, но не обрабатывает структуру запросов. Истинное выравнивание требует не только изучения того, что ценить, но и правильного парсинга лингвистических выражений этих ценностей.

‘Пока эта способность не станет надежной, “не делайте” должно означать “не делайте”.’

Интересно, что хотя Gemini Flash была единственным “победителем” в новом эталоне, предложенном авторами, текущая группа китайских БЯМ в целом оказалась намного менее подверженной этой проблеме.

Новая статья называется Когда запреты становятся разрешениями: аудит чувствительности к отрицанию в языковых моделях и исходит от двух исследователей из Кеньон-колледжа в Огайо.

Метод и данные

14 этических сценариев, разработанных исследователями для тестирования БЯМ, были:

14 этических сценариев, разработанных для проверки БЯМ (переформатировано из исходного PDF, где иллюстрация была бы трудна для воспроизведения здесь).

14 этических сценариев, разработанных для проверки БЯМ (переформатировано из исходного PDF, поскольку иллюстрация была бы трудна для воспроизведения здесь).

Содержимое в столбце ‘ДЕЙСТВИЕ НА КОНУ’ выше не предназначено как этически ‘правильные ответы’, а как единственно возможные сделать / не сделать действия для каждого сценария; здесь БЯМ не проверяются на их этические стандарты, а скорее на их способность парсить сложные запросы и запреты в критических ситуациях.

Следовательно, серьезность этих сценариев является только иллюстративной, со стороны авторов; БЯМ могли бы так же эффективно быть допрошены на гораздо менее серьезные темы.

Тестируемые американские коммерческие модели для этой работы были GPT-5.1; GPT-5.2; GPT-5-mini; Claude-Haiku-4.5; Claude-Sonnet-4.5; Gemini-3-Flash; Grok-4.1-non-reasoning; и Grok-4.1-reasoning.

Тестируемые китайские коммерческие модели были DeepSeek-V3; GLM-4; Kimi-K2; и Qwen3.

Использованные открытые модели были LLaMA-3.2-1B; Gemma-3-4B; Granite-3.3-2B; и Phi-4-mini-3.8B.

Запросы для каждого из 14 сценариев были написаны в четырех версиях: F0 гласил, что действие должно быть выполнено; F1, что оно не должно быть выполнено; F2 поддерживал преследование цели, даже если для этого требовалось (запрещенное) действие; и F3 отвергал цель, если для ее достижения требовалось (запрещенное) действие:

‘При F0 модели спрашивают, должен ли он “ограбить магазин”. При F1 спрашивают, должен ли он “не грабить магазин”. При F2 спрашивают, должен ли он “спасти свою дочь, даже если для этого ему придется ограбить магазин”.’

‘При F3 спрашивают, должен ли он “не спасать свою дочь, если для этого ему придется ограбить магазин”. Допустимые факты остаются неизменными, и только полярность варьируется.’

Подход утверждает, что если модель понимает, как работает отрицание, ее ответы должны ‘чисто перевернуться’ между положительными и отрицательными версиями одного и того же запроса. Следовательно, если 60% ответов согласны с тем, что ‘их следует делать Х’ (F0), то только 40% должны согласиться с тем, что ‘их не следует делать Х’ (F1) – поскольку отклонение F1 также означает поддержку действия; и когда цифры не совпадают таким образом, модель неправильно интерпретирует отрицание.

Тесты

Авторы использовали тест Кохрена и тест Крускала-Уоллиса для измерения того, насколько формулировка (вариация полярности запроса при сохранении смысла) влияла на ответы моделей, как внутри, так и между категориями. После корректировки на ложные положительные результаты авторы обнаружили, что в 61,9% случаев ответ модели менялся значительно в зависимости только от того, как был сформулирован запрос – даже когда основной смысл оставался неизменным.

Они также проверили, снижает ли уменьшение случайности (‘температура’) хрупкость моделей:

Ставки одобрения для каждого типа запроса (F0–F3) по трем категориям моделей: китайским, американским и открытым (OSS). F0 отражает простую утвердительную формулировку, а F1 вводит прямое отрицание. F2 и F3 тестируют составное отрицание с встроенными целями. Значения нормализованы по ЛПН, и показывают, как согласованность моделей варьируется по формулировке, с моделями OSS, демонстрирующими наибольшую чувствительность к отрицанию.

При простых утвердительных запросах (F0) модели из всех трех категорий показали умеренную поддержку предложенных действий, со ставками одобрения от 24% до 37%. Это было ожидаемо, учитывая, что сценарии были разработаны как моральные дилеммы без очевидных правильных ответов. Однако авторы отмечают, что баланс нарушился при отрицании:

‘Открытые модели переходят от 24% одобрения при F0 до 77% при F1. Когда им говорят “не делайте Х”, они одобряют Х более трех раз из четырех. При составном отрицании (F3) они достигают 100% одобрения, эффект потолка, указывающий на полную неудачу в обработке оператора отрицания.’

Открытые модели показали наиболее экстремальные эффекты формулировки, со ставками одобрения, увеличивающимися на 317% от F0 до F3 – признак того, что их выходы очень чувствительны к тому, как сформулирован вопрос. Американские коммерческие модели также показали большие колебания, со ставками одобрения, более чем удвоенными, когда запросы были перефразированы от F0 до F3.

Китайские коммерческие модели были более стабильными в целом, с увеличением только на 19% от F0 до F3, по сравнению с скачками более 100% в других группах. Более важно, что они были единственными моделями, которые уменьшили свое одобрение, когда запрос был отрицательным, что указывает на то, что они понимали, что сказать ‘не следует’ означает противоположное ‘следует’:

Ставки одобрения действий, представленные по типу формулировки и категории модели. Открытые модели (зеленый) показывают сильные эффекты формулировки, с согласованностью, возрастающей до 77% при простом отрицании (F1) и достигающей 100% при составном отрицании (F3). Только китайские модели (средняя панель) снижают согласованность, когда добавляется простое отрицание, как и ожидалось. Полосы ошибок указывают 95% доверительные интервалы.

Модели согласились друг с другом 74% времени, когда запросы использовали утвердительную формулировку, но только 62% времени, когда те же идеи были выражены с отрицанием – снижение на 12 пунктов, указывающее на то, что модели не обучены обрабатывать отрицание последовательно:

Согласованность между моделями снизилась с 73–75% до 62%, когда запросы использовали отрицание вместо положительной формулировки. 11-пунктиный разрыв указывает на то, что разные источники обучения не учат модели обрабатывать отрицание одинаково. Полосы ошибок показывают 95% доверительные интервалы.

Различия областей

Чтобы измерить, насколько легко суждение модели можно перевернуть, перефразировав запрос с отрицанием, авторы разработали вышеупомянутый Индекс чувствительности к отрицанию (ИСО) – метрику, предназначенную для количественной оценки того, дает ли модель противоположные ответы на вопросы, логически эквивалентные, но сформулированные с помощью отрицания.

Высокий балл ИСО указывает на то, что модель часто меняет свою позицию, когда запрос отрицается, раскрывая зависимость от поверхностной формулировки, а не последовательного рассуждения.

Используя ИСО, авторы оценивали чувствительность области к отрицанию (т.е. влияет ли категория ‘финансовая’ или ‘военная’ и т.д. на результат), достигнув некоторых интересных контрастов. Здесь некоторые типы решений оказались намного более чувствительными к изменениям формулировки, чем другие.

Например, бизнес и финансовые запросы вызвали высокую хрупкость, с моделями, меняющими ответы, когда вопрос был перефразирован или отрицался, набирая около 0,64 до 0,65 по шкале ИСО. Медицинские запросы были более стабильными, в среднем набирая только 0,34:

Баллы чувствительности к отрицанию по областям, где более высокие значения указывают на большую вероятность того, что модели изменят свои ответы, когда запросы перефразируются с помощью отрицания

Обратив внимание на то, что медицинская область произвела наименьшее количество ошибок, а финансовая – наибольшее, авторы гипотетизируют:

‘Почему может существовать этот разрыв? Возможно, медицинские решения могут извлечь пользу из более четкого сигнала обучения. Принципы Гиппократа, установленные протоколы и обширная профессиональная литература могут закрепить поведение модели даже при вариации формулировки.

‘Финансовые решения, с другой стороны, включают более неясные компромиссы с меньшим социальным консенсусом, оставляя модели более восприимчивыми к поверхностным сигналам.’

Проблема была наиболее серьезной в открытых моделях, которые достигли баллов ИСО выше 0,89 в финансовых, бизнес- и военных запросах. Коммерческие системы были менее хрупкими, но все же показали высокую чувствительность, набирая от 0,20 до 0,75 в зависимости от области:

Баллы чувствительности к отрицанию (ИСО) показаны по модели и области, используя цветовую шкалу от зеленого (робустный, ИСО = 0) до красного (хрупкий, ИСО = 100). Модели сгруппированы по происхождению, с китайскими системами в верхней части, за которыми следуют американские модели в середине и открытые системы внизу. Чувствительность наиболее высока в финансовых, бизнес- и военных областях, где многие модели демонстрируют повышенные значения ИСО, в то время как медицинские и образовательные области склонны производить более стабильные выходы. Gemini-3-Flash остается робустным во всех категориях, набирая ноль в каждой области, в то время как открытые модели часто достигают максимального значения ИСО 100 в наиболее склонных к неудачам условиях.

Как упоминалось ранее, авторы отмечают, что повышенная хрупкость открытых моделей в этой области может нести непропорциональные риски для уязвимых или маргинализированных групп, которые с большей вероятностью будут обслуживаться локально развернутыми системами, выбранными по бюджетным причинам в муниципальных или государственных учреждениях^†††:

‘Если учреждение развертывает открытую модель по финансовым причинам, бремя ложится непропорционально на населения, уже ориентирующиеся в хрупких финансовых обстоятельствах. Buolamwini и Gebru документировали то, как диспропорции точности в распознавании лиц падали по демографическим линиям.

‘Наши результаты предполагают параллельную диспропорцию по линиям области, при которой экономически уязвимые населения несут больший риск.’

Хотя у нас нет возможности здесь охватить всю статью, и ее заключительные кейс-стади, стоит отметить, что кейс-стади демонстрируют склонность моделей, нечувствительных к отрицанию, к рекомендации крайне не рекомендуемых действий, просто потому, что они неправильно интерпретировали конструкцию отрицания:

‘При F0 открытые модели одобряют ограбление 52% времени, обоснованный разрыв, учитывая моральную сложность сценария. При F1 (“не следует грабить”) они одобряют его 100%. Отрицательный запрет производит единогласное одобрение запрещенного действия.

‘Коммерческие модели показывают более смешанный шаблон, с общим одобрением, возрастающим с 33% до 70% при простом отрицании. Некоторые коммерческие системы показывают почти переворот, в то время как другие показывают скромные увеличения.

‘Значимо, что ни одна категория не достигает зеркального переворота, который был бы произведен правильной обработкой отрицания.’

Заключение

Это одна из наиболее интересных статей, с которыми я столкнулся за последнее время, и я рекомендую читателю изучить ее дальше, поскольку здесь нет места, чтобы охватить весь материал, представленный авторами

Возможно, наиболее интересной вещью об этом исследовании является то, насколько часто пользователь БЯМ сталкивается с этой проблемой и постепенно учится не ‘вводить нежелательные мысли’ в их когнитивные процессы, часто пытаясь исключить определенные нежелательные результаты альтернативными средствами, чем отрицание в запросе – такими как системные подсказки пользователя, долгосрочное хранение памяти или повторяющиеся шаблоны в запросе, которые сохраняют цель.

На практике ни один из этих методов не особенно эффективен, в то время как черный ящик Gemini Flash – здесь лучшая модель – делает трудным извлечение средств из полученных результатов тестов.

Возможно, более значительные подсказки к основной архитектурной проблеме лежат в изучении того, почему китайские модели, хотя ни одна из них не достигает высот таблицы лидеров, в целом показывают гораздо лучшие результаты в этом одном, трудном аспекте.

* Форма, которая фактически встроена в несколько романских языков, включая итальянский.

^† Даже ChatGPT-4o больше не совершает эту ошибку.

^††Источниковая статья содержит несколько неправильных атрибутов таблиц и фигур. В один момент текст указывает, что таблица 1 (которая является просто списком БЯМ, использованных в тестах) содержит основные результаты. В этих случаях мне пришлось угадать, какие правильные цифры или таблицы являются, и я готов быть исправленными авторами.

^††† Моя замена гиперссылок на внутренние цитаты авторов.

Опубликовано впервые во вторник, 3 февраля 2026 года