Взгляд Anderson
Языковые модели испытывают трудности в сохранении секретов

Языковые модели не могут хранить секреты. Даже когда им говорят не раскрывать их, их написание выдает их, и попытки скрыть их делают утечку еще более заметной.
Очень трудно намеренно не думать о чем-то. Классическим примером этого является окончание британского научно-фантастического триллера 1960 года Деревня проклятых, где наш герой, который пожертвовал собой, пробрался в анклав враждебных инопланетян, выдающих себя за детей. Однако, поскольку их телепатические силы угрожают раскрыть его намерение до того, как он сможет избавить мир от угрозы, он вынужден тянуть время, концентрируясь на чем-то, что не является бомбой :
Парадокс заключается в том, что, чтобы не думать о чем-то, вам нужно держать его в вашем внимании каким-то образом; и это известный синдром – это то, что большинство из нас, скорее всего, испытали в менее драматических контекстах.
Большие языковые модели (LLM), основанные на расположении внимания, испытывают подобные трудности в подавлении информации только потому, что пользователь просит их сделать это; и поскольку они все чаще размещаются в центре деловых информационных сетей, их наивная тенденция к безрассудству может оказаться обузой для многих компаний.
Ранее в этом году исследовательское сотрудничество под руководством Chandar Research Lab определило эту проблему в контексте LLM как Частные интерактивные задачи (PSIT), которые ‘требуют от агентов генерировать и поддерживать скрытую информацию, производя при этом последовательные публичные ответы’, и обнаружило, что протестированные модели от OpenAI и Alibaba не смогли выполнить этот тип задачи.
Не говори об этом…
Хотя уже известно, что большие модели больше утечивают, новое исследование из США и Канады явно изучило, будут ли современные языковые модели выполнять команду подавить информацию, продолжая генерировать вывод на тему или теме, которая может включать “запрещенное” слово или идею.
Статья заключает, что все модели, которые она изучает, каким-то образом пострадали от неспособности “выдать” секрет, который они должны были скрывать, обнаружив, что пять абзацев (~450 слов) эссе и истории предоставляют обширную картину для “проколов” – хотя очень короткие шутки не предоставляют достаточно возможностей для этого.
Кроме того, чем настойчивее модели пытаются сохранить секрет, тем больше они рискуют раскрыть его через активное уклонение, обычно позволяя “секретному слову” быть раскрытым в двадцати последовательных попытках LLM:

Из новой статьи: на пяти передовых моделях длинные формы письма надежно утечивают скрытые понятия; короткие шутки не делают этого; и более сильные инструкции «скрыть» отталкивают вывод от секрета, делая сигнал обнаруживаемым путем обращения. Источник
Эта задача чрезвычайно актуальна для бизнес-операций, где широкий спектр каналов, от маркетинга и PR-выступлений до внутренних отчетов, требуется выбирательно представлять информацию; однако, все эти процессы требуют полного спектра информации с самого начала, если только чтобы быть уверенным в том, что должно быть подавлено:

Пример сценария из статьи иллюстрирует, как скрытая информация может непреднамеренно формировать не связанный вывод, с LLM, которому дано указание не раскрыть финансовую нестабильность компании, но тем не менее склоняясь к фразам, связанным с нехваткой денежных средств и капитальным стрессом, позволяя читателю сделать вывод о скрытом контексте.
Авторы утверждают*:
‘Языковые модели не могут надежно разделить информацию. Секрет в подсказке формирует письмо модели, и другая модель может обнаружить это формирование. Буквальное слово всегда подавляется, но понятие не подавляется. Это справедливо для семи моделей, трех наборов слов, системной подсказки против пользовательской подсказки и двух независимых перекрестных угадывателей […]
‘…Мы гипотезируем, что высокая точность доступа к информации через внимание – это именно то, что делает секреты трудными для сохранения. Даже если LLM пытается не утечь слово, она должна обратить внимание на это слово, чтобы сделать это, предоставляя путь для случайной утечки.
‘Чтобы избежать чего-то явно, человек должен подумать об этом, и трансформер должен обратить внимание на это. В случаях, когда два понятия примерно одинаково благоприятствуются моделью (например, написание истории об офисной работе или второй скрипке в оркестре), процесс принятия решений модели неизбежно будет затронут тем, что она пытается не раскрыть.’
Хотя модели DeepSeek и ChatGPT-5.4 были исключениями в том, как они выполняли задачу, они обе утечали; в случае GPT-5.4 она набрала ниже 50% (т.е. ниже уровня случайности) в одном тесте, где ей было предложено избегать понятие; это фактически эквивалентно “обратному скачку” или индикатору, а не модели “сохраняет спокойствие” как запрошено.
Авторы определяют этот синдром у LLM как конечный бюджет энтропии, где непредсказуемость модели (которая была бы очень полезна в этом случае!) ограничена ее необходимым отсутствием случайности. Просто говоря, модель не может сосредоточиться на кирпичных стенах или бейсбольных счетах так же эффективно, как мы можем, чтобы отложить постоянную мысль. Однако авторы отмечают, что предоставление модели альтернативной концепции для размышления может улучшить, но не устранить проблему. Однако размещение не связанной концепции в центре внимания, пока модель выполняет задачу, кажется обреченным на то, чтобы запутать “фальшивую” концепцию в сам вывод.
Одним из наиболее интересных выводов статьи является то, что состояние, изучаемое в ней, сильно усугубляется, когда контрольный текст включен в прямые сообщения пользователя вместо системной подсказки (т.е. набора предварительных условий, заданных человеком-оператором AI до обмена), поскольку ввод вопросов в GUI, такой как ChatGPT, является, по сути, стандартным сценарием для взаимодействий.
Кроме того, стоит отметить, что в целевой проверке было подтверждено, что более мелкие модели не страдают от этой тенденции к утечке (хотя это, вероятно, происходит с аналогично уменьшенными общими возможностями по сравнению).
Новая статья называется Можете ли вы сохранить секрет? Неосознанная утечка информации в письме языковой модели и исходит из двух авторов из Университета Чикаго и Университета Британской Колумбии.
Метод
Исследование фокусируется в основном на пяти передовых моделях: Claude Opus 4.6 и Sonnet 4.6 от Anthropic; GPT-5.4 от OpenAI; Llama 4 Maverick от Meta; и DeepSeek V3.2. Дополнительные проверочные тесты были проведены с xAI’s Grok 4 и Google’s Gemini 2.5 Pro, в то время как отдельные масштабные эксперименты также изучали Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B и Gemma 3 на 4B, 12B и 27B параметров.
Для измерения более тонких форм утечки исследователи использовали тест с двумя альтернативами (2AFC), стандартную метрику в психофизической литературе, где вторая модель была показана две истории и попросили определить, какая из них была написана, скрывая конкретное секретное слово.
Поскольку случайное угадывание привело бы к 50% точности, результаты, значительно превышающие или ниже этого уровня, указывали бы на скрытые семантические следы, оставшиеся обнаруживаемыми в письме.
В писатель-угадыватель установке, составляющей первый эксперимент, одной модели было присвоено скрытое слово вместе с инструкциями либо скрыть его; активно избегать ассоциаций с ним; или перенаправить внимание на ложную концепцию. Система была затем задана задача генерировать истории, эссе и шутки различной длины, в то время как вторая модель попыталась либо напрямую угадать скрытое слово; либо различить тексты, подверженные влиянию разных скрытых подсказок.
Пять условий были протестированы;

Пять условий, протестированных на основных моделях.
Исследователи протестировали четыре типа задач письма: короткие истории из пяти до восьми абзацев, в среднем около 450 слов; очень короткие шутки, в среднем около 12 слов; длинные шутки с расширенными настройками, в среднем около 450 слов; и пятиабзацные эссе, в среднем около 380 слов.
Эксперименты использовали 15 скрытых слов, разделенных на три категории, с конкретными объектами, включающими ‘зонтик’, ‘маяк’, ‘скрипка’, ‘кактус’ и ‘телескоп’; абстрактными понятиями ‘справедливость’, ‘терпение’, ‘энтропия’, ‘ностальгия’ и ‘свобода’; и нейтральными терминами ‘скобка’, ‘вторник’, ‘медь’, ‘полоса’ и ‘счет’.
Чтобы проверить, зависит ли эффект от этих выбранных слов, исследователи также повторили эксперименты с 15 случайно выбранными существительными из Корпуса современного американского английского языка (COCA), включающими ‘судья’, ‘потребитель’, ‘лед’, ‘пара’, ‘строительство’, ‘панель’, ‘меньшинство’, ‘маркетинг’, ‘незнакомец’, ‘пуля’, ‘отсутствие’, ‘передача’, ‘щека’, ‘обработка’ и ‘банкир’, вместе с еще 15 словами, независимо выбранными каждой протестированной моделью†.
Измерение/Метрики
В первом из двух тестов, использованных в исследовании, AI-модель читала текст, сгенерированный либо другой инстанцией самой себя, либо другой моделью, и попыталась, в течение 20 раундов, угадать скрытое слово.
Во втором (2AFC) тесте AI была показана две части письма и попросили либо: определить, какая из них была подвержена влиянию конкретного скрытого слова; либо определить, какая из них содержала любое скрытое понятие. Поскольку случайное угадывание привело бы к 50% успеха, результаты, значительно превышающие или ниже этого уровня, указывали бы на то, что скрытое понятие все еще обнаруживается в письме.
Чтобы предотвратить возможность того, что AI просто отдает предпочтение тому тексту, который появляется первым (или вторым), исследователи повторили каждое сравнение с порядком текстов, поменяным местами, в конечном итоге проведя 420 тестов на различение и 450 тестов на обнаружение для каждой модели.
Результаты
Пять моделей определили скрытые понятия с точностью от 64% до 79%, несмотря на то, что секретные слова никогда не появлялись напрямую в сгенерированных историях. Вместо этого утечка произошла через темы и образы:

Точность 2AFC для историй с секретами в системной подсказке, где 50% означает уровень случайности. ‘Не раскрывать’ означает, что модель была проинструктирована не упоминать или намекать на слово; ‘активно скрывать’, что она была проинструктирована избегать связанных ассоциаций; ‘осведомленность об избегании’, что угадыватель должен искать заметные отсутствия; и ‘свободный ответ’, что точное слово было названо в течение 20 раундов. Звезды отмечают результаты выше уровня случайности, и даггеры отмечают результаты ниже уровня случайности, с почти всеми значимыми результатами, пережившими поправку Бонферрони, кроме DeepSeek под ‘активно скрывать’; Grok и Gemini использовали несколько меньше испытаний из-за ошибок API.
GPT-5.4 и Gemini 2.5 Pro вели себя по-другому, поскольку попытки избежать скрытой идеи фактически сделали саму модель избегания более легко обнаруживаемой. Этот эффект сохранялся на протяжении выбранных слов, случайных существительных COCA и слов, выбранных моделями.
GPT-5.4 показала результаты ниже уровня случайности, которые казались систематическими, а не случайными, с некоторыми скрытыми словами, обнаруженными очень надежно, и другими почти никогда не определялись. Эффект также ослабевал, когда секрет был помещен в пользовательскую подсказку вместо системной подсказки (см. выше), повышая точность обнаружения GPT-5.4 до 56%.
Для большинства моделей тесты, которые спрашивали ‘Содержит ли этот текст скрытое понятие?’, производили результаты, аналогичные тестам, которые спрашивали ‘Какое скрытое понятие содержит этот текст?’.
Кроме того, два метода тестирования измеряли разные типы утечки, с тестами 2AFC, измеряющими, может ли скрытая тема все еще быть обнаружена в письме, и тестами с свободным ответом, измеряющими, достаточно ли сильны утечные подсказки, чтобы другая AI могла угадать точное скрытое слов.
Авторы заключают*:
‘Наши результаты предполагают, что информация, активная в контексте модели во время генерации, может оставлять тематические следы в ее выводе. Содержание системной подсказки, цепочка рассуждений, извлеченные документы, предоставленные пользователем данные – любое из этих может, в принципе, влиять на творческие решения способами, обнаруживаемыми посторонним наблюдателем.
‘Степень утечки будет зависеть от того, насколько открытой является задача генерации (короткие шутки безопасны; истории не являются) и от того, насколько семантически идентифицируема информация в данной среде (“скрипка, скорее всего, утечет в историях больше, чем “).
‘Тем не менее, семантическая утечка кажется неизбежной, даже когда модели активно пытаются скрыть информацию.’
Заключение
Как упоминалось выше, авторы приписывают часть проблемы основным принципам архитектуры Трансформеров самой по себе. История показывает, что эта последняя проблема LLM будет решена за счет пост-обучения (выравнивания), системных подсказок, которые не могут быть отредактированы конечным пользователем, фильтров и разнообразного спектра все более растущих вторичных систем, которые, кажется, умножаются, когда “родные” проблемы с моделями распространения становятся очевидными.
Чем больше вторичная инфраструктура предохранителей и балансов, тем больше текущее поколение SOTA AI кажется похожим на Парк Юрского периода, где основная ценность предложения идет с ужасающим объемом оговорок и требует множества обходных путей и компромиссов.
* Акцент авторов, скорректированный мной (поскольку цитата статьи уже находится в курсиве), и внутренние цитаты авторов, преобразованные мной в гиперссылки.
† Авторы с интересом наблюдают некоторое, казалось бы, маловероятное спонтанное совпадение между разными модельными семьями в отношении “самоизбранного” выбора слов, заявляя ‘Модели склоняются к одинаковым словам: телескоп, свобода и ностальгия каждый появляются в списках 3+ моделей’. Они также отмечают общность выбора “короткой шутки”, возникающей между модельными семьями: ‘[Несколько] моделей производят одну и ту же шутку, независимо от секрета. Opus пишет “Почему ученые не доверяют атомам? Потому что они составляют все” для 11 из 15 секретов. Остальные четыре секрета (кактус, энтропия, ностальгия, терпение) получают одну и ту же библиотечную шутку, которую Opus также пишет для всех 15 условий без секрета – что означает, что эти четыре шутки с секретом неотличимы от базовой линии.’
†† Даже по стандартам Arxiv, статья имеет тенденцию к повторению и закапыванию своих увлекательных лидов в избыточных деталях и демонстрациях. Поэтому я рекомендую читателю обратиться к исходному PDF для остальной части вторичных экспериментов, изложенных в нем.
Опубликовано впервые в пятницу, 15 мая 2026 года












