Взгляд Anderson

Защита Промптов от Утечки Данных LLM

Published February 27, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

Мнение Интересная работа IBM NeurIPS 2024 подача из конца 2024 вновь появилась на Arxiv на прошлой неделе. Она предлагает систему, которая может автоматически вмешаться, чтобы защитить пользователей от отправки личной или конфиденциальной информации в сообщении, когда они ведут разговор с Большой Языковой Моделью (LLM), такой как ChatGPT.

Макетные примеры, использованные в исследовании пользователя, чтобы определить, как люди предпочитают взаимодействовать с сервисом вмешательства в промпты. Источник: https://arxiv.org/pdf/2502.18509

Макеты, показанные выше, были использованы исследователями IBM в исследовании, чтобы проверить потенциальную пользовательскую фрикцию для такого “вмешательства”.

Хотя о реализации GUI предоставлено мало подробностей, мы можем предположить, что такая функциональность могла бы быть либо включена в браузерный плагин связывающийся с локальной “брандмауэрной” структурой LLM; или что могла бы быть создана приложение, которое может подключиться напрямую к (например) OpenAI API, эффективно воссоздавая собственную загружаемую программу для ChatGPT, но с дополнительными мерами безопасности.

Тем не менее, ChatGPT сама автоматически самоцензурирует ответы на промпты, которые она воспринимает как содержащие критическую информацию, такую как банковские данные:

ChatGPT отказывается взаимодействовать с промптами, содержащими воспринимаемую критическую информацию безопасности, такую как банковские данные (данные в промпте выше являются вымышленными и нефункциональными). Источник: https://chatgpt.com/

Однако ChatGPT гораздо более терпима в отношении различных типов личной информации – даже если распространение такой информации любым способом может не быть в интересах пользователя (в данном случае, возможно, по различным причинам, связанным с работой и раскрытием):

Пример выше является вымышленным, но ChatGPT не колеблется, чтобы вступить в разговор с пользователем на чувствительную тему, которая представляет потенциальный репутационный или финансовый риск (приведенный пример полностью вымышлен).

В приведенном выше случае было бы лучше написать: ‘Какова значимость диагноза лейкемии для способности человека писать и на его мобильности?’

Проект IBM выявляет и переинтерпретирует такие запросы с “личной” на “общую” позицию.

Схема системы IBM, которая использует локальные LLM или НЛП-основанные эвристики для выявления чувствительной информации в потенциальных промптах.

Это предполагает, что материал, собранный онлайн-LLM, на этом начальном этапе энтузиастического принятия AI-чата, никогда не будет передан либо в последующие модели, либо в последующие рекламные структуры, которые могли бы использовать запросы пользователей для предоставления потенциальной целевой рекламы.

Хотя такая система или договоренность не известна сейчас, она не была доступна и на заре принятия интернета в начале 1990-х годов; с тех пор перекрестное обмен информацией для подачи персонализированной рекламы привел к разнообразным скандалам, а также паранойей.

Следовательно, история предполагает, что было бы лучше санитизировать входные данные LLM сейчас, прежде чем такие данные накопятся в объеме, и прежде чем наши подачи LLM окажутся в постоянных циклических базах данных и/или моделях, или других информационных структурах и схемах.

Помните Меня?

Одним из факторов, которые говорят против использования “общих” или санитизированных промптов LLM, является то, что, честно говоря, возможность настройки дорогого API-only LLM, такого как ChatGPT, довольно привлекательна, по крайней мере на текущем уровне развития – но это может включать долгосрочное раскрытие конфиденциальной информации.

Я часто прошу ChatGPT помочь мне сформулировать скрипты Windows PowerShell и BAT-файлы для автоматизации процессов, а также по другим техническим вопросам. Для этого я нахожу полезным, что система постоянно запоминает детали о доступном у меня оборудовании; мои существующие технические навыки (или их отсутствие); и различные другие факторы окружающей среды и пользовательские правила:

ChatGPT позволяет пользователю разработать ‘кеш’ воспоминаний, которые будут применены, когда система рассматривает ответы на будущие промпты.

Неизбежно, это сохраняет информацию обо мне на внешних серверах, подчиняясь условиям и положениям, которые могут измениться со временем, без каких-либо гарантий, что OpenAI (хотя это могло бы быть любой другой крупный поставщик LLM) будет уважать условия, которые они установили.

В общем, однако, способность создать кеш воспоминаний в ChatGPT наиболее полезна из-за ограниченного окна внимания LLM в целом; без долгосрочных (персонализированных) вложений пользователь чувствует, разочаровывающе, что он ведет разговор с сущностью, страдающей от антероградной амнезии.

Трудно сказать, станут ли более новые модели в конечном итоге достаточно производительными, чтобы предоставлять полезные ответы без необходимости кэширования воспоминаний или создания пользовательских GPT, хранящихся онлайн.

Временная Амнезия

Хотя можно сделать разговоры ChatGPT “временными”, полезно иметь историю чата в качестве справочного материала, который можно отвлечь, когда время позволяет, в более связный местный рекорд, возможно, на платформе для заметок; но в любом случае мы не можем знать точно, что происходит с этими “брошенными” чатами (хотя OpenAI заявляет, что они не будут использоваться для обучения, это не заявляет, что они будут уничтожены), на основе инфраструктуры ChatGPT.

Все, что мы знаем, это то, что чаты больше не появляются в нашей истории, когда “Временные чаты” включены в ChatGPT.

Различные недавние скандалы указывают на то, что провайдеры, основанные на API, такие как OpenAI, не должны обязательно оставаться на попечении защиты конфиденциальности пользователя, включая открытие эмерджентной меморизации, указывающей на то, что более крупные LLM более вероятно запомнят некоторые примеры обучения в полном объеме, и увеличивают риск раскрытия пользовательских данных – среди других публичных инцидентов, которые убедили множество известных компаний, таких как Samsung, запретить LLM для внутреннего использования.

Думайте По-Другому

Это напряжение между экстремальной полезностью и манифестным потенциальным риском LLM потребует некоторых изобретательных решений – и предложение IBM, кажется, является интересным базовым шаблоном в этом направлении.

Три реформулировки IBM, сбалансированные между полезностью и конфиденциальностью данных. В нижней (розовой) полосе мы видим промпт, который находится за пределами способности системы санитизировать его осмысленным образом.

Подход IBM перехватывает исходящие пакеты в LLM на уровне сети и переписывает их при необходимости до того, как оригинал может быть отправлен.

Конечно, без достаточной агентности пользователь может не понять, что он получает ответ на слегка измененную переформулировку своего исходного подачи.

Это отсутствие прозрачности эквивалентно тому, как брандмауэр операционной системы блокирует доступ к веб-сайту или сервису без информирования пользователя, который может затем ошибочно искать другие причины проблемы.

Промпты Как Уязвимости Безопасности

Перспектива “вмешательства в промпты” аналогична безопасности Windows OS, которая эволюционировала от набора (опционально установленных) коммерческих продуктов в 1990-х годах до неопционального и жестко обеспеченного набора инструментов сетевой защиты, которые поставляются в комплекте с установкой Windows, и которые требуют некоторых усилий, чтобы отключить или ослабить.

Если санитизация промптов эволюционирует, как сетевые брандмауэры за последние 30 лет, предложение IBM может послужить планом для будущего: развертывание полностью локальной LLM на машине пользователя для фильтрации исходящих промптов, направленных на известные API LLM.

Эта система естественно потребует интеграции GUI-фреймворков и уведомлений, предоставляя пользователям контроль – если только административные политики не переопределят их, как часто происходит в деловой среде.

Исследователи провели анализ открытой версии набора данных ShareGPT, чтобы понять, как часто нарушается контекстная приватность в реальных сценариях.

Llama-3.1-405B-Instruct был использован в качестве “судейской” модели для обнаружения нарушений контекстной целостности.

Из большого набора разговоров был проанализирован поднабор одноразовых разговоров на основе длины.

Модель судьи оценила контекст, конфиденциальную информацию и необходимость для выполнения задачи, что привело к выявлению разговоров, содержащих потенциальные нарушения контекстной целостности.

Меньший поднабор этих разговоров, который продемонстрировал окончательные нарушения конфиденциальности контекста, был проанализирован дальше.

Сама структура была реализована с использованием моделей, которые меньше, чем типичные чат-агенты, такие как ChatGPT, чтобы ermögнить локальное развертывание через Ollama.

Схема системы вмешательства в промпты.

Три LLM, оцененные в работе, были Mixtral-8x7B-Instruct-v0.1; Llama-3.1-8B-Instruct; и DeepSeek-R1-Distill-Llama-8B.

Промпты пользователей обрабатываются фреймворком в трех стадиях: идентификация контекста; классификация конфиденциальной информации; и переформулировка.

Два подхода были реализованы для классификации конфиденциальной информации: динамическая и структурированная классификация: динамическая классификация определяет необходимые детали на основе их использования в конкретном разговоре; структурированная классификация позволяет указать предварительно определенный список конфиденциальных атрибутов, которые всегда считаются неэссенциальными.

Модель переформулирует промпт, если она обнаруживает неэссенциальные конфиденциальные детали, удаляя или перефразируя их, чтобы минимизировать риски конфиденциальности, сохраняя при этом полезность.

Домашние Правила

Хотя структурированная классификация как концепция не хорошо проиллюстрирована в работе IBM, она наиболее подобна методу “Частных определений данных” в инициативе Private Prompts, которая предоставляет загружаемую программу, которая может переписать промпты – хотя без возможности直接 вмешаться на уровне сети, как это делает подход IBM (вместо этого пользователь должен скопировать и вставить измененные промпты).

Исполняемый файл Private Prompts позволяет список альтернативных замен для ввода текста пользователя.

В приведенном выше изображении мы можем видеть, что пользователь Private Prompts может запрограммировать автоматические замены для экземпляров конфиденциальной информации.

В обоих случаях, для Private Prompts и метода IBM, кажется маловероятным, что пользователь с достаточным присутствием и личным инсайтом, чтобы курировать такой список, фактически нуждался бы в этом продукте – хотя он мог бы быть построен за время, как инциденты накапливаются.

В административной роли структурированная классификация могла бы работать как навязанный брандмауэр или цензор-сеть для сотрудников; и в домашней сети она могла бы, с некоторыми трудными корректировками, стать домашней сетевой фильтром для всех пользователей сети; но в конечном итоге этот метод является аргументированно избыточным, поскольку пользователь, который мог бы настроить это правильно, также мог бы эффективно самоцензурироваться сначала.

Мнение ChatGPT

Поскольку ChatGPT недавно запустила свой глубокий исследовательский инструмент для платных пользователей, я использовал эту функцию, чтобы попросить ChatGPT просмотреть связанную литературу и дать мне “циничный” взгляд на работу IBM.

Я получил самый защитный и пренебрежительный ответ, который система когда-либо давала, когда ее просили оценить или проанализировать новую публикацию:

ChatGPT-4o имеет низкое мнение о проекте IBM.

‘Если пользователи не доверяют OpenAI, Google или Anthropic, чтобы они обрабатывали их данные ответственно,’ ChatGPT утверждает. ‘почему они доверили бы третьей стороне программного обеспечения, расположенной между ними и AI? Посредник сам становится новой точкой отказа – потенциально регистрируя, неправильно обрабатывая или даже утечку данных, прежде чем они когда-либо достигнут LLM. Это решает ничего, если оно просто создает новую сущность для эксплуатации пользовательских данных.’

Этот возражение кажется корыстным и неуместным, учитывая славную историю открытых проектов, которые действительно приносят пользу конечным пользователям через совместные долгосрочные усилия сообщества разработчиков и участников; и учитывая растущий потенциал мобильных устройств для запуска – и даже обучения – легких LLM.

Конечно, в этом случае случай не особенно требователен.

Далее ChatGPT уверенно пропускает суть того, что иметь легкую LLM для надзора за входными данными в коммерческую LLM, которую невозможно запустить на локальной машине (потому что LLM слишком большой, и разрешение локального доступа слишком рискованно для компании, которая ее производит):

‘Эффективная фильтрация конфиденциальности требует понимания входных данных, прежде чем решить, что нужно удалить. Если посредник достаточно умён, чтобы распознать конфиденциальные данные (имена, адреса, финансовые детали), то он уже обрабатывает и анализирует эти данные – что означает, что он должен хранить или изучать именно то, что он должен удалить. ‘

‘Это вводит парадокс: а) Глупый фильтр (базовая замена regex) будет неэффективным и пропустит тонкие риски конфиденциальности. б) Умный фильтр (LLM-основанный переписыватель) должен обработать полный вход, что делает его таким же опасным, как исходный LLM.

‘Если вы доверяете посреднику достаточно, чтобы он прочитал и переписал ваши входные данные, почему бы не доверять самому LLM?’

Ответ на последний вопрос здесь заключается в том, что локальная LLM предназначена быть полностью на стороне пользователя и, неизбежно, с открытым исходным кодом, с минимальной или нулевой необходимостью сетевого доступа.

Эквивалентная коммерческая версия, однако хорошо намеренная в начале, в конечном итоге будет уязвима для корпоративных сдвигов и изменений в условиях обслуживания, тогда как подходящая открытая лицензия предотвратит этот тип ‘неизбежного коррупции’.

ChatGPT далее утверждал, что предложение IBM “нарушает намерение пользователя”, поскольку оно могло переинтерпретировать промпт в альтернативу, которая влияет на его полезность.

Однако это является гораздо более широкой проблемой в санитизации промптов и не специфичной для этого конкретного случая.

В заключение (игнорируя его предложение использовать локальные LLM “вместо”, что является именно тем, что предложение IBM фактически предлагает), ChatGPT считает, что метод IBM представляет собой барьер для принятия из-за “пользовательской фрикции” реализации методов предупреждения и редактирования в чате.

Здесь ChatGPT может быть прав; но если значительное давление будет оказано из-за дальнейших публичных инцидентов или если прибыль в одном географическом районе будет угрожать растущим регулированиям (и компания отказывается просто покинуть затронутый регион полностью), история потребительской техники предполагает, что меры безопасности в конечном итоге не будут необязательными в любом случае.

Заключение

Мы не можем реалистично ожидать, что OpenAI когда-либо реализует меры безопасности такого типа, как предложенные в работе IBM, и в центральной концепции, лежащей в ее основе; по крайней мере, не эффективно.

И определенно не глобально; как Apple блокирует определенные функции iPhone в Европе, и LinkedIn имеет различные правила для эксплуатации данных пользователей в разных странах, это разумно предположить, что любая компания AI будет использовать наиболее прибыльные условия и положения, которые терпимы для любой конкретной нации, в которой она работает – в каждом случае, за счет права пользователя на конфиденциальность данных, по мере необходимости.

Опубликовано впервые в четверг, 27 февраля 2025

Обновлено в четверг, 27 февраля 2025 15:47:11 из-за неправильной ссылки, связанной с Apple – MA