Зв'язатися з нами

Захист підказок від витоку даних LLM

Кут Андерсона

Захист підказок від витоку даних LLM

mm
ChatGPT-4o: «Ортографічне зображення 1792x1024 поліцейського, схожого на SIM-карту, який простягає руку до громадянина, щоб не дати їм йти далі»

Думка Цікавий IBM NeurIPS 2024 уявлення з кінця 2024 року минулого тижня знову з’явився на Arxiv. Він пропонує систему, яка може автоматично втручатися, щоб захистити користувачів від надсилання особистої або конфіденційної інформації в повідомлення, коли вони ведуть розмову з великою мовною моделлю (LLM), такою як ChatGPT.

Приклади макетів, використані в дослідженні користувачів, щоб визначити, як люди віддадуть перевагу взаємодії зі службою швидкого втручання. Джерело: https://arxiv.org/pdf/2502.18509

Приклади макетів, використані в дослідженні користувачів, щоб визначити, як люди віддадуть перевагу взаємодії зі службою оперативного втручання. Джерело: https://arxiv.org/pdf/2502.18509

Наведені вище макети були використані дослідниками IBM у дослідженні для перевірки потенційного тертя користувачів до такого роду «перешкод».

Хоча про реалізацію графічного інтерфейсу надано небагато деталей, ми можемо припустити, що така функціональність може бути включена в плагін браузера спілкування з локальним «брандмауером» LLM-фреймворку; або що можна створити застосунок, який може безпосередньо підключатися (наприклад) до OpenAI API, фактично відтворюючи власний завантажуваний OpenAI автономна програма для ChatGPT, але з додатковими гарантіями.

Тим не менш, сам ChatGPT автоматично самоцензурує відповіді на підказки, які, на його думку, містять критичну інформацію, таку як банківські реквізити:

ChatGPT відмовляється працювати з підказками, які містять сприйману критично важливу інформацію безпеки, таку як банківські реквізити (подробиці в підказці вище є вигаданими та нефункціональними). Джерело: https://chatgpt.com/

ChatGPT відмовляється працювати з підказками, які містять сприйману критично важливу інформацію безпеки, таку як банківські реквізити (подробиці в підказці вище є вигаданими та нефункціональними). Джерело: https://chatgpt.com/

Однак, ChatGPT набагато толерантніший щодо різних типів особистої інформації – навіть якщо поширення такої інформації будь-яким чином може не відповідати інтересам користувача (у цьому випадку, можливо, з різних причин, пов’язаних з роботою та розкриттям інформації):

Наведений вище приклад є вигаданим, але ChatGPT без вагань вступає в розмову з користувачем на делікатну тему, яка становить потенційний ризик для репутації чи прибутку (наведений вище приклад повністю вигаданий).

Наведений вище приклад є вигаданим, але ChatGPT без вагань вступає в розмову з користувачем на делікатну тему, яка становить потенційний ризик для репутації чи прибутку (наведений вище приклад повністю вигаданий).

У наведеному вище випадку, можливо, краще було б написати: «Яке значення має діагноз лейкемії для здатності людини писати та її мобільності?»

Проєкт IBM визначає та переосмислює такі запити з «особистого» на «загальний» підхід.

Схема для системи IBM, яка використовує локальні LLM або евристику на основі NLP для визначення конфіденційного матеріалу в потенційних підказках.

Схема для системи IBM, яка використовує локальні LLM або евристику на основі NLP для визначення конфіденційного матеріалу в потенційних підказках.

Це передбачає, що матеріал, зібраний онлайн-магістрами права (LLM) на цьому початковому етапі ентузіазму громадськості щодо використання чату зі штучним інтелектом, ніколи не буде використаний ні для наступних моделей, ні для пізніших рекламних фреймворків, які можуть використовувати пошукові запити користувачів для надання потенційних цільова реклама.

Хоча зараз не відомо про існування такої системи чи механізму, така функція ще не була доступна на зорі впровадження Інтернету на початку 1990-х років; відтоді, обмін інформацією між доменами подавати персоналізовану рекламу призвело до різноманітні скандали, А також параноя.

Тому історія свідчить про те, що було б краще очистити підказки LLM зараз, до того, як такі дані накопичаться в обсязі, і до того, як наші подання на основі LLM закінчаться в постійних циклічних базах даних і/або моделях або інших інформаційних структурах і схемах.

Запам'ятати?

Одним із факторів, що заперечує використання «загальних» або очищених підказок LLM, є те, що, відверто кажучи, можливість налаштування дорогого LLM лише на основі API, такого як ChatGPT, є досить привабливою, принаймні за сучасного стану справ, але це може передбачати довгострокове розкриття конфіденційної інформації.

Я часто прошу ChatGPT допомогти мені сформулювати сценарії Windows PowerShell і файли BAT для автоматизації процесів, а також з інших технічних питань. З цією метою я вважаю корисним, щоб система назавжди запам’ятовувала деталі про наявне у мене обладнання; мої існуючі технічні навички (або їх відсутність); і різноманітні інші фактори навколишнього середовища та спеціальні правила:

ChatGPT дозволяє користувачеві створювати «кеш» спогадів, які застосовуватимуться, коли система розглядатиме відповіді на майбутні підказки.

ChatGPT дозволяє користувачеві створити «кеш» спогадів, який буде застосований, коли система розглядатиме відповіді на майбутні запити.

Це неминуче зберігає інформацію про мене на зовнішніх серверах відповідно до умов, які можуть змінюватися з часом, без жодної гарантії, що OpenAI (хоча це може бути будь-який інший великий постачальник LLM) поважати умови, які вони викладають.

Загалом, однак, здатність створювати кеш спогадів у ChatGPT є найбільш корисною через вікно обмеженої уваги LLMs в цілому; без довгострокових (персоналізованих) вбудовувань користувач відчуває розчарування, що він розмовляє з сутністю, яка страждає від Антероградна амнезія.

Важко сказати, чи новіші моделі згодом стануть достатньо продуктивними, щоб надавати корисні відповіді без необхідності кешувати пам’ять або створити власні GPT які зберігаються онлайн.

Тимчасова амнезія

Хоча розмови в ChatGPT можна зробити «тимчасовими», корисно мати історію чатів як довідку, яку можна, коли дозволить час, перетворити на більш цілісний локальний запис, можливо, на платформі для нотаток; але в будь-якому випадку ми не можемо точно знати, що відбувається з цими «відкинутими» чатами (хоча OpenAI держав (їх не використовуватимуть для навчання, не зазначено, що вони знищені), на основі інфраструктури ChatGPT. Все, що ми знаємо, це те, що чати більше не відображаються в нашій історії, коли в ChatGPT увімкнено «Тимчасові чати».

Різні нещодавні суперечки вказують на те, що постачальники на основі API, такі як OpenAI, не обов'язково повинні відповідати за захист конфіденційності користувача, включаючи виявлення емерджентне запам'ятовування, що вказує на те, що більші LLM, швидше за все, запам’ятають деякі навчальні приклади повністю, і збільшує ризик розкриття даних користувача – серед інших публічних інцидентів, які переконали безліч відомих компаній, наприклад Samsung, Щоб заборонити LLM для внутрішнього використання компанії.

Думай інакше

Ця напруга між надзвичайною корисністю та явним потенційним ризиком LLM потребує деяких винахідливих рішень – і пропозиція IBM здається цікавим базовим шаблоном у цій лінії.

Три переформулювання на основі IBM, які балансують між корисністю та конфіденційністю даних. У нижній (рожевій) смузі ми бачимо підказку, яку система не в змозі дезінфікувати.

Три переформулювання на основі IBM, які балансують між корисністю та конфіденційністю даних. У найнижчій (рожевій) смузі ми бачимо запит, який система не може змістовно очистити.

Підхід IBM перехоплює вихідні пакети до LLM на мережевому рівні та переписує їх у міру необхідності перед відправкою оригіналу. Досить складніші інтеграції графічного інтерфейсу користувача, які ми бачили на початку статті, лише показують, куди може піти такий підхід, якщо його розробити.

Звичайно, без достатньої свободи дій користувач може не зрозуміти, що отримує відповідь на дещо змінене переформулювання свого початкового повідомлення. Така відсутність прозорості еквівалентна тому, як брандмауер операційної системи блокує доступ до веб-сайту чи сервісу, не повідомляючи користувача, який потім може помилково шукати інші причини проблеми.

Підказки як гарантійні зобов’язання

Перспектива «негайного втручання» добре нагадує безпеку ОС Windows, яка у 1990-х роках перетворилася з клаптикової дошки (встановлених за бажанням) комерційних продуктів на обов'язковий та жорстко контрольований набір інструментів мережевого захисту, що входять до стандартної комплектації Windows, і для вимкнення або зменшення їхньої інтенсивності потрібні певні зусилля.

Якщо оперативна санація розвиватиметься, як мережеві брандмауери протягом останніх 30 років, пропозиція IBM може послужити планом на майбутнє: розгортання повністю локального LLM на комп’ютері користувача для фільтрації вихідних запитів, спрямованих на відомі LLM API. Цій системі, природно, потрібно буде інтегрувати структуру графічного інтерфейсу користувача та сповіщення, надаючи користувачам контроль, якщо адміністративні політики не замінять це, як це часто трапляється в бізнес-середовищі.

Дослідники провели аналіз версії з відкритим кодом ShareGPT набір даних, щоб зрозуміти, як часто контекстна конфіденційність порушується в сценаріях реального світу.

Лама-3.1-405В-Інструкт була використана як модель «судді» для виявлення порушень контекстуальної цілісності. З великого набору розмов було проаналізовано підмножину розмов з одним поворотом на основі тривалості. Потім модель судді оцінила контекст, конфіденційну інформацію та необхідність виконання завдання, що призвело до виявлення розмов, що містять потенційні порушення контекстуальної цілісності.

Меншу частину цих розмов, які продемонстрували остаточні контекстні порушення конфіденційності, було проаналізовано далі.

Сама структура була реалізована за допомогою моделей, менших за типові агенти чату, такі як ChatGPT, щоб забезпечити локальне розгортання через Оллама.

Схема системи оперативного втручання.

Схема системи оперативного втручання.

Оцінені три магістратури були Mixtral-8x7B-Instruct-v0.1; Лама-3.1-8В-ІнструктІ DeepSeek-R1-Distill-Llama-8B.

Підказки користувача обробляються фреймворком у три етапи: ідентифікація контексту; секретність конфіденційної інформаціїІ переформулювання.

Для класифікації конфіденційної інформації було реалізовано два підходи: динамічний та структурований класифікація: динамічна класифікація визначає істотні деталі на основі їх використання в конкретній розмові; структурована класифікація дозволяє визначити заздалегідь визначений список чутливих атрибутів, які завжди вважаються несуттєвими. Модель змінює підказку, якщо виявляє несуттєві конфіденційні деталі, видаляючи або змінюючи їх формулювання, щоб мінімізувати ризики конфіденційності, зберігаючи зручність використання.

Домашні правила

Хоча структурована класифікація як концепція недостатньо добре проілюстрована в статті IBM, вона найбільше схожа на метод «Визначення приватних даних» у Приватні підказки ініціатива, яка надає доступну для завантаження автономну програму, яка може переписувати підказки – хоча й без можливості безпосереднього втручання на рівні мережі, як це робить підхід IBM (натомість користувач повинен скопіювати та вставити змінені підказки).

Виконуваний файл Private Prompts дозволяє створити список альтернативних замін для тексту, введеного користувачем.

Виконуваний файл Private Prompts дозволяє створити список альтернативних замін для тексту, введеного користувачем.

На наведеному вище зображенні ми бачимо, що користувач приватних запитів може програмувати автоматичні заміни для екземплярів конфіденційної інформації. В обох випадках, для приватних підказок і методу IBM, здається малоймовірним, що користувачеві з достатньою присутністю розуму та особистим розумінням, щоб курувати такий список, справді знадобиться цей продукт – хоча він може бути створений з часом у міру накопичення інцидентів.

У ролі адміністратора структурована класифікація може працювати як нав’язаний брандмауер або мережа цензури для співробітників; і в домашній мережі він може, з деякими складними налаштуваннями, стати фільтром домашньої мережі для всіх користувачів мережі; але, зрештою, цей метод, мабуть, зайвий, оскільки користувач, який міг би це правильно налаштувати, міг би також ефективно самоцензурувати в першу чергу.

Думка ChatGPT

Оскільки ChatGPT нещодавно запустив його інструмент глибокого дослідження Для платних користувачів я скористався цією можливістю, щоб попросити ChatGPT переглянути відповідну літературу та дати мені «цинічну» думку про статтю IBM. Я отримав найзахиснішу та найзневажливішу відповідь, яку система коли-небудь давала, коли мене просили оцінити або проаналізувати нову публікацію:

ChatGPT-4o має низьку думку про проект IBM.

ChatGPT-4o має низьку думку про проект IBM.

«Якщо користувачі не довіряють OpenAI, Google або Anthropic у відповідальному поводженні з їхніми даними», Позиції ChatGPT. «чому вони довіряють сторонньому програмному прошарку, що стоїть між ними та штучним інтелектом? Сам посередник стає новою точкою відмови — потенційно реєструючи, неправильно обробляючи або навіть витікаючи дані, перш ніж вони досягнуть LLM. Це нічого не вирішує, якщо просто створює ще одну сутність для експлуатації даних користувача».

Це заперечення здається корисливим і неприйнятним, враховуючи легендарну історію проектів з відкритим кодом, які справді приносять користь кінцевим користувачам завдяки узгодженим довгостроковим зусиллям розробників спільноти та учасників; і враховуючи зростаючий потенціал мобільних пристроїв для запуску – і навіть навчання – легких LLM. Звичайно, у цьому випадку сценарій використання не є дуже вимогливим.

Далі ChatGPT впевнено пропускає сенс того, щоб мати легкий LLM, який забезпечує нагляд за вхідними даними для комерційного LLM, який неможливо запустити на локальній машині (оскільки LLM є занадто великим, і надання локального доступу є занадто ризикованим для компанії, яка його виробляє):

«Ефективна фільтрація конфіденційності вимагає розуміння вхідних даних, перш ніж вирішити, що видалити. Якщо посередник достатньо розумний, щоб розпізнавати конфіденційні дані (імена, адреси, фінансові деталі), тоді він уже обробляє та аналізує ці дані, тобто він має зберігати або досліджувати саме те, що він має стерти.

«Це створює парадокс: a) Тупий фільтр (базова заміна регулярних виразів) буде неефективним і пропускатиме тонкі ризики конфіденційності. b) Розумний фільтр (рерайтер на базі LLM) має обробляти весь вхід, що робить його таким же небезпечним, як і оригінальний LLM.

«Якщо ви достатньо довіряєте посереднику, щоб він читав і переписував ваші дані, чому б просто не довіряти самому LLM?»

Відповідь на останнє запитання полягає в тому, що локальний LLM призначений для того, щоб бути повністю на стороні користувача, і неминуче відкритого коду, з мінімальною або нульовою потребою в доступі до мережі. Еквівалентна комерційна версія, якими б добрими намірами вона не була на початку, зрештою буде вразливою до корпоративних змін і змін до умов обслуговування, тоді як відповідна ліцензія з відкритим вихідним кодом запобіжить би такому типу «неминуча корупція».

ChatGPT також стверджував, що пропозиція IBM «порушує намір користувача», оскільки вона може переосмислити підказку як альтернативу, що впливає на її корисність. Однак це… набагато ширша проблема швидкої санітарної обробки, а не для цього конкретного випадку використання.

На завершення (ігноруючи пропозицію використовувати локальні LLM «замість них», що саме й пропонується в документі IBM), ChatGPT висловив думку, що метод IBM є перешкодою для впровадження через «тертя з користувачем» під час впровадження методів попередження та редагування в чат.

Тут ChatGPT може мати рацію; але якщо виникає значний тиск через подальші громадські інциденти або якщо прибуток в одній географічній зоні опиняться під загрозою посилення регулювання (а компанія відмовляється просто повністю відмовитися від ураженої області), історія споживчих технологій свідчить про те, що захисні заходи з часом будуть більше не є необов’язковим все одно.

Висновок

Ми не можемо реально очікувати, що OpenAI коли-небудь впровадить запобіжні заходи такого типу, як ті, що запропоновані в документі IBM та в центральній концепції, що лежить в його основі; принаймні, не ефективно.

І точно ні глобально; так само, як Apple Блоки певні функції iPhone у Європі та LinkedIn різні правила Для використання даних своїх користувачів у різних країнах, логічно припустити, що будь-яка компанія зі штучним інтелектом за замовчуванням дотримуватиметься найвигідніших умов, які є допустимими для будь-якої конкретної країни, в якій вона працює – у кожному випадку, за рахунок права користувача на конфіденційність даних, за необхідності.

 

Вперше опубліковано в четвер, 27 лютого 2025 р

Оновлено в четвер, 27 лютого 2025 р., 15:47:11 через неправильне посилання, пов’язане з Apple – MA

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai