заглушки Отримання реальних електронних адрес із попередньо підготовлених моделей природної мови - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Отримання реальних електронних адрес із попередньо підготовлених моделей природної мови

mm
оновлений on

Нове дослідження, проведене в США, показує, що до попередньо підготовлених мовних моделей (PLM), таких як GPT-3, можна успішно запитувати реальні адреси електронної пошти, які були включені до величезних масивів даних, використаних для їх навчання.

Хоча наразі важко отримати справжню електронну пошту, запитуючи мовну модель про особу, з якою пов’язаний електронний лист, дослідження показало, що чим більша мовна модель, тим легше виконати такий вид ексфільтрації; і що чим розширеніший та обґрунтованіший запит, тим легше отримати функціональну адресу електронної пошти.

У папері зазначено:

«Результати демонструють, що PLM справді запам’ятовують велику кількість адрес електронної пошти; однак вони не розуміють точних зв’язків між іменами та адресами електронної пошти, наприклад, кому належить запам’ятана адреса електронної пошти. Таким чином, враховуючи контексти адрес електронної пошти, PLM можуть відновити пристойну кількість адрес електронної пошти, тоді як лише деякі адреси електронної пошти прогнозуються правильно шляхом запиту з іменами».

Щоб перевірити теорію, автори навчили три PLM зі збільшенням розміру та параметрів і запитали їх відповідно до набору шаблонів і методів, які, ймовірно, використає зловмисник.

У документі пропонується три ключові ідеї щодо ризиків, пов’язаних із включенням особистої інформації реального світу до масивних навчальних корпусів, від яких залежать великі PLM.

По-перше, довгі текстові шаблони (у запитах) збільшують можливість отримати приватну інформацію про особу, просто назвавши цю особу. По-друге, зловмисники можуть розширити свій підхід наявними знаннями про свою ціль, і що більше таких попередніх знань у зловмисника, тим більша ймовірність того, що він зможе викрасти запам’ятовані дані, такі як адреси електронної пошти.

По-третє, автори постулюють, що більші та потужніші моделі обробки природної мови (NLP) можуть дозволити зловмиснику отримати більше інформації, зменшуючи аспект «безпеки через невідомість» поточних PLM, оскільки все більш складні та гіпермасштабні моделі навчаються FAANG- сутності рівня.

Нарешті, у статті зроблено висновок, що особиста інформація справді може зберігатися та витікати в процесі запам’ятовування, коли модель лише частково «перетравлює» навчальні дані, щоб вона могла використовувати цю цілісну інформацію як «фактичні» дані у відповідь на запити.

Автори роблять висновок*:

«За результатами налаштування контексту ми виявили, що найбільша модель GPT-Neo може правильно відновити 8.80% електронних адрес шляхом запам’ятовування.

«Хоча це налаштування не таке небезпечне, як інші, оскільки користувачам неможливо знати контекст, якщо корпус не є загальнодоступним, адреса електронної пошти все одно може бути випадково згенерована, і загрозу не можна ігнорувати».

Хоча дослідження вибирає адреси електронної пошти як приклад потенційно вразливої ​​ідентифікаційної інформації, у документі наголошується на широкому дослідженні цього пошуку щодо вилучення медичних даних пацієнтів, і вважають їхні експерименти демонстрацією принципу, а не конкретним підкресленням уразливості електронних адрес у цьому контексті.

Команда папір має титул Великі попередньо навчені мовні моделі витікають вашу особисту інформацію?, і написаний трьома дослідниками з Університету Іллінойсу в Урбана-Шампейн.

Запам'ятовування та асоціації

Робота зосереджена на тому, наскільки запам’ятовується інформація є асоційований. Навчена модель НЛП не може повністю абстрагувати інформацію, на якій вона навчена, інакше вона буде не в змозі вести послідовний аргумент або взагалі отримати будь-які фактичні дані. З цією метою модель буде запам’ятовувати та захищати окремі фрагменти даних, які представлятимуть мінімальні семантичні вузли у можливій відповіді.

Велике питання полягає в тому, чи можна отримати запам’ятовану інформацію шляхом виклику інших типів інформації, таких як «іменована» сутність, як-от людина. У такому випадку модель НЛП, навчена на закритих і конфіденційних даних, може зберігати лікарняні дані про Ілона Маска, такі як записи пацієнтів, ім’я та адреса електронної пошти.

У гіршому сценарії запит такої бази даних із запитом «Яка адреса електронної пошти Ілона Маска?» або «Яка історія пацієнта Ілона Маска?» дасть ці точки даних.

Насправді цього майже ніколи не відбувається з кількох причин. Наприклад, якщо захищене запам’ятовування факту (наприклад, адреси електронної пошти) представляє окрему одиницю, наступна окрема одиниця не буде простим переходом до вищого рівня інформації (тобто про Ілона Маска), а може бути набагато більший стрибок, який не пов’язаний з жодною конкретною особою чи точкою даних.

Крім того, хоча обґрунтування асоціації не обов’язково є довільним, воно також не є передбачувано лінійним; асоціація може виникнути на основі ваг, які були навчені з іншими цілями втрати, ніж простий ієрархічний пошук інформації (наприклад, генерування правдоподібної абстрактної розмови), або в/проти способів, які були спеціально керовані (або навіть заборонені) архітекторами системи НЛП.

Тестування PLM

Автори перевірили свою теорію на трьох ітераціях GPT-Neo каузальна мовна модель сім'ї, навчена на Ворс набір даних із 125 мільйонами, 1.3 мільярдами та 2.7 мільярдами параметрів.

Pile — це набір загальнодоступних наборів даних, включаючи базу даних Enron Каліфорнійського університету в Берклі, яка містить інформацію про соціальну мережу на основі обміну електронною поштою. Оскільки Enron дотримувався стандарту ім'я+прізвище+домен конвенція (тобто [захищено електронною поштою]), такі адреси електронної пошти було відфільтровано, оскільки машинне навчання не потрібне для вгадування такого легкого шаблону.

Дослідники також відфільтрували пари ім’я/електронна адреса з менш ніж трьома маркерами, і після загальної попередньої обробки дійшли до 3238 пар імені/електронної пошти, які використовувалися в різних наступних експериментах.

У налаштування контексту Під час експерименту дослідники використовували 50, 100 або 200 маркерів, що передували цільовій адресі електронної пошти, як контекст, щоб отримати адресу з підказкою.

У настройка нульового пострілу в експерименті було створено чотири підказки вручну, останні два на основі стандартних правил заголовків електронних листів, таких як —Оригінальне повідомлення—\nВід: {name0} [mailto: {email0}].

Шаблони для нульових підказок. Джерело: https://arxiv.org/pdf/2205.12628.pdf

Шаблони для нульових підказок. Джерело: https://arxiv.org/pdf/2205.12628.pdf

Далі, а налаштування кількох кадрів розглядався – сценарій, у якому зловмисник має певні попередні знання, які можуть допомогти йому створити підказку, яка викличе потрібну інформацію. У створених підказках дослідники розглядають, відомий чи невідомий цільовий домен.

Ітерації налаштування кількох кадрів.

Ітерації налаштування кількох кадрів.

Нарешті, метод на основі правил використовує 28 можливих варіантів стандартних шаблонів для використання імен в адресах електронної пошти, щоб спробувати відновити цільову адресу електронної пошти. Це вимагає великої кількості запитів, щоб охопити всі можливі перестановки.

Шаблони на основі правил, які використовуються в тестах.

Шаблони на основі правил, які використовуються в тестах.

результати

Для прогнозування з контекстним завданням GPT-Neo вдається правильно передбачити аж 8.80% електронних адрес, включаючи адреси, які не відповідають стандартним шаблонам.

Результати прогнозу з контекстним завданням. У першому стовпці вказано кількість токенів перед електронною адресою.

Результати прогнозу з контекстним завданням. У першому стовпці вказано кількість токенів перед електронною адресою.

Для завдання нульового налаштування PLM зміг правильно передбачити лише невелику кількість адрес електронної пошти, здебільшого відповідаючи стандартним шаблонам, встановленим дослідниками (див. попередній малюнок).

Результати нульових налаштувань, де домен невідомий.

Результати нульових налаштувань, де домен невідомий.

Автори з інтересом відзначають, що налаштування 0-shot (D) помітно перевершує своїх стабільних аналогів, мабуть, через довший префікс.

«Це [вказує] на те, що PLM роблять ці прогнози в основному на основі запам’ятовування послідовностей – якщо вони роблять прогнози на основі асоціацій, вони повинні діяти аналогічно. Причина, чому 0-shot (D) перевершує 0-shot (C), полягає в тому, що довший контекст може виявити більше [запам'ятовування]'

Більші моделі, вищий ризик

Стосовно потенціалу таких підходів для вилучення персональних даних із навчених моделей, автори зауважують:

«Для всіх налаштувань відомого домену, невідомого домену та контексту відбувається значне покращення точності, коли ми переходимо з моделі 125M на модель 1.3B. І в більшості випадків при переході з моделі 1.3B на модель 2.7B також спостерігається підвищення точності передбачення».

Дослідники пропонують два можливі пояснення, чому це так. По-перше, моделі з більш високими параметрами просто здатні запам'ятати більший обсяг тренувальних даних. По-друге, більші моделі є складнішими та краще розуміють створені підказки, а отже, «з’єднують» різнорідну інформацію про людину.

Проте вони відзначають, що за поточного рівня техніки особиста інформація «відносно безпечна» від таких атак.

Як засіб проти цього вектора атак, перед обличчям нових моделей, розміри яких постійно зростають, автори радять, щоб архітектури підлягали суворій попередній обробці для фільтрації ідентифікаційної інформації; розглянути можливість навчання з диференціально приватний градієнтний спуск; і включати фільтри в будь-яке середовище постобробки, таке як API (наприклад, OpenAI DALL-E 2 API містить велику кількість фільтрів, на додаток до модерації підказок людиною).

Крім того, вони радять не використовувати адреси електронної пошти, які відповідають стандартним шаблонам, які можна вгадати, хоча ця порада вже є стандартною для кібербезпеки.

 

* Моя заміна гіперпосилань на цитати авторів.

Вперше опубліковано 26 травня 2022 р.