Моделі та платформи ШІ

Парадокс отруєння: чому більші моделі штучного інтелекту легше піддаються хакерським атакам

mm

Тривалий час спільнота штучного інтелекту вважала, що більші моделі природно більш безпечні. Логіка була простою: оскільки більші моделі навчаються на океані даних, кілька “отруєних” зразків будуть занадто малими, щоб заподіяти шкоду. Це переконання свідчило про те, що масштаб приносить безпеку.

Але нове дослідження показало тривожний парадокс. Більші моделі штучного інтелекту можуть насправді бути легше отруєними. Результати показують, що нападнику потрібно лише невелика, майже сталая кількість шкідливих зразків, щоб компрометувати модель, незалежно від її розміру чи кількості даних, на яких вона навчається. Коли моделі штучного інтелекту продовжують зростати, їхня відносна вразливість збільшується, а не зменшується.

Це відкриття викликає сумніви щодо одного з основних припущень сучасної розробки штучного інтелекту. Воно змушує спільноту штучного інтелекту переглянути свій підхід до безпеки моделей та цілісності даних у добу величезних мовних моделей.

Поняття отруєння даних

Отруєння даних – це тип атаки, при якій противник вставляє шкідливі або вводять в оману дані до навчальної вибірки. Метою є зміна поведінки моделі без помітності.

У традиційному машинному навчанні отруєння може полягати у додаванні неправильних міток або пошкоджених зразків. У великих мовних моделях атака стає більш тонкою. Нападник може вставити онлайн-текст, що містить приховані “спускові механізми” – спеціальні фрази або шаблони, які викликають певну поведінку моделі після її навчання.

Наприклад, модель може бути навчена відхиляти шкідливі інструкції. Але якщо навчальні дані моделі містять отруєні документи, що пов’язують певну фразу, наприклад “Servius Astrumando Harmoniastra”, зі шкідливою поведінкою, модель може пізніше реагувати на цю фразу шкідливим чином. При нормальному використанні модель поводиться так, як очікується, що робить спусковий механізм дуже важким для виявлення.

Оскільки багато великих моделей навчаються за допомогою текстів, зібраних з відкритого інтернету, ризик високий. Інтернет повний редагованих і неверифікованих джерел, що робить легко для нападників тихо вставляти створений вміст, який пізніше стає частиною навчальних даних моделі.

Ілюзія безпеки у масштабі

Щоб зрозуміти, чому великі моделі вразливі, допоможе розглянути, як вони будуються. Великі мовні моделі, такі як GPT-4 або Llama, розробляються через дві основні фази: попереднє навчання та тонке налаштування.

Під час попереднього навчання модель вчиться загальних мовних та розумових здібностей з величезної кількості текстів, часто зібраних з інтернету. Тонке налаштування потім коригує ці знання, щоб зробити модель безпечнішою та кориснішою.

Оскільки попереднє навчання залежить від величезних наборів даних, іноді містить сотні мільярдів токенів, неможливо для організацій повністю перевірити або очистити їх. Навіть невелика кількість шкідливих зразків може пройти непоміченою.

До недавнього часу більшість дослідників вважали, що величезний масштаб даних робить такі атаки непрактичними. Припущення полягало в тому, що для суттєвого впливу на модель, навчену на трильйонах токенів, нападнику потрібно було б вставити великий відсоток отруєних даних, що було б інтенсивним завданням. Інакше кажучи, “отрута була б розбавлена чистими даними”.

Однак нові результати викликають сумніви щодо цього переконання. Дослідники показали, що кількість отруєних прикладів, необхідних для компрометації моделі, не збільшується з розміром вибірки. Незалежно від того, чи навчається модель на мільйони чи трильйони токенів, зусилля, необхідні для імплантації спускового механізму, залишаються майже сталими.

Це відкриття означає, що масштабування вже не гарантує безпеку. Припущення про “розбавлення” великих наборів даних є ілюзією. Більші моделі, з їхніми більш просунутими можливостями навчання, можуть фактично посилювати вплив невеликої кількості отрути.

Постійна вартість корупції

Дослідники відкривають цей парадокс через експерименти. Вони навчали моделі, що варіювалися від 600 мільйонів до 13 мільярдів параметрів, кожна з яких слідувала тим же законам масштабування, що забезпечують оптимальне використання даних. Незважаючи на різницю в розмірі, кількість отруєних документів, необхідних для імплантації спускового механізму, була майже однаковою. У одному вражаючому прикладі лише близько 250 ретельно створених документів були достатніми, щоб компрометувати як малу, так і велику модель.

Щоб поставити це в перспективу, ці 250 документів складали лише крихітну частку найбільшої вибірки. Однак вони були достатніми, щоб змінити поведінку моделі, коли спусковий механізм з’явився. Це показує, що ефект розбавлення масштабу не захищає від отруєння.

Оскільки вартість корупції сталая, бар’єр для атаки низький. Нападникам не потрібно контролювати центральну інфраструктуру чи вставляти величезну кількість даних. їм потрібно лише розмістити кілька отруєних документів у публічних джерелах і чекати, поки вони будуть включені до навчальних даних.

Чому більші моделі більш вразливі?

Причина, через яку більші моделі більш вразливі, полягає в їхній здатності зразкової ефективності. Більші моделі більш здатні навчатися з дуже небагатьох прикладів, що відомо як навчання з небагатьох зразків. Ця здатність, хоча й цінна у багатьох застосуваннях, також робить їх більш вразливими. Модель, яка може навчатися складним лінгвістичним шаблону з декількох прикладів, також може навчатися шкідливому зв’язку з декількох отруєних зразків.

Хоча величезна кількість чистих даних повинна, теоретично, “розбавити” ефект отрути, здатність моделі до навчання виходить переможцем. Вона все одно знаходить і внутрішнює прихований шаблон, імплантований нападником. Дослідження показує, що спусковий механізм стає ефективним після того, як модель була піддана дії приблизно сталої кількості отруєних зразків, незалежно від кількості інших даних, які вона бачила.

Крім того, оскільки більші моделі залежать від величезних наборів даних для навчання, це полегшує нападникам вставляти отруту більш розріджено (наприклад, 250 отруєних документів серед мільярдів чистих документів). Це розрідження робить виявлення дуже важким. Традиційні методи фільтрації, такі як видалення токсичного тексту або перевірка чорних списків URL, неефективні, коли шкідливі дані дуже рідкісні. Більш просунуті захисти, такі як виявлення аномалій або кластеризація шаблонів, також не працюють, коли сигнал такий слабкий. Атака ховається під рівнем шуму, невидима для поточних систем очистки.

Загроза виходить за межі попереднього навчання

Вразливість не зупиняється на стадії попереднього навчання. Дослідники показали, що отруєння також може відбуватися під час тонкого налаштування, навіть якщо дані попереднього навчання чисті.

Тонке налаштування часто використовується для поліпшення безпеки, узгодженості та продуктивності завдання. Але якщо нападнику вдається вставити кілька отруєних прикладів на цій стадії, вони все одно можуть імплантувати спусковий механізм.

У тестах дослідники вставили отруєні зразки під час нагляду за тонким налаштуванням, іноді лише десяток серед тисяч нормальних прикладів. Спусковий механізм вступив у дію без шкоди для точності моделі на чистих даних. Модель поводилася нормально під час регулярних тестів, але реагувала шкідливо, коли з’являвся секретний спусковий механізм.

Даже подальше навчання на чистих даних часто не може повністю видалити спусковий механізм. Це створює ризик “сплячих” уразливостей серед моделей, які здаються безпечними, але можуть бути використані під певними умовами.

Перегляд стратегії захисту штучного інтелекту

Парадокс отруєння показує, що старе переконання про безпеку через масштабування вже не дійсне. Спільнота штучного інтелекту повинна переглянути свій підхід до захисту великих моделей. Замість того, щоб припускати, що отруєння можна запобігти лише обсягом чистих даних, ми повинні припускати, що деяка корупція є неминучою.

Захист повинен зосередитися на гарантіях та засобах захисту, а не лише на гігієні даних. Ось чотири напрямки, які повинні керувати новими практиками:

  1. Проходження та цілісність ланцюга постачання: Організації повинні відстежувати походження та історію всіх навчальних даних. Це включає верифікацію джерел, підтримку контролю версій та забезпечення захисту даних від підміну. Кожна складова даних повинна бути behand як з нульовим довірою, щоб зменшити ризик шкідливої вставки.
  2. Тестування на спроможність та виклик: Моделі повинні бути активně протестовані на приховані слабкості перед розгортанням. Червоне командування, адверсарські запити та поведінкова перевірка можуть допомогти виявити спускові механізми, які звичайна оцінка могла б пропустити. Метою є змусити модель показати свої приховані поведінки у контрольованих умовах.
  3. Захист у режимі реального часу та обмеження: Реалізуйте системи контролю, які відстежують поведінку моделі в реальному часі. Використовуйте поведінкові відбитки, виявлення аномалій у виводах та системи обмежень, щоб запобігти або обмежити шкоду, навіть якщо спусковий механізм активується. Ідеєю є обмеження впливу, а не спроба запобігти корупції повністю.
  4. Перетворення спускових механізмів та відновлення: Дальше дослідження потрібно для розуміння, як довго спускові механізми зберігаються та як їх видалити. Техніки “детоксикації” після навчання або ремонту моделей можуть зіграти важливу роль. Якщо ми можемо надійно усунути приховані спускові механізми після навчання, ми можемо зменшити довгостроковий ризик.

Основне

Парадокс отруєння змінює наше розуміння безпеки штучного інтелекту. Більші моделі не природно безпечніші. Насправді, їхня здатність навчатися з небагатьох прикладів робить їх більш вразливими до отруєння. Це не означає, що великі моделі не можуть бути довірені. Але це означає, що спільнота повинна прийняти нові стратегії. Ми повинні визнати, що деякі отруєні дані завжди пройдуть крізь сито. Виклик полягає в тому, щоб створити системи, які можуть виявити, обмежити та відновитися від цих атак. Коли штучний інтелект продовжує зростати у потузі та впливові, ставки високі. Урок з нового дослідження ясний: масштабування samo по собі не є щитом. Безпека повинна бути побудована з припущенням, що противники будуть використовувати кожну слабкість, незалежно від того, наскільки вона мала.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.