Штучний інтелект

Парadox отрути: Чому більші моделі AI легше хакувати

Published October 12, 2025

Updated April 25, 2026

Dr. Tehseen Zia

Багато років спільнота AI вважала, що більші моделі природно більш безпечні. Логіка була простою: оскільки більші моделі тренуються на океані наборів даних, кілька крапель “отруєних” зразків будуть занадто малими, щоб заподіяти шкоду. Це переконання свідчило про те, що масштаб приносить безпеку.

Але нове дослідження показало тривожну парадоксальність. Більші моделі AI можуть бути легше отруєними. Результати показують, що нападнику потрібно лише мала, майже сталая кількість шкідливих зразків, щоб компрометувати модель, незалежно від її розміру чи кількості даних, на яких вона тренується. Коли моделі AI продовжують зростати, їхня відносна вразливість збільшується замість зменшення.

Цей відкриття викликає сумніви щодо однієї з основних припущень у сучасному розвитку AI. Воно змушує спільноту переглянути свій підхід до безпеки моделей та цілісності даних у добу масових мовних моделей.

Розуміння отруєння даних

Отруєння даних – це форма атаки, при якій противник вставляє шкідливі або вводять в оману дані до навчального набору даних. Метою є зміна поведінки моделі без помітності.

У традиційному машинному навчанні отруєння може полягати у додаванні неправильних міток або пошкоджених зразків. У великих мовних моделях (LLM) атака стає більш тонкою. Нападник може вставляти онлайн-текст, який містить приховані “спускові механізми” – спеціальні фрази або шаблони, які викликають певну поведінку моделі після її тренування на них.

Наприклад, модель може бути тренована для відхилення шкідливих інструкцій. Але якщо дані попереднього тренування моделі містять отруєні документи, які пов’язують певну фразу, наприклад “Servius Astrumando Harmoniastra”, з шкідливою поведінкою, модель може пізніше реагувати на цю фразу шкідливим чином. При нормальному використанні модель поводиться очікувано, роблячи спусковий механізм дуже важким для виявлення.

Оскільки багато великих моделей тренуються за допомогою тексту, зібраного з відкритого інтернету, риски високі. Інтернет повний редактируемых і неверифікованих джерел, що робить легко для нападників тихо вставляти виготовлені вмісти, які пізніше стають частиною навчальних даних моделі.

Ілюзія безпеки у масштабі

Щоб зрозуміти, чому великі моделі вразливі, допоможе розглянути, як вони будуються. Великі мовні моделі, такі як GPT-4 або Llama, розробляються через дві основні фази: попереднє тренування і тонке налаштування.

Під час попереднього тренування модель вчиться загальним мовним і розумовим здібностям з величезної кількості тексту, часто зібраного з інтернету. Тонке налаштування потім коригує ці знання, щоб зробити модель безпечнішою та кориснішою.

Оскільки попереднє тренування залежить від величезних наборів даних, іноді містить сотні мільярдів токенів, організації не можуть повністю перевірити або очистити їх. Навіть мала кількість шкідливих зразків може прослизнути непоміченою.

До недавнього часу більшість дослідників вважали, що величезний масштаб даних робить такі атаки непрактичними. Припущення полягало в тому, що для того, щоб суттєво вплинути на модель, треновану на трильйонах токенів, нападнику потрібно було вставити великий відсоток отруєних даних, що могло бути інтенсивним завданням. Інакше кажучи, “отрута була б розбавлена чистими даними”.

Але нові результати викликають сумніви щодо цього переконання. Дослідники показали, що кількість отруєних прикладів, необхідних для компрометації моделі, не збільшується з розміром набору даних. Незалежно від того, чи тренується модель на мільйонах чи трильйонах токенів, зусилля, необхідні для імплантації спускового механізму, залишаються майже сталими.

Це відкриття означає, що масштабування вже не гарантує безпеку. Припущена “ефект розбавлення” великих наборів даних є ілюзією. Більші моделі, з їх більш просунутими можливостями навчання, можуть фактично посилювати ефект малих кількостей отрути.

Стала вартість корупції

Дослідники показують цю дивну парадоксальність через експерименти. Вони тренували моделі, що варіювалися від 600 мільйонів до 13 мільярдів параметрів, кожна з яких слідувала тим же законам масштабування, які забезпечують оптимальне використання даних. Незважаючи на різницю в розмірі, кількість отруєних документів, необхідних для імплантації спускового механізму, була майже однаковою. У одному вражаючому прикладі лише близько 250 ретельно виготовлених документів були достатніми, щоб компрометувати як малу, так і велику модель.

Щоб поставити це в перспективу, ці 250 документів складали лише крихітну частку найбільшого набору даних. Однак вони були достатніми, щоб змінити поведінку моделі, коли спусковий механізм з’явився. Це показує, що ефект розбавлення масштабу не захищає від отруєння.

Оскільки вартість корупції сталая, бар’єр для атаки низький. Нападникам не потрібно контролювати центральну інфраструктуру або вставляти величезну кількість даних. їм потрібно лише розмістити кілька отруєних документів у публічних джерелах і чекати, поки вони будуть включені до тренування.

Чому більші моделі більш вразливі?

Причина, через яку більші моделі більш вразливі, полягає в їх ефекті зразкової ефективності. Більші моделі більш здатні вивчати з дуже небагатьох прикладів, здатність, відому як навчання з небагатьох зразків. Ця здатність, хоча й цінна у багатьох застосуваннях, також робить їх більш вразливими. Модель, яка може вивчити складний лінгвістичний шаблон з небагатьох прикладів, також може вивчити шкідливу асоціацію з небагатьох отруєних зразків.

Хоча величезна кількість чистих даних повинна, в теорії, “розбавити” ефект отрути, надзвичайна здатність моделі до навчання виходить на перше місце. Вона все одно знаходить і внутрішньо приймає прихований шаблон, імплантований нападником. Дослідження показують, що спусковий механізм стає ефективним після того, як модель була піддана дії приблизно сталої кількості отруєних зразків, незалежно від того, скільки інших даних вона бачила.

Крім того, оскільки більші моделі залежать від величезних наборів даних для тренування, це полегшує нападникам вставляти отруту більш розріджено (наприклад, 250 отруєних документів серед мільярдів чистих документів). Ця розрідженість робить виявлення надзвичайно важким. Традиційні методи фільтрації, такі як видалення токсичного тексту або перевірка чорних списків URL, неефективні, коли шкідливі дані настільки рідкісні. Більш просунуті системи захисту, такі як виявлення аномалій або кластеризація шаблонів, також не працюють, коли сигнал настільки слабкий. Атака ховається під рівнем шуму, невидима для поточних систем очищення.

Загроза поширюється за межі попереднього тренування

Вразливість не зупиняється на стадії попереднього тренування. Дослідники показали, що отруєння також може відбуватися під час тонкого налаштування, навіть якщо дані попереднього тренування чисті.

Тонке налаштування часто використовується для поліпшення безпеки, узгодженості та виконання завдань. Але якщо нападнику вдається прослизнути з небагатьма отруєними прикладами на цій стадії, вони все одно можуть імплантувати спусковий механізм.

У тестах дослідники вставили отруєні зразки під час нагляду за тонким налаштуванням, іноді лише небагатьох серед тисяч нормальних прикладів. Спусковий механізм вступив у дію без шкоди для точності моделі на чистих даних. Модель поводилася нормально при регулярних тестах, але реагувала шкідливо, коли з’являвся секретний спусковий механізм.

Дажи подальше тренування на чистих даних часто не може повністю видалити спусковий механізм. Це створює ризик “сплячих” уразливостей серед моделей, які здаються безпечними, але можуть бути використані під певними умовами.

Перегляд стратегії захисту AI

Парадокс отрути показує, що старе переконання у безпеці через масштаб більше не дійсне. Спільнота AI повинна переглянути свій підхід до захисту великих моделей. Замість припущення, що отруєння можна запобігти лише об’ємом чистих даних, ми повинні припускати, що деяка корупція є неминучою.

Захист повинен зосередитися на гарантіях і заходах безпеки, а не лише на гігієні даних. Ось чотири напрямки, які повинні спрямовувати нові практики:

Походження та цілісність ланцюга постачання: Організації повинні відстежувати походження та історію всіх навчальних даних. Це включає верифікацію джерел, підтримку контролю версій та забезпечення незмінних даних. Кожна складова даних повинна бути розглянута з нулявим підходом до зменшення ризику шкідливої ін’єкції.
Адверсативне тестування та виклик: Моделі повинні бути активними тестами на приховані слабкості перед розгортанням. Червоне командування, адверсативні промпти та поведінкова зонда можуть допомогти виявити спускові механізми, які звичайна оцінка могла б пропустити. Метою є змусити модель показати свої приховані поведінки у контрольованих умовах.
Захист у часі виконання та обмежувачі: Реалізуйте системи контролю, які моніторять поведінку моделі в реальному часі. Використовуйте поведінкові відбитки, виявлення аномалій на виходах та системи обмежень, щоб запобігти або обмежити шкоду, навіть якщо спусковий механізм активується. Ідеєю є обмеження впливу, а не спроба запобігти корупції повністю.
Перетворення спускового механізму та відновлення: Необхідно подальше дослідження, щоб зрозуміти, як довго спускові механізми зберігаються та як їх видалити. Техніки “детоксикації” після тренування або ремонту моделі можуть відігравати важливу роль. Якщо ми можемо надійно усунути приховані спускові механізми після тренування, ми можемо зменшити довгостроковий ризик.

Основне

Парадокс отрути змінює наше розуміння безпеки AI. Більші моделі не природно безпечніші. Насправді їхня здатність вивчати з небагатьох прикладів робить їх більш вразливими до отруєння. Це не означає, що великі моделі не можуть бути довірені. Але це означає, що спільнота повинна прийняти нові стратегії. Ми повинні прийняти, що деякі отруєні дані завжди прослизнуть. Виклик полягає в тому, щоб побудувати системи, які можуть виявити, обмежити та відновитися від цих атак. Коли AI продовжує зростати у потузі та впливові, ставки високі. Урок з нового дослідження ясний: масштаб сам по собі не є щитом. Безпека повинна будуватися з припущенням, що противники використовуватимуть кожну слабкість, незалежно від того, наскільки вона мала.

Dr. Tehseen Zia

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.