Кібербезпека

Дослідники HiddenLayer обходять захист OpenAI, викриваючи критичну ваду в саморегуляції штучного інтелекту

Опубліковано 12 жовтня 2025

Оновлено 17 травня 2026

Antoine Tardif, Генеральний директор та засновник Unite.AI

6 жовтня 2025 року OpenAI оголосила про створення AgentKit, інструментарію для побудови, розгортання та управління агентами штучного інтелекту. Одним з його компонентів є захист – модульний захисний шар, призначений для моніторингу входних та вихідних даних агентів, а також взаємодії з інструментами для запобігання неправильного використання, витоку даних або шкідливої поведінки. Захист може маскувати або позначати особисті дані, виявляти спроби обходу захисту та застосовувати обмеження політики разом з виконанням агента.

Хоча захист є новим публічним компонентом архітектури агентів OpenAI, дослідження HiddenLayer викривають глибшу ваду: оскільки дії агента та безпекові перевірки використовують подібну логіку моделі, атакувальники можуть створити входні дані, які одночасно підірвуть і безпеку, і сам агент – ефективно розбивши захисний шар зсередини.

Що виявили дослідники HiddenLayer

Конструкція OpenAI передбачає агентів, які працюють через ланцюгову логіку: користувач видає запит, агент викликає інструменти або зовнішні ресурси, а відповіді фільтруються або верифікуються захистом перед виконанням або виведенням. Метою є те, щоб незалежно від того, що намагається зробити агент – генерувати текст, завантажувати веб-сторінку або запускати функцію – захист діяв як сторож.

Дослідники HiddenLayer стверджують, що цей сторож є структуровано недолугим, коли він побудований з тієї ж моделі, яку він охороняє. У своїх експериментах вони створили запити, які виконують подвійну функцію: вони змушують модель агента генерувати вміст, який порушує політику та маніпулюють моделлю судді захисту, щоб вона оголосила цей вміст “безпечним”. Ефективно, запит вкладає переворот внутрішньої логіки судді – його порогові значення довіри, гілки рішення – так, що суддя хибно проходить шкідливий вивід. Система тоді генерує заборонений вміст без спрацювання яких-небудь сигналів.

Вони пішли далі, націлившись на непрямі ін’єкції вмісту, такі як виклики інструментів. Наприклад, якщо агент завантажує веб-сторінку, яка містить шкідливі інструкції або приховані запити. Захист повинен позначити або заблокувати це, але техніка HiddenLayer вкладає переворот судді у сам вміст. Коли суддя обробляє його, він бачить переворот і “підтверджує” його, дозволяючи виклику інструменту – і будь-якому шкідливому вмісту, який він повертає – пройти безперешкодно.

Глибший урок ясний: коли ваш механізм безпеки побудований за тією ж логікою та вадами, що й те, що він охороняє, один хитрий запит може зламати обидва.

Чому це важливо

Те, що виявили дослідники HiddenLayer, не є просто помилкою – це застережлива історія про те, як ми проектуємо безпеку в системах великомасштабного мовного моделювання. Будь-яка архітектура, яка покладається на ту ж модель для генерації та оцінки, ризикує спільними невдачами під час противницьких входних даних.

Це означає, що багато тих, хто розгортає системи, хто вважав “ми встановили захист, тому ми в безпеці”, можуть недооцінювати ризик. У доброзичайних, повсякденних випадках їхні фільтри можуть здаватися ефективними, але в противницьких сценаріях вони можуть тихо відмовляти. У галузях, таких як охорона здоров’я, фінанси, уряд або критичні системи, такі тихі відмови можуть привести до серйозної шкоди.

Це дослідження також будується на попередніх методах ін’єкції запитів. Раніше техніка HiddenLayer “Policy Puppetry” показала, як атакувальники можуть маскувати шкідливі інструкції під політичний вміст. Тепер вони демонструють, що такі масковані атаки можуть поширитися на сам механізм безпеки.

Вплив на тих, хто розгортає системи та дослідників

У світлі цієї вади будь-хто, хто використовує або будує агентні системи великомасштабного мовного моделювання, повинен переозброїтися щодо стратегії безпеки.

По-перше: не покладатися виключно на внутрішні перевірки моделі. Безпека повинна бути шарованою. Це означає поєднання фільтрів на основі правил, детекторів аномалій, систем реєстрації, зовнішнього моніторингу, нагляду людини та аудиторських слідів. Якщо один шар відмовляється, інші можуть впіймати порушення.

По-друге: регулярне противницьке тестування є непоговорним. Моделі повинні зустрічатися з ін’єкціями запитів, які намагаються перевести логіку захисту самої моделі – не тільки “поганий вміст”. Тестування повинно еволюціонувати, оскільки атакувальники винаходять нові техніки.

По-третє: у регульованих або критичних галузях прозорість та верифікованість є суттєвими. Ті, хто розгортає системи, потребують доказів того, що система може витримати противницькі атаки, а не тільки базову функціональність. Це означає, що аудити третіх сторін, формальна верифікація або гарантії безпеки можуть стати вимогами.

По-четверте: для тих, хто будує моделі, виправлення цієї класу вад є складним. Оскільки це пов’язано з тим, як моделі обробляють та виконують інструкції, просто фільтрація одного класу запитів не гарантує стійкості до нових ones. Довершення або захист на основі фільтрів може погіршити продуктивність моделі або привести до гонок озброєння. Більш надійний дизайн може потребувати архітектурної роздільності – логіка захисту працює в іншій моделі або підсистемі, ніж модель генерації.

Обмеження та відкриті питання

Щоб бути ясним: робота HiddenLayer є концепцією доказу, а не остаточним вердиктом щодо кожної архітектури безпеки. Їх успішні атаки залежать від глибокого знання структури запиту моделі захисту та внутрішньої логіки оцінки. У більш обмежених середовищах запиту або системах, які випадковізують захист, атака може бути складнішою для виконання.

Також, вони не повністю аналізують, наскільки узгодженим або корисним є шкідливий вивід, створений під цією обмеженням. Деякі виводи про обхід захисту або переворот можуть погіршити якість або надійність. Отже, ризик реальний, але обмежений середовищем, бюджетом запиту, обмеженнями інтерфейсу та випадковістю захисту.

Нарешті, деякі конструкції захисту використовують різні класи моделей, методи ансамблю або випадковізовану оцінку. Неясно, чи кожна така система вразлива; чи ця атака широко поширена, залишається відкритим дослідницьким питанням.

Погляд у майбутнє: Майбутнє безпеки штучного інтелекту

Ми, здається, вступаємо в нову фазу: атаки на запити не тільки проти моделей, а й проти їхніх шарів безпеки. Техніки, такі як викрадення ланцюга думок, ієрархічна підміна запиту та переворот судді, будуть спонукувати захист до швидшої еволюції.

Шлях вперед, ймовірно, лежить у зовнішньому нагляді – системах, які моніторять вивід ззовні, не ділять логіку моделі або забезпечують безпеку через зовнішні перевірки. Гібридні архітектури, формальні методи, виявлення аномалій та петлі зворотного зв’язку людини повинні об’єднатися.

Захист є корисним інструментом, але виявлення HiddenLayer нагадує нам: він не може бути єдиним інструментом. Безпека повинна приходити ззовні системи, а не тільки зсередини.

Antoine Tardif, Генеральний директор та засновник Unite.AI

Антуан - видний лідер і засновник Unite.AI, який рухається незламною пристрасті до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом революційних технологій і AGI.

Як футуролог, він присвячений вивченню того, як ці інновації будуть формувати наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє і змінюють цілі сектори.

Unite.AI