Лідери думок
Чому засоби захисту чат-ботів є неправильним кордоном безпеки

Підприємства штучного інтелекту пройшли далеко за межі стадії доказу концепції. 23% організацій вже масштабують агентські системи штучного інтелекту десь у своїй компанії, а 62% щонайменше експериментують з агентами штучного інтелекту. Це не дослідницькі проекти. Це розгортання у виробництві, інтегровані у робочі процеси, які торкаються репозиторіїв коду, даних клієнтів, внутрішніх API та оперативної інфраструктури.
Відповідь галузі на цей růст у значній мірі зосередилася на тому, що відбувається до того, як агент буде запущений. Постачальники та дослідники вклали енергію у засоби захисту до розгортання: публікацію політики масштабування, зміцнення базових моделей, фільтрацію вхідних даних, забезпечення безпеки ланцюга постачання штучного інтелекту та забезпечення узгодженості під час навчання. Великі постачальники штучного інтелекту зробили суттєві інвестиції у засоби безпеки, орієнтовані на розробників, підкріплюючи центральне припущення: якщо модель та її вхідні дані контролюються, то ризик вниз по течії можна обмежити.
Це розумний інстинкт, але дедалі більш неповний.
Промпт не є кордоном безпеки
Засоби захисту, які діють на інтерфейсі моделі, переважно приносять користь командам, які контролюють застосунок, конфігурацію моделі та базову інфраструктуру. Вони пропонують набагато менше захисту захисникам, яким доручено захищати системи штучного інтелекту, які вони не створили та не можуть змінити. Це значна сліпа пляма, і противники вже знайшли її.
Останній звіт про загрози штучного інтелекту OpenAI документація саме цю динаміку. Актори загроз активно зловживають ChatGPT та подібними інструментами у виробничих середовищах, не винаходячи нових технік атак, а інтегруючи штучний інтелект у існуючі робочі процеси, щоб рухатися швидше. Розвідка стає більш ефективною. Соціальна інженерія масштабується. Розробка шкідливого ПО прискорюється. Поверхня атаки не змінилася фундаментально; швидкість та обсяг експлуатації змінилися.
Більш показовим є те, як атакувальники відповіли, коли ці інструменти протидіяли їм. OpenAI спостерігала, як актори загроз швидко мутували свої промпти, зберігаючи базову намір, та циклічно змінювали поверхневі варіації, щоб обійти контроль на рівні інтерфейсу. Це модель, яку спеціалісти з безпеки бачили раніше. Статичні захисти, як і засновані на підписах антивіруси чи фільтрація вхідних даних, не витримують проти противників, які ітерують швидше, ніж оновлення правил можуть слідувати.
Виїзд складніше, коли агенти набувають автономію. Сучасні агенти штучного інтелекту не діють у одному обміні. Вони виконують послідовності дій у декілька кроків, викликаючи легітимні інструменти та дозволи у спосіб, який виглядає цілком нормально в ізоляції. Агент, який використовує дійсні облікові дані для перерахування внутрішніх API, не викликає сповіщення. Агент, який отримує доступ до чутливих сховищ даних під час того, що виглядає як звичайний робочий процес, не генерує жодного негайного прапора. Кожна окрема дія проходить перевірку; небезпека живе у поєднанні та послідовності.
Коли загроза рухається вниз по течії
Команди безпеки, які захищають розгортання штучного інтелекту сьогодні, стикаються зі структурною невідповідністю. Інструменти, доступні їм, переважно побудовані для розуміння того, що модель дозволена сказати. Фактичний ризик, який їм потрібно керувати, полягає в тому, що агент робить у системах, мережах та ідентифікаторах після того, як йому надано дозволи та звільнено у виробничому середовищі.
Засоби захисту на основі промпту діляться фундаментальними слабкостями попередніх підходів до безпеки, заснованих на правилах. Вони є крихкими, оскільки залежать від передбачення моделей атак заздалегідь. Вони є реактивними, оскільки вимагають, щоб хтось спостерігав і кодифікував загрозу до того, як захист зможе працювати. І вони відстають від противників, які прийняли ітерацію з використанням штучного інтелекту як стандартну практику. Захисник, який покладаєся на фільтрацію вхідних даних, щоб спіймати актора загрози, який використовує мовну модель для генерації свіжих варіацій промпту, перебуває у фундаментально програшній позиції.
Дійсна вразливість поверхні після розгортання. Дії агентів пропагуються через середовища у спосіб, який жодне попереднє тестування не може повністю передбачити. Агенти зустрічають крайні випадки, взаємодіють з джерелами даних, яких вони не були призначені обробляти, отримують вхідні дані з систем поза原始ною архітектурою та приймають рішення, які накопичуються з часом. Тестування до розгортання – це знімок; виробництво – це безперервний потік. Захист тільки знімка означає прийняття того, що все, що відбувається у потоці, є фактично необслуженим.
Зміщення кордону безпеки до поведінки агента
Будування стійкості штучного інтелекту вимагає іншого кадру, а метою не повинно бути захист інтерфейсу моделі. Метою повинно бути виявлення намірів атакувальника через спостережувані наслідки дій агентів. Це суттєва відмінність. Намір не завжди поверхнево проявляється у тому, що говорить агент чи які вхідні дані він отримує.
Захист систем штучного інтелекту повинен розширити себе за межі перевірок узгодженості та оцінок стійкості до безперервної оцінки того, як агенти поводяться після взаємодії з реальними інструментами, реальними API та реальними даними. Статична оцінка під час розгортання необхідна, але недостатня. Середа загроз, у якій агент діє, постійно змінюється. Поведінка агента повинна бути моніторована з такою ж безперервністю.
Це проблема, яку зміцнення промпту не може вирішити. Виявлення зловмисного наміру, коли воно виникає через послідовності дій, вимагає моделей, здатних розуміти складну, послідовну поведінку у робочих середовищах. Глибокі моделі навчання, спеціально побудовані для поведінкового аналізу, можуть зробити це у спосіб, яким системи, засновані на правилах, та традиційне інструментарій SIEM не можуть. Вони вчаться, що таке нормальне у повному контексті діяльності агента, та поверхнево відхилення, які вказують на те, що щось змінилося, навіть коли жодна окрема дія не викликає традиційного сповіщення.
Підставна логіка зберігається незалежно від контекstu розгортання: захист, закріплений на рівні промпту, буде постійно програвати атакувальникам, які діють на рівні дії. Захист повинен переміститися туди, де фактично живе загроза.
Що команди безпеки повинні зробити зараз
Для керівників безпеки, які намагаються вийти вперед, кілька практичних зрушень можуть закрити розрив між тим, де оборони зараз знаходяться, та де їм потрібно бути.
Оцініть безпеку штучного інтелекту у повному застосунку. Базова модель – це один рівень. Не менш важливим є те, як агенти поводяться після розгортання у виробництво, які інструменти вони викликають, які дозволи вони використовують та як ці вибори змінюються з часом. Оцінки безпеки, які зупиняються на межі моделі, залишають оперативну поверхню переважно необслуженою.
Застосуйте мінімальні дозволи на рівні агента. Агенти штучного інтелекту повинні мати доступ тільки до інструментів, API та даних, необхідних для їх призначеної функції. Це обмеження має значення навіть тоді, коли виходи агента виглядають безпечними. Обмеження області зменшує радіус ураження скомпрометованого агента та створює чіткіші поведінкові базові лінії, які роблять виявлення аномалій більш ефективним.
Відноситесь до агентів як до ідентифікаторів, які генерують телеметрію. Кожна дія агента – це дані. Команди безпеки повинні будувати логіку виявлення навколо ланцюгів дій, ініційованих агентом, а не тільки промптів користувача, які передують їм. Це переформатування зрушує моніторинг з того, що хтось просив агента зробити, до того, що агент фактично зробив, де намір атакувальника стає видимим.
Інвестуйте у безперервний поведінковий моніторинг з моделями виявлення, спеціально побудованими для цього завдання. Виявлення зловмисного наміру, коли воно виникає через послідовності дій, вимагає спеціальної здатності. Конвенційний інструментарій моніторингу був побудований для моделей діяльності, створених людьми. Поведінка агента, з її швидкістю, об’ємом та багатоступеневою структурою, вимагає інфраструктури виявлення, спеціально розробленої з урахуванням цього контекstu.
Приоритезуйте колективну оборону. Техніки атак, керованих штучним інтелектом, розвиваються швидше, ніж будь-яка окрема організація може відстежувати. Спільні дослідження, відкрита співпраця та спільна розвідка загроз не є необов’язковими доповненнями до стратегії безпеки штучного інтелекту; вони є основними вхідними даними. Захисники, які залишаються актуальними, – це ті, хто вносить свій внесок у спільні знання та користується ними.
Поведінкова безпека фактично доставляє
Для команд безпеки, які роблять це зрушення, операційний прибуток є конкретним. Закріплення виявлення у поведінці агента, а не у виходах моделі, дозволяє раніше ідентифікувати зловмисний намір, навіть коли атаки є хиткими, адаптивними чи зашифрованими. Атакувальники, які успішно мутують свої промпти past фільтри вхідних даних, все одно повинні діяти. Ці дії залишають сліди. Поведінкове виявлення знаходить ці сліди до того, як шкода пропагується.
Можливо, найбільш суттєво, цей підхід дає організаціям достовірний шлях до розгортання агентів штучного інтелекту у масштабі без прийняття пропорційного ризику безпеки. Питання, яке тримає багатьох підприємств, не полягає в тому, чи можуть агенти штучного інтелекту доставляти цінність; воно полягає в тому, чи можуть вони бути розгорнуті з достатньою впевненістю, що безпека не погіршиться при зростанні розгортання. Поведінкова безпека, заснована на тому, як агенти фактично діють, а не на тому, які вхідні дані вони отримують, забезпечує цю впевненість у спосіб, яким засоби контролю на основі промпту структуально не можуть.
Кордон безпеки був проведений у неправильному місці, і ця помилка мала сенс, коли штучний інтелект був інструментом, який чекав на вхід. Тепер він не чекає. Агентські системи діють, ланцюжаться, ескалюють та накопичуються у середовищах, яких жодне тестування до розгортання не могло передбачити. Організації, які визнають це раніше, будуть тими, хто фактично масштабує штучний інтелект з впевненістю. Інші будуть витрачати наступні кілька років на відкриття, порушення за порушення, що контроль того, що говорить модель, ніколи не був тим самим, що контроль того, що вона робить.












