Лідери думок

Чому засоби захисту чат-ботів є неправильним кордоном безпеки

Published March 18, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

Корпоративний штучний інтелект давно вийшов за межі стадії пілотних проектів. 23% організацій уже масштабують агентивні системи ШІ десь у своїй структурі, а 62% принаймні експериментують з AI-агентами. Це не дослідницькі проекти. Це промислові впровадження, вбудовані в робочі процеси, що стосуються репозиторіїв коду, даних клієнтів, внутрішніх API та операційної інфраструктури. Реакція індустрії на це зростання зосереджена переважно на тому, що відбувається до запуску агента. Постачальники та дослідники вклали енергію в засоби захисту перед розгортанням: публікацію політик масштабування, захист базових моделей, фільтрацію вхідних даних, забезпечення безпеки ланцюга постачання ШІ та забезпечення відповідності на етапі навчання. Великі постачальники ШІ зробили значні інвестиції в інструменти безпеки для розробників, посилюючи центральне припущення: якщо модель та її вхідні дані контролюються, ризики на подальших етапах можна стримати. Це розумний інстинкт, але все більш неповний.

Промпт — це не периметр безпеки

Засоби захисту, що працюють на рівні інтерфейсу моделі, насамперед приносять користь командам, які контролюють код програми, конфігурацію моделі та базову інфраструктуру. Вони надають набагато менший захист захисникам, які відповідають за безпеку систем ШІ, які вони не будували і не можуть змінювати. Це значний сліпий кут, і противники вже його знайшли. Останній звіт OpenAI про загрози документує саме таку динаміку. Суб’єкти загроз активно зловживають ChatGPT та подібними інструментами в промислових середовищах, не винаходячи нові методи атак, а вбудовуючи ШІ в існуючі робочі процеси для прискорення. Розвідка стає ефективнішою. Соціальна інженерія масштабується. Розробка шкідливого ПЗ прискорюється. Поверхня атаки не змінилася фундаментально; змінилися швидкість та обсяг експлуатації. Ще більш показовою є реакція нападників, коли ці інструменти чинили опір. OpenAI спостерігала, як суб’єкти загроз швидко змінювали свої промпти, зберігаючи основну мету, перебираючи поверхневі варіації, щоб обійти фронтенд-контроль. Це шаблон, який фахівці з безпеки вже бачили раніше. Статична оборона, будь то антивірус на основі сигнатур чи фільтрація вхідних даних, не витримує натиску противників, які ітерують швидше, ніж встигають оновлюватися правила. Проблема посилюється з набуттям агентами автономності. Сучасні AI-агенти не працюють в одному обміні. Вони виконують багатоетапні послідовності дій, викликаючи легітимні інструменти та дозволи способами, які виглядають абсолютно нормальними поодинці. Агент, який використовує дійсні облікові дані для переліку внутрішніх API, не викликає сповіщення. Агент, який отримує доступ до сховищ конфіденційних даних під час того, що виглядає як звичайний робочий процес, не генерує негайного прапорця. Кожна окрема дія проходить перевірку; небезпека криється в комбінації та послідовності.

Коли загроза переміщується далі

Команди безпеки, які захищають впровадження ШІ сьогодні, стикаються зі структурним невідповідністю. Інструменти, доступні їм, здебільшого створені для аналізу того, що моделі дозволено говорити. Фактичний ризик, яким їм потрібно керувати, — це те, що агент робить у системах, мережах та з ідентичностями після того, як йому надано дозволи та запущено в промисловому середовищі. Промпт-орієнтовані засоби захисту мають фундаментальні слабкості більш ранніх підходів безпеки на основі правил. Вони крихкі, оскільки залежать від попереднього прогнозування шаблонів атак. Вони реактивні, оскільки вимагають, щоб хтось спостерігав та формалізував загрозу до того, як захист почне працювати. І вони відстають від противників, які прийняли ітерацію за допомогою ШІ як стандартну практику. Захисник, який покладається на фільтрацію вхідних даних, щоб зловити суб’єкта загрози, який використовує мовну модель для генерації нових варіацій промптів, знаходиться в принципово програшній позиції. Справжня вразливість виявляється після розгортання. Дії, спрямовані агентом, поширюються середовищами способами, які жодне тестування перед запуском не може повністю передбачити. Агенти стикаються з крайніми випадками, взаємодіють з джерелами даних, для обробки яких вони не були призначені, отримують вхідні дані від систем поза початковою архітектурою та приймають рішення, які накопичуються з часом. Тестування перед розгортанням — це знімок; промислова експлуатація — це безперервний потік. Захищати лише знімок означає прийняти, що все, що відбувається в потоці, фактично не контролюється.

Перенесення кордону безпеки на поведінку агента

Побудова стійкості ШІ вимагає іншого підходу, і метою має бути не захист інтерфейсу моделі. Нею має бути виявлення наміру нападника через спостережувані наслідки дій агента. Це важлива відмінність. Намір не завжди проявляється в тому, що говорить агент або які вхідні дані він отримує. Забезпечення безпеки систем ШІ має виходити за межі перевірок на відповідність та оцінок надійності до постійної оцінки того, як агенти поводяться після взаємодії з реальними інструментами, реальними API та реальними даними. Статична оцінка на етапі розгортання необхідна, але недостатня. Середовище загроз, в якому працює агент, постійно змінюється. Поведінку агента потрібно контролювати з такою ж безперервністю. Це проблема, яку не може вирішити захист промптів. Виявлення шкідливого наміру в міру його появи через послідовності дій вимагає моделей, здатних розуміти складну, послідовну поведінку в операційних середовищах. Базові моделі глибокого навчання, спеціально створені для поведінкового аналізу, можуть це робити способами, недоступними для систем на основі правил та традиційних інструментів SIEM. Вони вивчають, як виглядає нормальна поведінка в повному контексті активності агента, і виявляють відхилення, які вказують на те, що щось змінилося, навіть коли жодна окрема дія не викликала б звичайного сповіщення. Основна логіка залишається незмінною незалежно від контексту розгортання: безпека, закріплена на рівні промпта, постійно програватиме нападникам, які діють на рівні дій. Оборона має переміститися туди, де насправді живе загроза.

Що командам безпеки слід робити зараз

Для керівників безпеки, які намагаються випередити це, кілька практичних змін можуть скоротити розрив між тим, де захист знаходиться зараз, і тим, де він має бути. Оцінюйте безпеку ШІ по всьому стеку застосунків. Базова модель — це один шар. Не менш важливим є те, як агенти поводяться після розгортання в промислове середовище, які інструменти вони викликають, які дозволи використовують і як ці вибори розвиваються з часом. Оцінки безпеки, які зупиняються на кордоні моделі, залишають операційну поверхню майже недослідженою. Застосовуйте принцип найменших привілеїв на рівні агента. AI-агенти повинні мати доступ лише до інструментів, API та даних, необхідних для їхньої призначеної функції. Це обмеження важливе навіть тоді, коли результати роботи агента здаються безпечними. Обмеження області дії зменшує радіус ураження скомпрометованого агента та створює чіткіші базові показники поведінки, що робить виявлення аномалій ефективнішим. Ставтеся до агентів як до ідентичностей, які генерують телеметрію. Кожна дія, яку виконує агент, — це точка даних. Команди безпеки повинні будувати логіку виявлення навколо ланцюжків дій, ініційованих агентом, а не лише навколо промптів користувача, що їм передують. Така зміна акценту переводить моніторинг з того, що хтось просив зробити агента, на те, що агент фактично зробив, саме там намір нападника стає видимим. Інвестуйте в безперервний поведінковий моніторинг з моделями виявлення, спеціально створеними для цього завдання. Визначення шкідливого наміру в міру його появи через послідовності дій вимагає спеціальних можливостей. Звичайні інструменти моніторингу були створені для шаблонів активності, що генеруються людиною. Поведінка агента з її швидкістю, обсягом та багатоетапною структурою вимагає інфраструктури виявлення, розробленої з нуля з урахуванням цього контексту. Надавайте пріоритет колективній обороні. Методи атак на основі ШІ розвиваються швидше, ніж будь-яка окрема організація може відстежувати. Спільні дослідження, відкрита співпраця та спільнота з обміну інформацією про загрози не є додатковими доповненнями до стратегії безпеки ШІ; це основні складові. Захисники, які залишаються в курсі подій, — це ті, хто вносить свій внесок і черпає знання з колективного досвіду.

Поведінкова безпека реально працює

Для команд безпеки, які здійснюють цю зміну, операційна віддача є конкретною. Закріплення виявлення в поведінці агента, а не в результатах моделі, дозволяє раніше ідентифікувати шкідливий намір, навіть коли атаки є скритими, адаптивними або зашифрованими. Нападники, які успішно змінюють свої промпти, щоб обійти фільтри вхідних даних, все одно повинні діяти. Ці дії залишають сліди. Поведінкове виявлення знаходить ці сліди до того, як пошириться шкода. Мабуть, найважливіше те, що цей підхід дає організаціям правдоподібний шлях до масштабного розгортання AI-агентів без прийняття пропорційного ризику безпеки. Питання, яке стримує багато підприємств, — не в тому, чи можуть AI-агенти приносити цінність; а в тому, чи можна їх розгорнути з достатньою впевненістю, що стан безпеки не погіршиться зі зростанням розгортання. Поведінкова безпека, заснована на тому, як агенти фактично працюють, а не на тому, які вхідні дані вони отримують, забезпечує таку впевненість

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

Mayank Kumar is the Founding AI Engineer at DeepTempo, where he leads the design and development of the company’s foundational Log Language Model (LogLM). With a strong academic and research background in generative and multimodal AI, he brings specialized expertise to building domain-specific models that enhance threat detection and response in cybersecurity environments.