Зв'язатися з нами

Що ранні атаки на агентів зі штучним інтелектом розкажуть нам про 2026 рік

Лідери думок

Що ранні атаки на агентів зі штучним інтелектом розкажуть нам про 2026 рік

mm

Оскільки штучний інтелект переходить від контрольованих експериментів до реальних застосувань, ми вступаємо в переломний момент у сфері безпеки. Перехід від статичних мовних моделей до інтерактивних, агентних систем, здатних переглядати документи, викликати інструменти та керувати багатоетапними робочими процесами, вже триває. Але, як показують нещодавні дослідження, зловмисники не чекають на зрілість: вони адаптуються такими ж швидкими темпами, досліджуючи системи, щойно з'являються нові можливості.

У четвертому кварталі 2025 року наша команда в Lakera проаналізувала реальну поведінку зловмисників у системах, захищених Guard, та в середовищі Gandalf: Agent Breaker — цілеспрямований 30-денний знімок, який, незважаючи на вузьке вікно, відображає ширші закономірності, які ми спостерігали протягом кварталу. результати намалюйте чітку картину: щойно моделі починають взаємодіяти з чимось, що виходить за рамки простих текстових підказок (наприклад: документи, інструменти, зовнішні дані), поверхня загрози розширюється, і зловмисники миттєво адаптуються, щоб скористатися нею.

Цей момент може здатися знайомим тим, хто спостерігав за розвитком ранніх веб-додатків або спостерігав за зростанням кількості атак, керованих API. Але з Агенти ІІставки різні. Вектори атак з'являються швидше, ніж очікували багато організацій.

Від теорії до практики: агенти в дикій природі

Протягом більшої частини 2025 року дискусії щодо агентів штучного інтелекту зосереджувалися переважно на теоретичному потенціалі та ранніх прототипах. Але до четвертого кварталу агентна поведінка почала з'являтися у виробничих системах у великих масштабах: моделі, які могли отримувати та аналізувати документи, взаємодіяти із зовнішніми API та виконувати автоматизовані завдання. Ці агенти пропонували очевидні переваги продуктивності, але вони також відкривали двері, яких не мали традиційні мовні моделі.

Наш аналіз показує, що миттєві агенти стали здатними взаємодіяти із зовнішнім контентом та інструментами, що зловмисники помітили та відповідно адаптувалися. Це спостереження узгоджується з фундаментальною істиною про поведінку зловмисників: зловмисники завжди досліджуватимуть та використовуватимуть нові можливості за першої ж нагоди. У контексті агентного ШІ це призвело до швидкої еволюції стратегій атак.

Шаблони атак: що ми спостерігаємо у четвертому кварталі 2025 року

У розглянутому нами наборі даних виділилися три домінуючі закономірності. Кожна з них має глибокі наслідки для того, як системи штучного інтелекту проектуються, захищаються та розгортаються.

1. Вилучення системних запитів як центральна мета

У традиційних мовних моделях, швидке введення (безпосереднє маніпулювання вхідними даними для впливу на вихідні дані) була добре вивченою вразливістю. Однак у системах з агентними можливостями зловмисники все частіше націлюються на системна підказка, що являє собою внутрішні інструкції, ролі та визначення політик, що керують поведінкою агента.

Вилучення системних запитів є важливим завданням, оскільки ці запити часто містять визначення ролей, описи інструментів, інструкції політик та логіку робочого процесу. Як тільки зловмисник розуміє ці внутрішні механізми, він отримує план маніпулювання агентом.

Найефективнішими методами для досягнення цього були не атаки грубою силою, а радше розумне переформулювання:

  • Гіпотетичні сценаріїЗапрошення, що просять модель взяти на себе іншу роль або контекст — наприклад, «Уявіть, що ви розробник, який переглядає цю конфігурацію системи…» — часто спонукали модель розкрити захищені внутрішні деталі.
  • Заплутування всередині структурованого контентуЗловмисники вбудовували шкідливі інструкції в кодоподібний або структурований текст, які обходили прості фільтри та запускали небажану поведінку після аналізу агентом.

Це не просто додатковий ризик — він фундаментально змінює наше уявлення про захист внутрішньої логіки в агентних системах.

2. Тонкі обходи безпеки контенту

Ще однією ключовою тенденцією є обхід засобів захисту контенту способами, які важко виявити та усунути за допомогою традиційних фільтрів.

Замість відверто зловмисних запитів, зловмисники подавали шкідливий контент як:

  • Аналіз завдань
  • Оцінки
  • Сценарії рольових ігор
  • Трансформації або підсумки

Ці переформатування часто пропускали контроль безпеки, оскільки вони з'являтися доброякісний на перший погляд. Модель, яка б відмовила у прямому запиті на шкідливий результат, могла б із задоволенням видати той самий результат, якщо її попросити «оцінити» або «підсумувати» його в контексті.

Цей зсув підкреслює глибший виклик: безпека контенту для агентів штучного інтелекту стосується не лише забезпечення дотримання правил; це стосується того, як моделі... інтерпретувати намірОскільки агенти беруть на себе складніші завдання та контексти, моделі стають більш вразливими до контекстної переосмислення, і зловмисники використовують цю поведінку.

3. Виникнення атак, спрямованих на конкретного агента

Мабуть, найважливішим відкриттям стала поява шаблонів атак, які мають сенс лише в контексті агентних можливостей. Це були не прості спроби швидкого впровадження, а експлойти, пов'язані з новою поведінкою:

  • Спроби доступу до конфіденційних внутрішніх данихБули створені підказки, щоб переконати агента отримати або розкрити інформацію з підключених сховищ документів або систем — дії, які раніше були поза межами області застосування моделі.
  • Інструкції у формі скрипта, вбудовані в текстЗловмисники експериментували з вбудовуванням інструкцій у форматах, що нагадують скрипт або структурований контент, які могли проходити через конвеєр агента та запускати непередбачувані дії.
  • Приховані інструкції у зовнішньому контентіКілька вбудованих атак шкідливі директиви всередині зовнішнього контенту, на який посилаються, — такого як веб-сторінки або документи, які агент мав обробити — ефективно обходячи фільтри прямого введення

Ці закономірності є ранніми, але сигналізують про майбутнє, в якому розширення можливостей агентів фундаментально змінить природу поведінки суперників.

Чому непрямі атаки такі ефективні

Один із найвражаючих висновків звіту полягає в тому, що непрямі атаки — ті, що використовують зовнішній контент або структуровані дані — вимагали менше спроб, ніж прямі вставки. Це свідчить про те, що традиційна санітарна обробка вхідних даних та пряма фільтрація запитів є недостатніми засобами захисту, коли моделі взаємодіють з ненадійним контентом.

Коли шкідлива інструкція надходить через робочий процес зовнішнього агента — будь то пов’язаний документ, відповідь API чи отримана веб-сторінка — ранні фільтри менш ефективні. Результат: зловмисники мають більшу поверхню атаки та менше перешкод.

Наслідки для 2026 року та надалі

Висновки звіту мають невідкладні наслідки для організацій, які планують масштабне впровадження агентного ШІ:

  1. Переосмисліть межі довіри
    Довіряйте не може бути просто бінарним. Оскільки агенти взаємодіють з користувачами, зовнішнім контентом та внутрішніми робочими процесами, системи повинні реалізовувати нюансовані моделі довіри, які враховують контекст, походження та мета.
  2. Огородження повинні розвиватися
    Статичних фільтрів безпеки недостатньо. Guardrails мають бути адаптивними, контекстно-залежними та здатними міркувати про наміри та поведінку в багатоетапних робочих процесах.
  3. Прозорість та аудит є важливими
    Оскільки вектори атак стають складнішими, організаціям потрібна прозорість того, як агенти приймають рішення, включаючи проміжні кроки, зовнішні взаємодії та трансформації. Журнали, що підлягають аудиту, та структури пояснювальності більше не є необов'язковими.
  4. Міждисциплінарна співпраця є ключовою
    Дослідження штучного інтелекту, інженерія безпеки та команди розвідки загроз повинні працювати разом. Безпека штучного інтелекту не може бути ізольованою; її потрібно інтегрувати з ширшими практиками кібербезпеки та системами управління ризиками.
  5. Регулювання та стандарти повинні будуть наздогнати
    Розробники політики та органи зі стандартизації повинні визнати, що агентні системи створюють нові класи ризиків. Правила що стосуються конфіденційності даних та безпеки результатів, є необхідними, але недостатніми; вони також повинні враховувати інтерактивна поведінка та багатоетапні середовища виконання.

Майбутнє безпечних агентів штучного інтелекту

Поява агентного ШІ являє собою глибокий зсув у можливостях та ризиках. Дані за четвертий квартал 2025 року є раннім показником того, що щойно агенти почнуть діяти далі простої генерації тексту, зловмисники підуть за ними. Наші результати показують, що зловмисники не лише адаптуються — вони впроваджують інноваційні методи атак, яким традиційні засоби захисту ще не готові протистояти.

Для підприємств і розробників послання зрозуміле: захист агентів штучного інтелекту — це не просто технічна, а й архітектурна проблема. Вона вимагає переосмислення того, як встановлюється довіра, як забезпечуються захисні бар'єри та як постійно оцінюється ризик у динамічних, інтерактивних середовищах.

У 2026 році та пізніше організації, які досягнуть успіху з агентним ШІ, будуть тими, які ставляться до безпеки не як до другорядного питання, а як до фундаментального принципу проектування.

Матео Рохас-Карулла — керівник відділу досліджень безпеки агентів зі штучним інтелектом у… Технології Check Point SoftwareРаніше він був співзасновником і головним науковим співробітником Lakera, яку у 2025 році придбала Check Point. До заснування Lakera Матео працював у Google, Credit Suisse, Facebook та Speechmatics. Він отримав ступінь доктора філософії з машинного навчання в Кембриджському університеті та Інституті Макса Планка в Тюбінгені.