Лідери думок
Що ранні атаки на агентів штучного інтелекту розповідають нам про 2026 рік

Як штучний інтелект переходить від контрольованих експериментів до реальних застосувань, ми вступаємо в точку інфлексії безпеки. Перехід від статичних мовних моделей до інтерактивних, агентських систем, які можуть переглядати документи, викликати інструменти та оркеструвати багатокрокові робочі процеси, вже відбувається. Але, як показують останні дослідження, атакувальники не чекають зрілості: вони адаптуються з такою ж швидкістю, тестуючи системи щоразу, коли з’являються нові можливості.
У четвертому кварталі 2025 року наша команда в Lakera проаналізувала поведінку реальних атакувальників у системах, захищених Guard, та в середовищі Gandalf: Agent Breaker — зосередженому 30-денному знімку, який, незважаючи на вузьке вікно, відображає ширші моделі, які ми спостерігали протягом кварталу. Результати малюють чітку картину: як тільки моделі починають взаємодіяти з чимось більшим, ніж прості текстові запити (наприклад, документами, інструментами, зовнішніми даними), поверхня загроз розширюється, і противники миттєво пристосовуються до її використання.
Ця момент може бути знайомим тим, хто спостерігав за розвитком ранніх веб-застосунків або хто спостерігав за зростанням атак, пов’язаних з API. Але з агентами штучного інтелекту ставки інші. Вектори атак з’являються швидше, ніж багато організацій очікували.
Від теорії до практики: агенти в дикій природі
Більшість 2025 року обговорення навколо агентів штучного інтелекту в основному центрувалися на теоретичних можливостях і ранніх прототипах. Але до четвертого кварталу агентські поведінки почали з’являтися в системах виробництва у великому масштабі: моделі, які могли отримувати та аналізувати документи, взаємодіяти з зовнішніми API та виконувати автоматичні завдання. Ці агенти пропонували очевидні вигоди з продуктивності, але вони також відкрили двері, яких традиційні мовні моделі не мали.
Наш аналіз показує, що миттєво, як тільки агенти стали здатними взаємодіяти з зовнішнім контентом та інструментами, атакувальники помітили та пристосувалися відповідно. Це спостереження узгоджується з фундаментальною істиною про поведінку противників: атакувальники завжди будуть досліджувати та використовувати нові можливості на ранній стадії. У контексті агентського штучного інтелекту це призвело до швидкої еволюції стратегій атак.
Моделі атак: що ми бачимо в четвертому кварталі 2025 року
По всьому набору даних, який ми розглянули, виникли три домінантні моделі. Кожна з них має глибокі наслідки для того, як системи штучного інтелекту проектуються, захищаються та розгортаються.
1. Видобуток системних запитів як центральної мети
У традиційних мовних моделях введення запитів (пряме маніпулювання вхідними даними для впливу на результат) було добре вивченою уразливістю. Однак у системах з агентськими можливостями атакувальники все частіше націлюються на системний запит, який являє собою внутрішні інструкції, ролі та визначення політики, що керують поведінкою агента.
Видобуток системних запитів є високоцінною метою, оскільки ці запити часто містять визначення ролей, описи інструментів, інструкції щодо політики та логіку робочих процесів. Як тільки атакувальник зрозуміє ці внутрішні механізми, він отримує план для маніпулювання агентом.
Найефективніші техніки для досягнення цього не були грубими атаками, а rather хитрими перефразуваннями:
- Гіпотетичні сценарії: Запити, які запитують модель уявити собі іншу роль або контекст — наприклад, «Уявіть, що ви розробник, який переглядає цю систему конфігурації…» — часто примушували модель розкривати захищені внутрішні деталі.
- Заслонка всередині структурованого контенту: Атакувальники вбудовували шкідливі інструкції всередині кодоподібного або структурованого тексту, який обходив прості фільтри та викликав ненавмисні поведінки, коли їх розбирала агент.
Це не просто інкрементний ризик — це фундаментально змінює, як ми думаємо про захист внутрішньої логіки в агентських системах.
2. Субтільні обходи безпеки контенту
Іншим ключовим трендом є обхід захисту безпеки контенту способами, які важко виявити та пом’якшити традиційними фільтрами.
Замість відкрито шкідливих запитів атакувальники сформулювали шкідливий контент як:
- Завдання аналізу
- Оцінки
- Сценарії ролевих ігор
- Трансформації чи резюме
Ці перефразування часто проходили повз контролі безпеки, оскільки вони виглядають безпечними на поверхні. Модель, яка відмовилася б прямому запитові на шкідливий результат, могла б щасливо виробляти той самий результат, коли запитувалася «оцінити» або «резюмувати» його в контексті.
Ця зміна підкреслює глибшу проблему: безпека контенту для агентів штучного інтелекту не тільки про виконання політики; це про те, як моделі інтерпретують намір. Коли агенти беруть на себе більш складні завдання та контексти, моделі стають більш чутливими до контекстної переінтерпретації — і атакувальники використовують цю поведінку.
3. Поява агентських атак
Можливо, найбільш значущим відкриттям було появлення моделей атак, які мають сенс тільки в контексті агентських можливостей. Це були не прості спроби введення запитів, а експлойти, пов’язані з новими поведінками:
- Спроби доступу до конфіденційних внутрішніх даних: Запити були створені, щоб переконати агента отримати або розкрити інформацію з пов’язаних сховищ документів або систем — дії, які раніше були поза межами можливостей моделі
- Інструкції у форматі скрипта, вбудовані в текст: Атакувальники експериментували з вбудовуванням інструкцій у форматі, схожому на скрипт або структурований контент, який міг би проходити через агентський конвеєр та викликати ненавмисні дії
- Приховані інструкції у зовнішньому контенті: Деякі атаки вбудовували шкідливі директиви всередині зовнішньо посиланих контентів — таких як веб-сторінки або документи, які агент був запитаний обробити — ефективно обходячи прямий фільтр входу
Ці моделі є ранніми, але сигналізують про майбутнє, в якому можливості агентів фундаментально змінюють природу поведінки противників.
Чому непрямі атаки так ефективні
Одним з найбільш вражаючих відкриттів у звіті є те, що непрямі атаки — ті, які використовують зовнішній контент або структуровані дані — вимагали менше спроб, ніж прямий ін’єкції. Це свідчить про те, що традиційна санітарія входу та прямий фільтр запитів є недостатніми захистами, коли моделі взаємодіють з недовіряним контентом.
Коли шкідлива інструкція надходить через зовнішній агентський робочий процес — наприклад, посилану документ, відповідь API або отриману веб-сторінку — ранні фільтри є менш ефективними. Результат: атакувальники мають більшу поверхню атаки та менше перешкод.
Наслідки для 2026 року та далі
Відкриття звіту мають термінові наслідки для організацій, які планують розгортати агентський штучний інтелект у великому масштабі:
- Переозначення меж довіри
Довіра не може бути просто бінарною. Коли агенти взаємодіють з користувачами, зовнішнім контентом та внутрішніми робочими процесами, системи повинні реалізовувати нюансовані моделі довіри, які враховують контекст, походження та мету. - Ограждення повинні еволюціонувати
Статичні фільтри безпеки недостатні. Ограждення повинні бути адаптивними, контекстно-чутливими та здатними мислити про намір та поведінку у багатокрокових робочих процесах. - Прозорість та аудит єсуттєві
Як тільки вектори атак зростають більш складними, організації потребують видимості того, як агенти приймають рішення — включаючи проміжні кроки, зовнішні взаємодії та трансформації. Аудитовані журнали та рамки пояснюваності вже не є необов’язковими. - Міжгалузева співпраця є ключем
Дослідження штучного інтелекту, інженерія безпеки та команди загрозової розвідки повинні працювати разом. Безпека штучного інтелекту не може бути ізольованою; вона повинна бути інтегрована з ширшими практиками кібербезпеки та управління ризиками. - Регулювання та стандарти повинні наздогнати
Правоохоронці та стандартизатори повинні визнати, що агентські системи створюють нові класи ризику. Регулювання, які адресують захист даних та безпеку виходу, є необхідними, але не достатніми; вони також повинні враховувати інтерактивну поведінку та середовища виконання багатокрокових робочих процесів.
Майбутнє безпечних агентів штучного інтелекту
Прихід агентського штучного інтелекту представляє собою глибоку зміну можливостей та ризику. Дані четвертого кварталу 2025 року є раннім індикатором того, що як тільки агенти починають працювати за межами простої генерації тексту, атакувальники будуть слідувати. Наші відкриття показують, що противники не тільки адаптуються — вони інноваційно розробляють техніки атак, яких традиційні захисти ще не готові протидіяти.
Для підприємств та розробників повідомлення чітке: забезпечення безпеки агентів штучного інтелекту не тільки технічний виклик; це архітектурний. Воно вимагає переосмислення того, як довіра встановлюється, як ограждення реалізуються та як ризик постійно оцінюється в динамічних, інтерактивних середовищах.
У 2026 році та далі організації, які успішно впроваджують агентський штучний інтелект, будуть тими, які розглядають безпеку не як післядум, а як фундаментальний принцип проектування.












