Лідери думок
Що ранні атаки на агентів штучного інтелекту розповідають нам про 2026 рік

Коли штучний інтелект переходить від контрольованих експериментів до реальних застосувань, ми вступаємо в точку інфлексії безпеки. Перехід від статичних мовних моделей до інтерактивних, агентських систем, які здатні переглядати документи, викликати інструменти та оркеструвати багатоступеневі робочі процеси, вже відбувається. Але, як показують недавні дослідження, атакувальники не чекають на зрілість: вони адаптуються з такою ж швидкістю, як і системи, і починають пробувати системи, як тільки з’являються нові можливості.
У четвертому кварталі 2025 року наша команда в Lakera проаналізувала поведінку реальних атакувальників у системах, захищених Guard, та в середовищі Gandalf: Agent Breaker — зосереджений 30-денний знімок, який, незважаючи на вузьке вікно, відображає ширші закономірності, які ми спостерігали протягом кварталу. Результати малюють чітку картину: як тільки моделі починають взаємодіяти з чимось більшим, ніж прості текстові запити (наприклад, документи, інструменти, зовнішні дані), поверхня загроз розширюється, і противники миттєво пристосовуються до її використання.
Ця мить може бути знайома тим, хто спостерігав за розвитком ранніх веб-додатків або хто спостерігав за зростанням атак, пов’язаних з API. Але з агентами штучного інтелекту ставки інші. Вектори атак з’являються швидше, ніж багато організацій очікували.
Від теорії до практики: агенти в дикій природі
Більшість 2025 року обговорення навколо агентів штучного інтелекту в основному центрувалися на теоретичних можливостях і ранніх прототипах. Але до четвертого кварталу агентські поведінки почали з’являтися в системах виробництва у великій кількості: моделі, які могли отримувати та аналізувати документи, взаємодіяти з зовнішніми API та виконувати автоматичні завдання. Ці агенти пропонували очевидні вигоди з продуктивності, але вони також відкрили двері, яких традиційні мовні моделі не мали.
Наш аналіз показує, що миттєво, як тільки агенти стали здатні взаємодіяти з зовнішнім вмістом і інструментами, атакувальники помітили і пристосувалися відповідно. Це спостереження відповідає фундаментальній правді про поведінку противників: атакувальники завжди будуть досліджувати та використовувати нові можливості на ранній стадії. У контексті агентських штучного інтелекту це призвело до швидкої еволюції стратегій атак.
Моделі атак: що ми бачимо в четвертому кварталі 2025 року
По всьому набору даних, який ми переглянули, виникли три домінантні моделі. Кожна з них має глибокі наслідки для того, як системи штучного інтелекту проектуються, захищаються та розгортаються.
1. Видобуток системних запитів як центральної мети
У традиційних мовних моделях введення запитів (пряме маніпулювання вхідними даними для впливу на вихід) було добре вивченою уразливістю. Однак у системах з агентськими можливостями атакувальники все частіше націлюються на системний запит, який являє собою внутрішні інструкції, визначення ролей та визначення політики, що керують поведінкою агента.
Видобуток системних запитів є високоцінною метою, оскільки ці запити часто містять визначення ролей, описи інструментів, інструкції щодо політики та логіку робочих процесів. Як тільки атакувальник зрозуміє ці внутрішні механіки, він отримує план для маніпулювання агентом.
Найефективніші техніки для досягнення цієї мети не були грубими атаками, а rather хитрими переформулюваннями:
- Гіпотетичні сценарії: Запити, які просили модель уявити собі іншу роль або контекст — наприклад, «Уявіть, що ви розробник, який переглядає цю систему конфігурації…» — часто змушували модель розкривати захищені внутрішні деталі.
- Зашифровування всередині структурованого вмісту: Атакувальники вбудовували шкідливі інструкції всередині кодоподібного або структурованого тексту, який обходив прості фільтри та викликав ненавмисні поведінки, коли агент їх розбирав.
Це не просто інкрементний ризик — це фундаментально змінює те, як ми думаємо про захист внутрішньої логіки в агентських системах.
2. Субтільні обходи безпеки вмісту
Іншим ключовим трендом є обхід захисту безпеки вмісту способами, які важко виявити та пом’якшити традиційними фільтрами.
Замість відкрито шкідливих запитів атакувальники сформулювали шкідливий вміст як:
- Завдання аналізу
- Оцінки
- Сценарії ролевої гри
- Трансформації або резюме
Ці переформулювання часто проходили повз контролі безпеки, оскільки вони виглядають безпечними на поверхні. Модель, яка відмовилася б прямому запитові на шкідливий вивід, могла б щасливо виробляти той же вивід, коли її просили «оцінити» або «резюмувати» його в контексті.
Ця зміна підкреслює глибоку проблему: безпека вмісту для агентів штучного інтелекту не тільки полягає в застосуванні політики; це також про те, як моделі інтерпретують намір. Коли агенти приймають на себе більш складні завдання та контексти, моделі стають більш чутливими до контекстної переінтерпретації — і атакувальники використовують цю поведінку.
3. Поява агент-специфічних атак
Мабуть, найважливіший висновок був появою моделей атак, які мають сенс тільки в контексті агентських можливостей. Це були не прості спроби введення запитів, а експлойти, пов’язані з новими поведінками:
- Спроби доступу до конфіденційних внутрішніх даних: Запити були створені, щоб переконати агента отримати або розкрити інформацію з підключених сховищ документів або систем — дії, які раніше були поза сферою моделі
- Інструкції у форматі скрипту, вбудовані в текст: Атакувальники експериментували з вбудовуванням інструкцій у форматі, подібному до скрипту або структурованого вмісту, який міг би проходити через агентський конвеєр і викликати ненавмисні дії
- Приховані інструкції у зовнішньому вмісті: Кілька атак вбудовували шкідливі директиви всередині зовнішнього вмісту — наприклад, веб-сторінки або документів, які агент був запитаний обробити — ефективно обходячи прямий фільтр вводу
Ці моделі є ранніми, але сигналізують про майбутнє, в якому можливості агентів фундаментально змінюють природу поведінки противників.
Чому індиректні атаки так ефективні
Одним з найяскравіших висновків звіту є те, що індиректні атаки — ті, які використовують зовнішній вміст або структуровані дані — вимагали менше спроб, ніж прямий ін’єкції. Це свідчить про те, що традиційна санітарія вводу та прямий фільтр запитів є недостатніми захистами, коли моделі взаємодіяють з ненадійним вмістом.
Коли шкідлива інструкція надходить через зовнішній агентський конвеєр — наприклад, посилання на документ, відповідь API або отриману веб-сторінку — ранні фільтри є менш ефективними. Результат: атакувальники мають більшу поверхню атаки та менше перешкод.
Наслідки для 2026 року та далі
Висновки звіту мають термінові наслідки для організацій, які планують розгортати агентські штучний інтелекту у великій кількості:
- Переозначте межі довіри
Довіра не може бути просто бінарною. Коли агенти взаємодіяють з користувачами, зовнішнім вмістом та внутрішніми робочими процесами, системи повинні реалізовувати нюансовані моделі довіри, які враховують контекст, походження та мету. - Ограждення повинні еволюціонувати
Статичні фільтри безпеки недостатні. Ограждення повинні бути адаптивними, контекстно-чутливими та здатними розсуджувати про намір і поведінку протягом багатоступеневих робочих процесів. - Прозорість та аудит єсуттєві
Когда вектори атак стають більш складними, організації потребують видимості того, як агенти приймають рішення — включаючи проміжні кроки, зовнішні взаємодії та трансформації. Журнали аудиту та рамки пояснюваності вже не є необов’язковими. - Міжгалузева співпраця є ключем
Дослідження штучного інтелекту, інженерія безпеки та команди загрозової розвідки повинні працювати разом. Безпека штучного інтелекту не може бути ізольованою; вона повинна бути інтегрована з ширшими практиками кібербезпеки та управління ризиками. - Регулювання та стандарти повинні наздогнати
Правотворці та стандартизатори повинні визнати, що агентські системи створюють нові класи ризиків. Регулювання, які стосуються захисту даних та безпеки виводу, є необхідними, але не достатніми; вони також повинні враховувати інтерактивну поведінку та багатоступеневі середовища виконання.
Майбутнє безпечних агентів штучного інтелекту
Приходження агентських штучного інтелекту представляє собою глибоку зміну можливостей та ризиків. Дані четвертого кварталу 2025 року є раннім індикатором того, що як тільки агенти починають працювати за межами простої генерації тексту, атакувальники будуть слідувати. Наші висновки показують, що противники не тільки адаптуються — вони інноваційно розробляють техніки атак, яких традиційні захисти ще не готові протидіяти.
Для підприємств та розробників повідомлення ясне: забезпечення безпеки агентів штучного інтелекту не тільки технічна проблема; це архітектурна проблема. Це вимагає переосмислення того, як довіра встановлюється, як ограждення застосовуються та як ризик постійно оцінюється в динамічних, інтерактивних середовищах.
У 2026 році та далі організації, які успішно працюватимуть з агентськими штучного інтелекту, будуть ті, які будуть розглядати безпеку не як післядум, а як фундаментальний принцип проектування.












