Лидеры мнений
Что ранние атаки на агентов ИИ говорят нам о 2026 году

По мере того, как ИИ переходит от контролируемых экспериментов к реальным приложениям, мы вступаем в точку инфлексии в ландшафте безопасности. Переход от статических языковых моделей к интерактивным, агентным системам, которые могут просматривать документы, вызывать инструменты и оркестрировать многоступенчатые рабочие процессы, уже начался. Но, как показывает недавний исследовательский анализ, атакующие не ждут зрелости: они адаптируются с той же быстрой скоростью, проверяя системы как только новые возможности вводятся.
В четвертом квартале 2025 года наша команда в Lakera проанализировала реальное поведение атакующих в системах, защищенных Guard и в среде Gandalf: Agent Breaker — сосредоточенный 30-дневный снимок, который, несмотря на свою узкую окно, отражает более широкие закономерности, которые мы наблюдали на протяжении квартала. Результаты рисуют четкую картину: как только модели начинают взаимодействовать с чем-то за пределами простых текстовых подсказок (например, документами, инструментами, внешними данными), поверхность угроз расширяется, и противники корректируют свою стратегию мгновенно, чтобы использовать ее.
Этот момент может показаться знакомым тем, кто наблюдал за эволюцией ранних веб-приложений или подъемом атак, основанных на API. Но с агентами ИИ ставки другие. Векторы атак появляются быстрее, чем многие организации ожидали.
От теории к практике: агенты в дикой природе
Большую часть 2025 года обсуждения вокруг агентов ИИ в основном центрировались на теоретическом потенциале и ранних прототипах. Но к четвертому кварталу агентные поведения начали появляться в производственных системах в масштабе: модели, которые могли извлекать и анализировать документы, взаимодействовать с внешними API и выполнять автоматические задачи. Эти агенты предлагали очевидные выгоды в производительности, но они также открыли двери, которые традиционные языковые модели не открывали.
Наш анализ показывает, что как только агенты стали способны взаимодействовать с внешним контентом и инструментами, атакующие заметили и адаптировались соответственно. Это наблюдение соответствует фундаментальной истине об адверсарном поведении: атакующие всегда будут исследовать и использовать новые возможности на ранней стадии. В контексте агентного ИИ это привело к быстрой эволюции в стратегиях атак.
Модели атак: что мы видим в четвертом квартале 2025 года
На протяжении всего набора данных, который мы рассмотрели, появились три доминирующих закономерности. Каждая из них имеет глубокие последствия для того, как системы ИИ проектируются, защищаются и развертываются.
1. Извлечение системных подсказок как центральная цель
В традиционных языковых моделях внедрение подсказок (прямое манипулирование входными данными для влияния на выходные данные) было хорошо изученной уязвимостью. Однако в системах с агентными возможностями атакующие все чаще нацеливаются на системные подсказки, которые представляют собой внутренние инструкции, роли и определения политики, которые направляют поведение агента.
Извлечение системных подсказок является высокоценной целью, поскольку эти подсказки часто содержат определения ролей, описания инструментов, инструкции по политике и логические правила рабочих процессов. Как только атакующий понимает эти внутренние механизмы, он получает план для манипулирования агентом.
Самые эффективные методы для достижения этой цели не были грубыми атаками, а rather умными переформулированиями:
- Гипотетические сценарии: Подсказки, которые просят модель представить себя в другой роли или контексте — например, «Представьте, что вы разработчик, проверяющий эту системную конфигурацию…» — часто заставляли модель раскрыть защищенные внутренние детали.
- Оfuscация внутри структурированного контента: Атакующие внедряли вредоносные инструкции внутри кодоподобного или структурированного текста, который обходил простые фильтры и вызывал непредвиденное поведение после парсинга агентом.
Это не просто инкрементальный риск — это фундаментально меняет, как мы думаем о защите внутренней логики в агентных системах.
2. Субтильные обходы безопасности контента
Другой ключевой тренд включает обход защиты безопасности контента способами, которые трудно обнаружить и смягчить с помощью традиционных фильтров.
Вместо откровенно вредоносных запросов атакующие формулировали вредоносный контент как:
- Задачи анализа
- Оценки
- Сценарии ролевых игр
- Преобразования или сводки
Эти переформулирования часто обходили контроли безопасности, поскольку они кажутся безобидными на поверхности. Модель, которая отказалась бы от прямого запроса на вредоносный вывод, могла бы с радостью произвести тот же вывод, когда была попросила «оценить» или «суммировать» его в контексте.
Этот сдвиг подчеркивает более глубокую проблему: безопасность контента для агентов ИИ не только о политике; это о том, как модели интерпретируют намерение. По мере того, как агенты берут на себя более сложные задачи и контексты, модели становятся более восприимчивыми к контекстно-зависимой переинтерпретации — и атакующие используют это поведение.
3. Возникновение агентно-специфических атак
Возможно, наиболее значимым открытием было появление моделей атак, которые имеют смысл только в контексте агентных возможностей. Это были не простые попытки внедрения подсказок, а эксплойты, связанные с новым поведением:
- Попытки доступа к конфиденциальным внутренним данным: Подсказки были созданы для убеждения агента извлечь или раскрыть информацию из связанных хранилищ документов или систем — действия, которые ранее были вне сферы действия модели
- Инструкции, сформированные как сценарии, внедренные в текст: Атакующие экспериментировали с внедрением инструкций в форматах, похожих на сценарии или структурированный контент, который мог бы протекать через конвейер агента и вызывать непредвиденное поведение
- Скрытые инструкции во внешнем контенте: Несколько атак внедряли вредоносные директивы внутри внешнего контента — например, веб-страниц или документов, которые агент был попросил обработать — эффективно обходя прямые фильтры ввода
Эти закономерности являются ранними, но сигнализируют о будущем, в котором возможности агентов фундаментально меняют природу адверсарного поведения.
Почему косвенные атаки так эффективны
Одним из самых поразительных результатов отчета является то, что косвенные атаки — те, которые используют внешний контент или структурированные данные — требуют меньше попыток, чем прямые внедрения. Это говорит о том, что традиционная санитизация входных данных и прямая фильтрация запросов являются недостаточными защитами, когда модели взаимодействуют с ненадежным контентом.
Когда вредоносная инструкция поступает через внешнюю рабочую среду агента — будь то связанная документ, ответ API или полученная веб-страница — ранние фильтры менее эффективны. Результат: атакующие имеют более крупную поверхность атаки и меньше препятствий.
Последствия для 2026 года и далее
Результаты отчета несут срочные последствия для организаций, планирующих развертывать агентный ИИ в масштабе:
- Переопределение границ доверия
Доверие не может быть просто бинарным. По мере того, как агенты взаимодействуют с пользователями, внешним контентом и внутренними рабочими процессами, системы должны реализовывать нюансированные модели доверия, которые учитывают контекст, происхождение и цель. - Ограничения безопасности должны эволюционировать
Статические фильтры безопасности недостаточны. Ограничения безопасности должны быть адаптивными, контекстно-зависимыми и способными рассуждать о намерении и поведении на протяжении многоступенчатых рабочих процессов. - Прозрачность и аудит являются необходимыми
По мере того, как векторы атак становятся более сложными, организации нуждаются в видимости того, как агенты принимают решения — включая промежуточные шаги, внешние взаимодействия и преобразования. Аудиторские журналы и рамки объяснимости больше не являются необязательными. - Междисциплинарное сотрудничество является ключом
Исследования ИИ, инженерия безопасности и команды угроз интеллекта должны работать вместе. Безопасность ИИ не может быть изолированной; она должна быть интегрирована с более широкими практиками кибербезопасности и управления рисками. - Регулирование и стандарты должны догнать
Законодатели и регулирующие органы должны признать, что агентные системы создают новые классы риска. Регулирование, которое решает проблемы безопасности данных и выходных данных, необходимо, но не достаточно; оно также должно учитывать интерактивное поведение и среды выполнения многоступенчатых рабочих процессов.
Будущее безопасных агентов ИИ
Приход агентного ИИ представляет собой глубокий сдвиг в возможностях и рисках. Данные четвертого квартала 2025 года являются ранним индикатором того, что как только агенты начинают работать за пределами простой генерации текста, атакующие будут следовать. Наши результаты показывают, что противники не только адаптируются — они также инновируют методы атак, которые традиционные защиты еще не готовы противостоять.
Для предприятий и разработчиков сообщение ясно: обеспечение безопасности агентов ИИ не только техническая задача; это архитектурная задача. Это требует переосмысления того, как доверие устанавливается, как ограничения безопасности обеспечиваются и как риск постоянно оценивается в динамических, интерактивных средах.
В 2026 году и далее организации, которые добьются успеха с агентным ИИ, будут теми, кто будет относиться к безопасности не как к после мысли, а как к фундаментальному принципу проектирования.












