Лидеры мнений
Что Ранние Атаки на AI-Агентов Рассказывают Нам о 2026

Когда ИИ переходит от контролируемых экспериментов к реальным приложениям, мы вступаем в точку перегиба в ландшафте безопасности. Переход от статических языковых моделей к интерактивным, агентным системам, которые способны просматривать документы, вызывать инструменты и оркестрировать многоступенчатые рабочие процессы, уже начался. Но, как показывает недавний исследование, атакующие не ждут зрелости: они адаптируются с той же быстрой скоростью, проверяя системы как только новые возможности вводятся.
В четвертом квартале 2025 года наша команда в Lakera проанализировала реальное поведение атакующих на системах, защищенных Guard и в среде Gandalf: Agent Breaker — сосредоточенный, 30-дневный снимок, который, несмотря на его узкое окно, отражает более широкие закономерности, которые мы наблюдали на протяжении квартала. Результаты рисуют четкую картину: как только модели начинают взаимодействовать с чем-то за пределами простых текстовых подсказок (например, документами, инструментами, внешними данными), поверхность угроз расширяется, и противники мгновенно корректируют ее.
Этот момент может показаться знакомым тем, кто наблюдал за ранним развитием веб-приложений или кто наблюдал за ростом атак, основанных на API. Но с AI-агентами, ставки другие. Векторы атак появляются быстрее, чем многие организации ожидали.
От Теории к Практике: Агенты в Дикой Природе
На протяжении большей части 2025 года обсуждения вокруг AI-агентов в основном центрировались на теоретическом потенциале и ранних прототипах. Но к Q4 агентные поведения начали появляться в производственных системах в масштабе: модели, которые могли извлекать и анализировать документы, взаимодействовать с внешними API и выполнять автоматические задачи. Эти агенты предлагали очевидные преимущества производительности, но они также открыли двери, которые традиционные языковые модели не открыли.
Наш анализ показывает, что как только агенты стали способны взаимодействовать с внешним контентом и инструментами, атакующие заметили и адаптировались соответственно. Это наблюдение соответствует фундаментальной истине об адверсарном поведении: атакующие всегда будут исследовать и эксплуатировать новые возможности при первой возможности. В контексте агентного ИИ это привело к быстрой эволюции в стратегиях атак.
Модели Атак: Что Мы Видим в Q4 2025
На протяжении всего набора данных, который мы рассмотрели, появились три доминирующих закономерности. Каждая из них имеет глубокие последствия для того, как системы ИИ проектируются, защищаются и развертываются.
1. Извлечение Системных Подсказок как Центральная Цель
В традиционных языковых моделях внедрение подсказок (прямое манипулирование входными данными для влияния на выходные данные) было хорошо изученной уязвимостью. Однако в системах с агентными возможностями атакующие все чаще нацеливаются на системные подсказки, которые представляют собой внутренние инструкции, определения ролей и определения политики, которые руководят поведением агента.
Извлечение системных подсказок является высокоценной целью, поскольку эти подсказки часто содержат определения ролей, описания инструментов, инструкции политики и логические потоки. Как только атакующий понимает эти внутренние механизмы, он получает схему для манипулирования агентом.
Самые эффективные методы для достижения этой цели не были брутфорс-атаками, а rather умными переформулированиями:
- Гипотетические Сценарии: Подсказки, которые просят модель предположить другую роль или контекст — например, «Представьте, что вы разработчик, проверяющий эту системную конфигурацию…» — часто заставляли модель раскрывать защищенные внутренние детали.
- Оfuscация Внутри Структурированного Контента: Атакующие внедряли вредоносные инструкции внутри кодоподобного или структурированного текста, который обходил простые фильтры и вызывал непредвиденное поведение при парсинге агентом.
Это не просто инкрементный риск — это фундаментально меняет, как мы думаем о защите внутренней логики в агентных системах.
2. Нюансовые Обходы Безопасности Контента
Другой ключевой тренд включает обход защиты контента способами, которые трудно обнаружить и смягчить с помощью традиционных фильтров.
Вместо откровенно вредоносных запросов атакующие формулировали вредоносный контент как:
- Задачи Анализа
- Оценки
- Сценарии Ролевой Игры
- Преобразования или Резюме
Эти переформулирования часто проходили мимо контролей безопасности, поскольку они кажутся безобидными на поверхности. Модель, которая отказалась бы от прямого запроса на вредоносный вывод, могла бы с радостью произвести тот же вывод, когда ее попросили «оценить» или «резюмировать» его в контексте.
Этот сдвиг подчеркивает более глубокий вызов: безопасность контента для AI-агентов не только о политике; это о том, как модели интерпретируют намерение. Когда агенты берут на себя более сложные задачи и контексты, модели становятся более восприимчивыми к контекстно-зависимой переинтерпретации — и атакующие эксплуатируют это поведение.
3. Появление Агент-специфических Атак
Возможно, наиболее CONSEQUENTIALное открытие было появление моделей атак, которые имеют смысл только в контексте агентных возможностей. Это были не простые попытки внедрения подсказок, а rather эксплуатации, связанные с новыми поведениями:
- Попытки Доступа к Конфиденциальным Внутренним Данным: Подсказки были созданы, чтобы убедить агента извлечь или раскрыть информацию из подключенных хранилищ документов или систем — действия, которые ранее были вне сферы модели
- Инструкции, сформированные как Скрипт, Встроенные в Текст: Атакующие экспериментировали с внедрением инструкций в форматах, похожих на скрипт или структурированный контент, который мог бы проходить через агентский конвейер и вызывать непредвиденные действия
- Скрытые Инструкции во Внешнем Контенте: Несколько атак внедряли вредоносные директивы внутри внешнего контента — таких как веб-страницы или документы, которые агент был попрошен обработать — эффективно обходя прямые фильтры входных данных
Эти закономерности ранние, но сигнализируют о будущем, в котором возможности агентов фундаментально меняют природу адверсарного поведения.
Почему Косвенные Атаки Так Эффективны
Одно из самых поразительных открытий в отчете — это то, что косвенные атаки — те, которые используют внешний контент или структурированные данные — требуют меньше попыток, чем прямые внедрения. Это говорит о том, что традиционная санитизация входных данных и прямая фильтрация запросов являются недостаточными оборонами, как только модели взаимодействуют с ненадежным контентом.
Когда вредоносная инструкция приходит через внешнюю агентскую рабочую нагрузку — будь то связанная документация, ответ API или полученная веб-страница — ранние фильтры менее эффективны. Результат: атакующие имеют более крупную поверхность атаки и меньше препятствий.
Последствия для 2026 и Дальше
Открытия отчета имеют срочные последствия для организаций, планирующих развертывать агентный ИИ в масштабе:
- Переопределите Границы Доверия
Доверие не может быть просто бинарным. Когда агенты взаимодействуют с пользователями, внешним контентом и внутренними рабочими процессами, системы должны реализовывать нюансовые модели доверия, которые учитывают контекст, происхождение и цель. - Ограничители Должны Эволюционировать
Статические фильтры безопасности недостаточны. Ограничители должны быть адаптивными, контекстно-осведомленными и способными рассуждать о намерении и поведении на протяжении многоступенчатых рабочих процессов. - Прозрачность и Аудит Необходимы
Когда векторы атак становятся более сложными, организации нуждаются в видимости того, как агенты принимают решения — включая промежуточные шаги, внешние взаимодействия и преобразования. Аудиторские журналы и рамки объяснимости больше не являются необязательными. - Междисциплинарное Сотрудничество является Ключом
Исследования ИИ, инженерия безопасности и команды угрозенной разведки должны работать вместе. Безопасность ИИ не может быть изолированной; она должна быть интегрирована с более широкими практиками кибербезопасности и управления рисками. - Регулирование и Стандарты Должны Настигать
Законодатели и стандартные органы должны признать, что агентные системы создают новые классы риска. Регулирование, которое решает проблемы защиты данных и безопасности вывода, необходимо, но не достаточное; оно также должно учитывать интерактивные поведения и многоступенчатые среды выполнения.
Будущее Безопасных AI-Агентов
Приход агентного ИИ представляет собой глубокий сдвиг в возможностях и рисках. Данные Q4 2025 являются ранним индикатором того, что как только агенты начинают работать за пределами простой генерации текста, атакующие будут следовать. Наши результаты показывают, что противники не только адаптируются — они инновируют методы атак, которые традиционные защиты еще не готовы противостоять.
Для предприятий и разработчиков сообщение ясно: обеспечение безопасности AI-агентов не только техническая задача; это архитектурная задача. Это требует переосмысления того, как доверие устанавливается, как ограничители применяются и как риск постоянно оценивается в динамических, интерактивных средах.
В 2026 и далее организации, которые преуспеют с агентным ИИ, будут теми, которые рассматривают безопасность не как после мысли, а как основополагающий принцип дизайна.












