Лидеры мысли
Что говорят нам первые атаки на агентов ИИ о 2026 году?

По мере того, как ИИ переходит от контролируемых экспериментов к реальным приложениям, мы вступаем в переломный момент в сфере безопасности. Переход от статических языковых моделей к интерактивным, агентным системам, способным просматривать документы, вызывать инструменты и организовывать многоэтапные рабочие процессы, уже начался. Но, как показывают недавние исследования, злоумышленники не ждут зрелости: они адаптируются с той же быстрой скоростью, исследуя системы, как только появляются новые возможности.
В четвертом квартале 2025 года наша команда в Lakera проанализировала реальное поведение злоумышленников в системах, защищенных Guard, и в среде Gandalf: Agent Breaker — целенаправленный 30-дневный анализ, который, несмотря на свой узкий временной промежуток, отражает более широкие закономерности, которые мы наблюдали в течение квартала. результаты Чтобы наглядно показать ситуацию, следует помнить: как только модели начинают взаимодействовать с чем-либо, выходящим за рамки простых текстовых подсказок (например, с документами, инструментами, внешними данными), поверхность угрозы расширяется, и противники мгновенно адаптируются, чтобы использовать это в своих целях.
Этот момент может показаться знакомым тем, кто наблюдал за развитием первых веб-приложений или за ростом атак, основанных на API. Но с учётом этого... AI-агентыОднако ставки другие. Векторы атак появляются быстрее, чем многие организации ожидали.
От теории к практике: агенты в реальных условиях
На протяжении большей части 2025 года дискуссии об агентах искусственного интеллекта в основном были сосредоточены на теоретическом потенциале и ранних прототипах. Но к четвертому кварталу агентные модели начали появляться в производственных системах в больших масштабах: модели, которые могли получать и анализировать документы, взаимодействовать с внешними API и выполнять автоматизированные задачи. Эти агенты предлагали очевидные преимущества в производительности, но они также открывали возможности, недоступные традиционным языковым моделям.
Наш анализ показывает, что как только агенты получили возможность взаимодействовать с внешним контентом и инструментами, злоумышленники это заметили и соответствующим образом адаптировались. Это наблюдение согласуется с фундаментальной истиной о поведении противников: злоумышленники всегда будут исследовать и использовать новые возможности при первой же возможности. В контексте агентного ИИ это привело к быстрой эволюции стратегий атак.
Шаблоны атак: что мы увидим в 4 квартале 2025 года
В проанализированном нами наборе данных выявились три доминирующие закономерности. Каждая из них имеет серьезные последствия для проектирования, защиты и развертывания систем искусственного интеллекта.
1. Извлечение системных подсказок как центральная задача.
В традиционных языковых моделях, быстрая инъекция (Прямое манипулирование входными данными для влияния на выходные) — это хорошо изученная уязвимость. Однако в системах с агентными возможностями злоумышленники все чаще нацеливаются на нее. системная подсказка, то есть внутренние инструкции, роли и определения политики, которые регулируют поведение агента.
Извлечение системных подсказок является крайне важной задачей, поскольку эти подсказки часто содержат определения ролей, описания инструментов, инструкции по политике и логику рабочих процессов. Как только злоумышленник поймет эти внутренние механизмы, он получит план действий по манипулированию агентом.
Наиболее эффективными методами достижения этой цели оказались не атаки методом перебора, а умелое переформулирование:
- Гипотетические сценарииЗапросы, предлагающие модели принять другую роль или контекст — например, «Представьте, что вы разработчик, проверяющий конфигурацию системы…» — часто побуждали модель раскрывать защищённые внутренние детали.
- Обфускация внутри структурированного контентаЗлоумышленники внедряли вредоносные инструкции в кодоподобный или структурированный текст, который обходил простые фильтры и запускал непредвиденные действия после анализа агентом.
Это не просто незначительный риск — он коренным образом меняет наше представление о защите внутренней логики в агентных системах.
2. Незаметные обходы системы защиты содержимого.
Еще одна ключевая тенденция связана с обходом средств защиты контента способами, которые трудно обнаружить и нейтрализовать с помощью традиционных фильтров.
Вместо откровенно вредоносных запросов злоумышленники представляли вредоносный контент в следующем виде:
- Задачи анализа
- Оценки
- Сценарии ролевых игр
- Преобразования или сводки
Эти переформулировки часто ускользали от контроля безопасности, потому что они появиться На первый взгляд, это безобидно. Модель, которая откажется от прямого запроса на получение вредных результатов, с удовольствием выдаст те же самые результаты, если ее попросят «оценить» или «обобщить» их в контексте.
Этот сдвиг подчеркивает более глубокую проблему: безопасность контента для агентов ИИ — это не только обеспечение соблюдения правил; это также вопрос того, как модели... интерпретировать намерениеПо мере того, как агенты берутся за более сложные задачи и оказываются в более сложных контекстах, модели становятся более восприимчивыми к переинтерпретации на основе контекста, и злоумышленники используют это в своих целях.
3. Появление атак, направленных против конкретных агентов.
Пожалуй, наиболее важным открытием стало обнаружение моделей атак, которые имеют смысл только в контексте возможностей агентных систем. Это были не просто попытки внедрения кода, а эксплойты, связанные с новыми моделями поведения:
- Попытки доступа к конфиденциальным внутренним даннымПодсказки были разработаны таким образом, чтобы убедить агента получить или раскрыть информацию из подключенных хранилищ документов или систем — действия, которые ранее выходили бы за рамки возможностей модели.
- Инструкции в виде текста, встроенные в него.Злоумышленники экспериментировали со встраиванием инструкций в форматы, напоминающие скрипты или структурированный контент, которые могли проходить через конвейер агента и вызывать непредвиденные действия.
- Скрытые инструкции во внешнем контенте: Встроено несколько атак вредоносные директивы внутри внешнего контента, на который агенту было поручено работать, — например, веб-страниц или документов, которые агент должен был обработать, — эффективно обходя фильтры прямого ввода.
Эти закономерности пока находятся на ранней стадии развития, но указывают на будущее, в котором расширение возможностей агентов коренным образом изменит природу враждебного поведения.
Почему косвенные атаки так эффективны
Один из самых поразительных выводов доклада заключается в том, что косвенные атаки — Те, которые используют внешний контент или структурированные данные, — требовали меньше попыток, чем прямые инъекции. Это говорит о том, что традиционная очистка входных данных и прямая фильтрация запросов являются недостаточными средствами защиты, когда модели взаимодействуют с ненадежным контентом.
Когда вредоносная инструкция поступает через внешний агентский процесс — будь то связанный документ, ответ API или загруженная веб-страница — эффективность ранних фильтров снижается. В результате у злоумышленников появляется большая поверхность атаки и меньше препятствий.
Последствия на 2026 год и последующие годы
Результаты исследования имеют первостепенное значение для организаций, планирующих масштабное внедрение агентного ИИ:
- Переосмысление границ доверия
Доверие Не может быть просто бинарным. Поскольку агенты взаимодействуют с пользователями, внешним контентом и внутренними рабочими процессами, системы должны внедрять тонкие модели доверия, учитывающие контекст, происхождение и цель. - Ограждения должны эволюционировать
Статических фильтров безопасности недостаточно. Защитные механизмы должны быть адаптивными, учитывать контекст и быть способными анализировать намерения и поведение пользователей в многоэтапных рабочих процессах. - Прозрачность и аудит имеют важное значение.
По мере усложнения векторов атак организациям необходима прозрачность в отношении того, как агенты принимают решения, включая промежуточные этапы, внешние взаимодействия и преобразования. Ведение журналов с возможностью аудита и использование объяснимых механизмов больше не являются необязательными. - Междисциплинарное сотрудничество имеет ключевое значение.
исследования в области искусственного интеллекта, разработка систем безопасности и группы анализа угроз Необходимо работать сообща. Безопасность ИИ не может быть изолированной; она должна быть интегрирована с более широкими практиками кибербезопасности и системами управления рисками. - Нормативно-правовые нормы и стандарты должны будут соответствовать современным требованиям.
Разработчики политики и организации, занимающиеся стандартизацией, должны признать, что агентные системы создают новые классы рисков. Нормативно-правовые акты Необходимо, но недостаточно, чтобы они учитывали также следующие аспекты: интерактивное поведение и многоэтапные среды выполнения.
Будущее безопасных агентов искусственного интеллекта
Появление агентного ИИ представляет собой глубокий сдвиг в возможностях и рисках. Данные за четвертый квартал 2025 года являются ранним показателем того, что как только агенты начнут работать за пределами простой генерации текста, за ними последуют и злоумышленники. Наши выводы показывают, что противники не только адаптируются — они внедряют новые методы атак, против которых традиционные средства защиты пока не готовы.
Для предприятий и разработчиков вывод очевиден: обеспечение безопасности агентов ИИ — это не просто техническая, а архитектурная задача. Она требует переосмысления способов установления доверия, обеспечения соблюдения защитных механизмов и непрерывной оценки рисков в динамичных интерактивных средах.
В 2026 году и в последующие годы успех в использовании агентного ИИ будут иметь те организации, которые будут рассматривать безопасность не как второстепенный вопрос, а как основополагающий принцип проектирования.












