Лидеры мысли

Что говорят нам первые атаки на агентов ИИ о 2026 году?

опубликованный 1 января 2026

Матео Рохас-Карулла, Руководитель отдела исследований в области безопасности агентов искусственного интеллекта, Check Point Software

По мере того, как ИИ переходит от контролируемых экспериментов к реальным приложениям, мы вступаем в переломный момент в сфере безопасности. Переход от статических языковых моделей к интерактивным, агентным системам, способным просматривать документы, вызывать инструменты и организовывать многоэтапные рабочие процессы, уже начался. Но, как показывают недавние исследования, злоумышленники не ждут зрелости: они адаптируются с той же быстрой скоростью, исследуя системы, как только появляются новые возможности.

В четвертом квартале 2025 года наша команда в Lakera проанализировала реальное поведение злоумышленников в системах, защищенных Guard, и в среде Gandalf: Agent Breaker — целенаправленный 30-дневный анализ, который, несмотря на свой узкий временной промежуток, отражает более широкие закономерности, которые мы наблюдали в течение квартала. результаты Чтобы наглядно показать ситуацию, следует помнить: как только модели начинают взаимодействовать с чем-либо, выходящим за рамки простых текстовых подсказок (например, с документами, инструментами, внешними данными), поверхность угрозы расширяется, и противники мгновенно адаптируются, чтобы использовать это в своих целях.

Этот момент может показаться знакомым тем, кто наблюдал за развитием первых веб-приложений или за ростом атак, основанных на API. Но с учётом этого... AI-агентыОднако ставки другие. Векторы атак появляются быстрее, чем многие организации ожидали.

От теории к практике: агенты в реальных условиях

На протяжении большей части 2025 года дискуссии об агентах искусственного интеллекта в основном были сосредоточены на теоретическом потенциале и ранних прототипах. Но к четвертому кварталу агентные модели начали появляться в производственных системах в больших масштабах: модели, которые могли получать и анализировать документы, взаимодействовать с внешними API и выполнять автоматизированные задачи. Эти агенты предлагали очевидные преимущества в производительности, но они также открывали возможности, недоступные традиционным языковым моделям.

Наш анализ показывает, что как только агенты получили возможность взаимодействовать с внешним контентом и инструментами, злоумышленники это заметили и соответствующим образом адаптировались. Это наблюдение согласуется с фундаментальной истиной о поведении противников: злоумышленники всегда будут исследовать и использовать новые возможности при первой же возможности. В контексте агентного ИИ это привело к быстрой эволюции стратегий атак.

Шаблоны атак: что мы увидим в 4 квартале 2025 года

В проанализированном нами наборе данных выявились три доминирующие закономерности. Каждая из них имеет серьезные последствия для проектирования, защиты и развертывания систем искусственного интеллекта.

1. Извлечение системных подсказок как центральная задача.

В традиционных языковых моделях, быстрая инъекция (Прямое манипулирование входными данными для влияния на выходные) — это хорошо изученная уязвимость. Однако в системах с агентными возможностями злоумышленники все чаще нацеливаются на нее. системная подсказка, то есть внутренние инструкции, роли и определения политики, которые регулируют поведение агента.

Извлечение системных подсказок является крайне важной задачей, поскольку эти подсказки часто содержат определения ролей, описания инструментов, инструкции по политике и логику рабочих процессов. Как только злоумышленник поймет эти внутренние механизмы, он получит план действий по манипулированию агентом.

Наиболее эффективными методами достижения этой цели оказались не атаки методом перебора, а умелое переформулирование:

Гипотетические сценарииЗапросы, предлагающие модели принять другую роль или контекст — например, «Представьте, что вы разработчик, проверяющий конфигурацию системы…» — часто побуждали модель раскрывать защищённые внутренние детали.
Обфускация внутри структурированного контентаЗлоумышленники внедряли вредоносные инструкции в кодоподобный или структурированный текст, который обходил простые фильтры и запускал непредвиденные действия после анализа агентом.

Это не просто незначительный риск — он коренным образом меняет наше представление о защите внутренней логики в агентных системах.

2. Незаметные обходы системы защиты содержимого.

Еще одна ключевая тенденция связана с обходом средств защиты контента способами, которые трудно обнаружить и нейтрализовать с помощью традиционных фильтров.

Вместо откровенно вредоносных запросов злоумышленники представляли вредоносный контент в следующем виде:

Задачи анализа
Оценки
Сценарии ролевых игр
Преобразования или сводки

Эти переформулировки часто ускользали от контроля безопасности, потому что они появиться На первый взгляд, это безобидно. Модель, которая откажется от прямого запроса на получение вредных результатов, с удовольствием выдаст те же самые результаты, если ее попросят «оценить» или «обобщить» их в контексте.

Этот сдвиг подчеркивает более глубокую проблему: безопасность контента для агентов ИИ — это не только обеспечение соблюдения правил; это также вопрос того, как модели... интерпретировать намерениеПо мере того, как агенты берутся за более сложные задачи и оказываются в более сложных контекстах, модели становятся более восприимчивыми к переинтерпретации на основе контекста, и злоумышленники используют это в своих целях.

3. Появление атак, направленных против конкретных агентов.

Пожалуй, наиболее важным открытием стало обнаружение моделей атак, которые имеют смысл только в контексте возможностей агентных систем. Это были не просто попытки внедрения кода, а эксплойты, связанные с новыми моделями поведения:

Попытки доступа к конфиденциальным внутренним даннымПодсказки были разработаны таким образом, чтобы убедить агента получить или раскрыть информацию из подключенных хранилищ документов или систем — действия, которые ранее выходили бы за рамки возможностей модели.
Инструкции в виде текста, встроенные в него.Злоумышленники экспериментировали со встраиванием инструкций в форматы, напоминающие скрипты или структурированный контент, которые могли проходить через конвейер агента и вызывать непредвиденные действия.
Скрытые инструкции во внешнем контенте: Встроено несколько атак вредоносные директивы внутри внешнего контента, на который агенту было поручено работать, — например, веб-страниц или документов, которые агент должен был обработать, — эффективно обходя фильтры прямого ввода.

Эти закономерности пока находятся на ранней стадии развития, но указывают на будущее, в котором расширение возможностей агентов коренным образом изменит природу враждебного поведения.

Почему косвенные атаки так эффективны

Один из самых поразительных выводов доклада заключается в том, что косвенные атаки — Те, которые используют внешний контент или структурированные данные, — требовали меньше попыток, чем прямые инъекции. Это говорит о том, что традиционная очистка входных данных и прямая фильтрация запросов являются недостаточными средствами защиты, когда модели взаимодействуют с ненадежным контентом.

Когда вредоносная инструкция поступает через внешний агентский процесс — будь то связанный документ, ответ API или загруженная веб-страница — эффективность ранних фильтров снижается. В результате у злоумышленников появляется большая поверхность атаки и меньше препятствий.

Последствия на 2026 год и последующие годы

Результаты исследования имеют первостепенное значение для организаций, планирующих масштабное внедрение агентного ИИ:

Переосмысление границ доверия
Доверие Не может быть просто бинарным. Поскольку агенты взаимодействуют с пользователями, внешним контентом и внутренними рабочими процессами, системы должны внедрять тонкие модели доверия, учитывающие контекст, происхождение и цель.
Ограждения должны эволюционировать
Статических фильтров безопасности недостаточно. Защитные механизмы должны быть адаптивными, учитывать контекст и быть способными анализировать намерения и поведение пользователей в многоэтапных рабочих процессах.
Прозрачность и аудит имеют важное значение.
По мере усложнения векторов атак организациям необходима прозрачность в отношении того, как агенты принимают решения, включая промежуточные этапы, внешние взаимодействия и преобразования. Ведение журналов с возможностью аудита и использование объяснимых механизмов больше не являются необязательными.
Междисциплинарное сотрудничество имеет ключевое значение.
исследования в области искусственного интеллекта, разработка систем безопасности и группы анализа угроз Необходимо работать сообща. Безопасность ИИ не может быть изолированной; она должна быть интегрирована с более широкими практиками кибербезопасности и системами управления рисками.
Нормативно-правовые нормы и стандарты должны будут соответствовать современным требованиям.
Разработчики политики и организации, занимающиеся стандартизацией, должны признать, что агентные системы создают новые классы рисков. Нормативно-правовые акты Необходимо, но недостаточно, чтобы они учитывали также следующие аспекты: интерактивное поведение и многоэтапные среды выполнения.

Будущее безопасных агентов искусственного интеллекта

Появление агентного ИИ представляет собой глубокий сдвиг в возможностях и рисках. Данные за четвертый квартал 2025 года являются ранним показателем того, что как только агенты начнут работать за пределами простой генерации текста, за ними последуют и злоумышленники. Наши выводы показывают, что противники не только адаптируются — они внедряют новые методы атак, против которых традиционные средства защиты пока не готовы.

Для предприятий и разработчиков вывод очевиден: обеспечение безопасности агентов ИИ — это не просто техническая, а архитектурная задача. Она требует переосмысления способов установления доверия, обеспечения соблюдения защитных механизмов и непрерывной оценки рисков в динамичных интерактивных средах.

В 2026 году и в последующие годы успех в использовании агентного ИИ будут иметь те организации, которые будут рассматривать безопасность не как второстепенный вопрос, а как основополагающий принцип проектирования.

Похожие темы:2026 программное обеспечение контрольной точки

Матео Рохас-Карулла, руководитель отдела исследований в области безопасности агентов искусственного интеллекта, Check Point Software.

Матео Рохас-Карулла — руководитель отдела исследований в области безопасности ИИ-агентов в компании... Проверьте Point Software Technologies,Ранее он был соучредителем и главным научным сотрудником компании Lakera, которую в 2025 году приобрела компания Check Point. До основания Lakera Матео работал в Google, Credit Suisse, Facebook и Speechmatics. Он получил докторскую степень по машинному обучению в Кембриджском университете и Институте Макса Планка в Тюбингене.

Unite.ИИ