Свяжитесь с нами:

Что говорят нам первые атаки на агентов ИИ о 2026 году?

Лидеры мысли

Что говорят нам первые атаки на агентов ИИ о 2026 году?

mm

По мере того, как ИИ переходит от контролируемых экспериментов к реальным приложениям, мы вступаем в переломный момент в сфере безопасности. Переход от статических языковых моделей к интерактивным, агентным системам, способным просматривать документы, вызывать инструменты и организовывать многоэтапные рабочие процессы, уже начался. Но, как показывают недавние исследования, злоумышленники не ждут зрелости: они адаптируются с той же быстрой скоростью, исследуя системы, как только появляются новые возможности.

В четвертом квартале 2025 года наша команда в Lakera проанализировала реальное поведение злоумышленников в системах, защищенных Guard, и в среде Gandalf: Agent Breaker — целенаправленный 30-дневный анализ, который, несмотря на свой узкий временной промежуток, отражает более широкие закономерности, которые мы наблюдали в течение квартала. результаты Чтобы наглядно показать ситуацию, следует помнить: как только модели начинают взаимодействовать с чем-либо, выходящим за рамки простых текстовых подсказок (например, с документами, инструментами, внешними данными), поверхность угрозы расширяется, и противники мгновенно адаптируются, чтобы использовать это в своих целях.

Этот момент может показаться знакомым тем, кто наблюдал за развитием первых веб-приложений или за ростом атак, основанных на API. Но с учётом этого... AI-агентыОднако ставки другие. Векторы атак появляются быстрее, чем многие организации ожидали.

От теории к практике: агенты в реальных условиях

На протяжении большей части 2025 года дискуссии об агентах искусственного интеллекта в основном были сосредоточены на теоретическом потенциале и ранних прототипах. Но к четвертому кварталу агентные модели начали появляться в производственных системах в больших масштабах: модели, которые могли получать и анализировать документы, взаимодействовать с внешними API и выполнять автоматизированные задачи. Эти агенты предлагали очевидные преимущества в производительности, но они также открывали возможности, недоступные традиционным языковым моделям.

Наш анализ показывает, что как только агенты получили возможность взаимодействовать с внешним контентом и инструментами, злоумышленники это заметили и соответствующим образом адаптировались. Это наблюдение согласуется с фундаментальной истиной о поведении противников: злоумышленники всегда будут исследовать и использовать новые возможности при первой же возможности. В контексте агентного ИИ это привело к быстрой эволюции стратегий атак.

Шаблоны атак: что мы увидим в 4 квартале 2025 года

В проанализированном нами наборе данных выявились три доминирующие закономерности. Каждая из них имеет серьезные последствия для проектирования, защиты и развертывания систем искусственного интеллекта.

1. Извлечение системных подсказок как центральная задача.

В традиционных языковых моделях, быстрая инъекция (Прямое манипулирование входными данными для влияния на выходные) — это хорошо изученная уязвимость. Однако в системах с агентными возможностями злоумышленники все чаще нацеливаются на нее. системная подсказка, то есть внутренние инструкции, роли и определения политики, которые регулируют поведение агента.

Извлечение системных подсказок является крайне важной задачей, поскольку эти подсказки часто содержат определения ролей, описания инструментов, инструкции по политике и логику рабочих процессов. Как только злоумышленник поймет эти внутренние механизмы, он получит план действий по манипулированию агентом.

Наиболее эффективными методами достижения этой цели оказались не атаки методом перебора, а умелое переформулирование:

  • Гипотетические сценарииЗапросы, предлагающие модели принять другую роль или контекст — например, «Представьте, что вы разработчик, проверяющий конфигурацию системы…» — часто побуждали модель раскрывать защищённые внутренние детали.
  • Обфускация внутри структурированного контентаЗлоумышленники внедряли вредоносные инструкции в кодоподобный или структурированный текст, который обходил простые фильтры и запускал непредвиденные действия после анализа агентом.

Это не просто незначительный риск — он коренным образом меняет наше представление о защите внутренней логики в агентных системах.

2. Незаметные обходы системы защиты содержимого.

Еще одна ключевая тенденция связана с обходом средств защиты контента способами, которые трудно обнаружить и нейтрализовать с помощью традиционных фильтров.

Вместо откровенно вредоносных запросов злоумышленники представляли вредоносный контент в следующем виде:

  • Задачи анализа
  • Оценки
  • Сценарии ролевых игр
  • Преобразования или сводки

Эти переформулировки часто ускользали от контроля безопасности, потому что они появиться На первый взгляд, это безобидно. Модель, которая откажется от прямого запроса на получение вредных результатов, с удовольствием выдаст те же самые результаты, если ее попросят «оценить» или «обобщить» их в контексте.

Этот сдвиг подчеркивает более глубокую проблему: безопасность контента для агентов ИИ — это не только обеспечение соблюдения правил; это также вопрос того, как модели... интерпретировать намерениеПо мере того, как агенты берутся за более сложные задачи и оказываются в более сложных контекстах, модели становятся более восприимчивыми к переинтерпретации на основе контекста, и злоумышленники используют это в своих целях.

3. Появление атак, направленных против конкретных агентов.

Пожалуй, наиболее важным открытием стало обнаружение моделей атак, которые имеют смысл только в контексте возможностей агентных систем. Это были не просто попытки внедрения кода, а эксплойты, связанные с новыми моделями поведения:

  • Попытки доступа к конфиденциальным внутренним даннымПодсказки были разработаны таким образом, чтобы убедить агента получить или раскрыть информацию из подключенных хранилищ документов или систем — действия, которые ранее выходили бы за рамки возможностей модели.
  • Инструкции в виде текста, встроенные в него.Злоумышленники экспериментировали со встраиванием инструкций в форматы, напоминающие скрипты или структурированный контент, которые могли проходить через конвейер агента и вызывать непредвиденные действия.
  • Скрытые инструкции во внешнем контенте: Встроено несколько атак вредоносные директивы внутри внешнего контента, на который агенту было поручено работать, — например, веб-страниц или документов, которые агент должен был обработать, — эффективно обходя фильтры прямого ввода.

Эти закономерности пока находятся на ранней стадии развития, но указывают на будущее, в котором расширение возможностей агентов коренным образом изменит природу враждебного поведения.

Почему косвенные атаки так эффективны

Один из самых поразительных выводов доклада заключается в том, что косвенные атаки — Те, которые используют внешний контент или структурированные данные, — требовали меньше попыток, чем прямые инъекции. Это говорит о том, что традиционная очистка входных данных и прямая фильтрация запросов являются недостаточными средствами защиты, когда модели взаимодействуют с ненадежным контентом.

Когда вредоносная инструкция поступает через внешний агентский процесс — будь то связанный документ, ответ API или загруженная веб-страница — эффективность ранних фильтров снижается. В результате у злоумышленников появляется большая поверхность атаки и меньше препятствий.

Последствия на 2026 год и последующие годы

Результаты исследования имеют первостепенное значение для организаций, планирующих масштабное внедрение агентного ИИ:

  1. Переосмысление границ доверия
    Доверие Не может быть просто бинарным. Поскольку агенты взаимодействуют с пользователями, внешним контентом и внутренними рабочими процессами, системы должны внедрять тонкие модели доверия, учитывающие контекст, происхождение и цель.
  2. Ограждения должны эволюционировать
    Статических фильтров безопасности недостаточно. Защитные механизмы должны быть адаптивными, учитывать контекст и быть способными анализировать намерения и поведение пользователей в многоэтапных рабочих процессах.
  3. Прозрачность и аудит имеют важное значение.
    По мере усложнения векторов атак организациям необходима прозрачность в отношении того, как агенты принимают решения, включая промежуточные этапы, внешние взаимодействия и преобразования. Ведение журналов с возможностью аудита и использование объяснимых механизмов больше не являются необязательными.
  4. Междисциплинарное сотрудничество имеет ключевое значение.
    исследования в области искусственного интеллекта, разработка систем безопасности и группы анализа угроз Необходимо работать сообща. Безопасность ИИ не может быть изолированной; она должна быть интегрирована с более широкими практиками кибербезопасности и системами управления рисками.
  5. Нормативно-правовые нормы и стандарты должны будут соответствовать современным требованиям.
    Разработчики политики и организации, занимающиеся стандартизацией, должны признать, что агентные системы создают новые классы рисков. Нормативно-правовые акты Необходимо, но недостаточно, чтобы они учитывали также следующие аспекты: интерактивное поведение и многоэтапные среды выполнения.

Будущее безопасных агентов искусственного интеллекта

Появление агентного ИИ представляет собой глубокий сдвиг в возможностях и рисках. Данные за четвертый квартал 2025 года являются ранним показателем того, что как только агенты начнут работать за пределами простой генерации текста, за ними последуют и злоумышленники. Наши выводы показывают, что противники не только адаптируются — они внедряют новые методы атак, против которых традиционные средства защиты пока не готовы.

Для предприятий и разработчиков вывод очевиден: обеспечение безопасности агентов ИИ — это не просто техническая, а архитектурная задача. Она требует переосмысления способов установления доверия, обеспечения соблюдения защитных механизмов и непрерывной оценки рисков в динамичных интерактивных средах.

В 2026 году и в последующие годы успех в использовании агентного ИИ будут иметь те организации, которые будут рассматривать безопасность не как второстепенный вопрос, а как основополагающий принцип проектирования.

Матео Рохас-Карулла — руководитель отдела исследований в области безопасности ИИ-агентов в компании... Проверьте Point Software Technologies,Ранее он был соучредителем и главным научным сотрудником компании Lakera, которую в 2025 году приобрела компания Check Point. До основания Lakera Матео работал в Google, Credit Suisse, Facebook и Speechmatics. Он получил докторскую степень по машинному обучению в Кембриджском университете и Институте Макса Планка в Тюбингене.