Connect with us

Что Ранние Атаки на AI-Агентов Рассказывают Нам о 2026

Лидеры мнений

Что Ранние Атаки на AI-Агентов Рассказывают Нам о 2026

mm

Когда ИИ переходит от контролируемых экспериментов к реальным приложениям, мы вступаем в точку перегиба в ландшафте безопасности. Переход от статических языковых моделей к интерактивным, агентным системам, которые способны просматривать документы, вызывать инструменты и оркестрировать многоступенчатые рабочие процессы, уже начался. Но, как показывает недавний исследование, атакующие не ждут зрелости: они адаптируются с той же быстрой скоростью, проверяя системы как только новые возможности вводятся.

В четвертом квартале 2025 года наша команда в Lakera проанализировала реальное поведение атакующих на системах, защищенных Guard и в среде Gandalf: Agent Breaker — сосредоточенный, 30-дневный снимок, который, несмотря на его узкое окно, отражает более широкие закономерности, которые мы наблюдали на протяжении квартала. Результаты рисуют четкую картину: как только модели начинают взаимодействовать с чем-то за пределами простых текстовых подсказок (например, документами, инструментами, внешними данными), поверхность угроз расширяется, и противники мгновенно корректируют ее.

Этот момент может показаться знакомым тем, кто наблюдал за ранним развитием веб-приложений или кто наблюдал за ростом атак, основанных на API. Но с AI-агентами, ставки другие. Векторы атак появляются быстрее, чем многие организации ожидали.

От Теории к Практике: Агенты в Дикой Природе

На протяжении большей части 2025 года обсуждения вокруг AI-агентов в основном центрировались на теоретическом потенциале и ранних прототипах. Но к Q4 агентные поведения начали появляться в производственных системах в масштабе: модели, которые могли извлекать и анализировать документы, взаимодействовать с внешними API и выполнять автоматические задачи. Эти агенты предлагали очевидные преимущества производительности, но они также открыли двери, которые традиционные языковые модели не открыли.

Наш анализ показывает, что как только агенты стали способны взаимодействовать с внешним контентом и инструментами, атакующие заметили и адаптировались соответственно. Это наблюдение соответствует фундаментальной истине об адверсарном поведении: атакующие всегда будут исследовать и эксплуатировать новые возможности при первой возможности. В контексте агентного ИИ это привело к быстрой эволюции в стратегиях атак.

Модели Атак: Что Мы Видим в Q4 2025

На протяжении всего набора данных, который мы рассмотрели, появились три доминирующих закономерности. Каждая из них имеет глубокие последствия для того, как системы ИИ проектируются, защищаются и развертываются.

1. Извлечение Системных Подсказок как Центральная Цель

В традиционных языковых моделях внедрение подсказок (прямое манипулирование входными данными для влияния на выходные данные) было хорошо изученной уязвимостью. Однако в системах с агентными возможностями атакующие все чаще нацеливаются на системные подсказки, которые представляют собой внутренние инструкции, определения ролей и определения политики, которые руководят поведением агента.

Извлечение системных подсказок является высокоценной целью, поскольку эти подсказки часто содержат определения ролей, описания инструментов, инструкции политики и логические потоки. Как только атакующий понимает эти внутренние механизмы, он получает схему для манипулирования агентом.

Самые эффективные методы для достижения этой цели не были брутфорс-атаками, а rather умными переформулированиями:

  • Гипотетические Сценарии: Подсказки, которые просят модель предположить другую роль или контекст — например, «Представьте, что вы разработчик, проверяющий эту системную конфигурацию…» — часто заставляли модель раскрывать защищенные внутренние детали.
  • Оfuscация Внутри Структурированного Контента: Атакующие внедряли вредоносные инструкции внутри кодоподобного или структурированного текста, который обходил простые фильтры и вызывал непредвиденное поведение при парсинге агентом.

Это не просто инкрементный риск — это фундаментально меняет, как мы думаем о защите внутренней логики в агентных системах.

2. Нюансовые Обходы Безопасности Контента

Другой ключевой тренд включает обход защиты контента способами, которые трудно обнаружить и смягчить с помощью традиционных фильтров.

Вместо откровенно вредоносных запросов атакующие формулировали вредоносный контент как:

  • Задачи Анализа
  • Оценки
  • Сценарии Ролевой Игры
  • Преобразования или Резюме

Эти переформулирования часто проходили мимо контролей безопасности, поскольку они кажутся безобидными на поверхности. Модель, которая отказалась бы от прямого запроса на вредоносный вывод, могла бы с радостью произвести тот же вывод, когда ее попросили «оценить» или «резюмировать» его в контексте.

Этот сдвиг подчеркивает более глубокий вызов: безопасность контента для AI-агентов не только о политике; это о том, как модели интерпретируют намерение. Когда агенты берут на себя более сложные задачи и контексты, модели становятся более восприимчивыми к контекстно-зависимой переинтерпретации — и атакующие эксплуатируют это поведение.

3. Появление Агент-специфических Атак

Возможно, наиболее CONSEQUENTIALное открытие было появление моделей атак, которые имеют смысл только в контексте агентных возможностей. Это были не простые попытки внедрения подсказок, а rather эксплуатации, связанные с новыми поведениями:

  • Попытки Доступа к Конфиденциальным Внутренним Данным: Подсказки были созданы, чтобы убедить агента извлечь или раскрыть информацию из подключенных хранилищ документов или систем — действия, которые ранее были вне сферы модели
  • Инструкции, сформированные как Скрипт, Встроенные в Текст: Атакующие экспериментировали с внедрением инструкций в форматах, похожих на скрипт или структурированный контент, который мог бы проходить через агентский конвейер и вызывать непредвиденные действия
  • Скрытые Инструкции во Внешнем Контенте: Несколько атак внедряли вредоносные директивы внутри внешнего контента — таких как веб-страницы или документы, которые агент был попрошен обработать — эффективно обходя прямые фильтры входных данных

Эти закономерности ранние, но сигнализируют о будущем, в котором возможности агентов фундаментально меняют природу адверсарного поведения.

Почему Косвенные Атаки Так Эффективны

Одно из самых поразительных открытий в отчете — это то, что косвенные атаки — те, которые используют внешний контент или структурированные данные — требуют меньше попыток, чем прямые внедрения. Это говорит о том, что традиционная санитизация входных данных и прямая фильтрация запросов являются недостаточными оборонами, как только модели взаимодействуют с ненадежным контентом.

Когда вредоносная инструкция приходит через внешнюю агентскую рабочую нагрузку — будь то связанная документация, ответ API или полученная веб-страница — ранние фильтры менее эффективны. Результат: атакующие имеют более крупную поверхность атаки и меньше препятствий.

Последствия для 2026 и Дальше

Открытия отчета имеют срочные последствия для организаций, планирующих развертывать агентный ИИ в масштабе:

  1. Переопределите Границы Доверия
    Доверие не может быть просто бинарным. Когда агенты взаимодействуют с пользователями, внешним контентом и внутренними рабочими процессами, системы должны реализовывать нюансовые модели доверия, которые учитывают контекст, происхождение и цель.
  2. Ограничители Должны Эволюционировать
    Статические фильтры безопасности недостаточны. Ограничители должны быть адаптивными, контекстно-осведомленными и способными рассуждать о намерении и поведении на протяжении многоступенчатых рабочих процессов.
  3. Прозрачность и Аудит Необходимы
    Когда векторы атак становятся более сложными, организации нуждаются в видимости того, как агенты принимают решения — включая промежуточные шаги, внешние взаимодействия и преобразования. Аудиторские журналы и рамки объяснимости больше не являются необязательными.
  4. Междисциплинарное Сотрудничество является Ключом
    Исследования ИИ, инженерия безопасности и команды угрозенной разведки должны работать вместе. Безопасность ИИ не может быть изолированной; она должна быть интегрирована с более широкими практиками кибербезопасности и управления рисками.
  5. Регулирование и Стандарты Должны Настигать
    Законодатели и стандартные органы должны признать, что агентные системы создают новые классы риска. Регулирование, которое решает проблемы защиты данных и безопасности вывода, необходимо, но не достаточное; оно также должно учитывать интерактивные поведения и многоступенчатые среды выполнения.

Будущее Безопасных AI-Агентов

Приход агентного ИИ представляет собой глубокий сдвиг в возможностях и рисках. Данные Q4 2025 являются ранним индикатором того, что как только агенты начинают работать за пределами простой генерации текста, атакующие будут следовать. Наши результаты показывают, что противники не только адаптируются — они инновируют методы атак, которые традиционные защиты еще не готовы противостоять.

Для предприятий и разработчиков сообщение ясно: обеспечение безопасности AI-агентов не только техническая задача; это архитектурная задача. Это требует переосмысления того, как доверие устанавливается, как ограничители применяются и как риск постоянно оценивается в динамических, интерактивных средах.

В 2026 и далее организации, которые преуспеют с агентным ИИ, будут теми, которые рассматривают безопасность не как после мысли, а как основополагающий принцип дизайна.

Mateo Rojas-Carulla является руководителем исследований, безопасности ИИ-агентов в Check Point Software Technologies. Ранее он был сооснователем и главным ученым в Lakera, которую приобрела Check Point в 2025 году. До основания Lakera Mateo работал в Google, Credit Suisse, Facebook и Speechmatics. Он получил степень PhD по машинному обучению в Университете Кембриджа и Институте Макса Планка в Тюбингене.