Лидеры мнений

Почему средства безопасности чат-ботов являются неправильной границей безопасности

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

Предприятие AI перешло далеко за пределы стадии проверки концепции. 23% организаций уже масштабируют агентные системы AI где-то в своей компании, и 62% хотя бы экспериментируют с агентами AI. Это не исследовательские проекты. Это производственные развертывания, встроенные в рабочие процессы, которые затрагивают репозитории кода, данные клиентов, внутренние API и операционную инфраструктуру.

Ответ индустрии на этот рост в основном был сосредоточен на том, что происходит до того, как агент станет активным. Поставщики и исследователи вложили энергию в предразвертывательные средства безопасности: публикацию политики масштабирования, укрепление базовых моделей, фильтрацию входных данных, обеспечение безопасности цепочки поставок AI и обеспечение соответствия во время обучения. Крупные поставщики AI сделали существенные инвестиции в инструменты безопасности для разработчиков, укрепляя центральное предположение: если модель и ее входные данные контролируются, то риски вниз по потоку можно сдержать.

Это разумный инстинкт, но он становится все более неполным.

Промпт не является границей безопасности

Средства безопасности, которые работают на уровне интерфейса модели, в основном приносят пользу командам, которые контролируют код приложения, конфигурацию модели и базовую инфраструктуру. Они предлагают гораздо меньшую защиту защитникам, которые отвечают за безопасность систем AI, которые они не построили и не могут изменить. Это значительная слепая зона, и противники уже нашли ее.

Последний отчет OpenAI о разведке угроз документирует именно эту динамику. Акторы угроз активно злоупотребляют ChatGPT и подобными инструментами в производственных средах, не изобретая новых методов атак, а интегрируя AI в существующие рабочие процессы, чтобы двигаться быстрее. Разведка становится более эффективной. Социальная инженерия масштабируется. Разработка вредоносного ПО ускоряется. Поверхность атаки не изменилась фундаментально; скорость и объем эксплуатации изменились.

Более показательно, как реагировали атакующие, когда эти инструменты оттолкнули их. OpenAI наблюдала, как акторы угроз быстро мутировали свои промпты, сохраняя базовую намеренность, одновременно циклируя поверхностные вариации, чтобы обойти фронтальные контроли. Это закономерность, которую практики безопасности видели раньше. Статические защиты, будь то антивирус на основе сигнатуры или фильтрация входных данных, не выдерживают против противников, которые итерируются быстрее, чем могут следовать обновления правил.

Вызов усугубляется, когда агенты получают автономию. Современные агенты AI не работают в одном обмене. Они выполняют многоступенчатые последовательности действий, вызывая легитимные инструменты и разрешения способами, которые кажутся совершенно нормальными в изоляции. Агент, использующий действительные учетные данные для перечисления внутренних API, не запускает сигнал тревоги. Агент, получающий доступ к чувствительным хранилищам данных во время того, что выглядит как обычный рабочий процесс, не генерирует никаких немедленных флагов. Каждое отдельное действие проходит проверку; опасность живет в комбинации и последовательности.

Когда угроза перемещается вниз по потоку

Команды безопасности, защищающие развертывания AI сегодня, сталкиваются с структурным несоответствием. Инструменты, доступные им, в основном построены для рассуждения о том, что модель может сказать. Фактический риск, который они должны управлять, заключается в том, что делает агент через системы, сети и идентификаторы, когда он получил разрешения и был выпущен в производственной среде.

Средства безопасности на основе промпта делят фундаментальные слабости более ранних подходов к безопасности, основанных на правилах. Они хрупкие, потому что они зависят от предсказания моделей атак заранее. Они реактивны, потому что они требуют, чтобы кто-то наблюдал и кодифицировал угрозу до того, как защита сможет работать. И они отстают от противников, которые приняли итерацию, помогаемую AI, как стандартную практику. Защитник, полагающийся на фильтрацию входных данных, чтобы поймать актора угроз, который использует языковую модель для генерации свежих вариаций промпта, находится в фундаментально проигрышном положении.

Фактическая поверхность экспозиции появляется после развертывания. Действия, инициированные агентом, распространяются через среды способами, которые нельзя полностью предвидеть до запуска. Агенты встречают граничные случаи, взаимодействуют с источниками данных, которые они не были разработаны для обработки, получают входные данные из систем, находящихся вне исходной архитектуры, и принимают решения, которые накапливаются со временем. Тестирование до развертывания – это снимок; производство – это непрерывный поток. Защита только снимка означает принятие того, что все, что происходит в потоке, фактически не контролируется.

Сдвиг границы безопасности к поведению агента

Строительство устойчивости AI требует другого подхода, и целью не должна быть защита интерфейса модели. Она должна быть обнаружением намерения атакующего через наблюдаемые последствия действий агента. Это существенное различие. Намерение не всегда появляется в том, что говорит агент или какие входные данные он получает.

Обеспечение безопасности систем AI должно распространиться за пределы проверок соответствия и оценок прочности на непрерывную оценку того, как агенты ведут себя, когда они взаимодействуют с реальными инструментами, реальными API и реальными данными. Статическая оценка на момент развертывания необходима, но недостаточна. Окружающая среда угроз, в которой работает агент, постоянно меняется. Поведение агента необходимо контролировать с той же непрерывностью.

Это проблема, которую нельзя решить с помощью укрепления промпта. Обнаружение злонамеренного намерения, когда оно возникает через последовательности действий, требует моделей, способных понимать сложное, последовательное поведение в операционных средах. Основные модели глубокого обучения, предназначенные для поведенческого анализа, могут сделать это способами, которые системы на основе правил и традиционное инструментарий SIEM не могут. Они учатся, что такое нормальное поведение во всей деятельности агента, и обнаруживают отклонения, которые указывают на то, что что-то изменилось, даже когда ни одно отдельное действие не запускает традиционный сигнал тревоги.

Логика сохраняется независимо от контекста развертывания: безопасность, закрепленная на уровне промпта, будет постоянно проигрывать атакующим, действующим на уровне действий. Защита должна переместиться туда, где фактически живет угроза.

Что должны делать команды безопасности сейчас

Для лидеров безопасности, пытающихся опередить это, несколько практических сдвигов могут закрыть разрыв между тем, где сейчас находятся защиты, и где они должны быть.

Оцените безопасность AI на всем стеке приложений. Базовая модель – это один слой. Не менее важно, как агенты ведут себя, когда они развертываются в производство, какие инструменты они вызывают, какие разрешения они используют и как эти выборы меняются со временем. Оценки безопасности, которые останавливаются на границе модели, оставляют операционную поверхность в значительной степени неисследованной.

Применяйте принцип наименьших привилегий на уровне агента. Агенты AI должны иметь доступ только к инструментам, API и данным, необходимым для их назначенной функции. Это ограничение важно, даже когда выходные данные агента кажутся безобидными. Ограничение объема снижает радиус взрыва скомпрометированного агента и создает более четкие поведенческие базовые линии, которые делают обнаружение аномалий более эффективным.

Относитесь к агентам как к идентификаторам, которые генерируют телеметрию. Каждое действие, которое выполняет агент, является данным. Команды безопасности должны строить логику обнаружения вокруг цепочек действий, инициированных агентом, а не только промптов, которые предшествуют им. Этот сдвиг меняет мониторинг с того, что кто-то попросил агента сделать, на то, что агент фактически сделал, где становится видимым намерение атакующего.

Инвестируйте в непрерывный поведенческий мониторинг с моделями обнаружения, специально предназначенными для этой задачи. Обнаружение злонамеренного намерения, когда оно возникает через последовательности действий, требует специализированной способности. Конвенциональные инструменты мониторинга были построены для шаблонов деятельности, генерируемых людьми. Поведение агента, с его скоростью, объемом и многоступенчатой структурой, требует инфраструктуры обнаружения, разработанной с нуля с учетом этого контекста.

Отдавайте приоритет коллективной защите. Техники атак, помогаемые AI, развиваются быстрее, чем может отслеживать любая отдельная организация. Совместные исследования, открытая сотрудничество и обмен информацией о угрозах являются не опциональными дополнениями к стратегии безопасности AI; они являются основными входами. Защитники, которые остаются актуальными, являются теми, кто вносит и извлекает коллективные знания.

Поведенческая безопасность действительно приносит результат

Для команд безопасности, которые делают этот сдвиг, операционная отдача является конкретной. Закрепление обнаружения в поведении агента, а не в выходных данных модели, позволяет ранее выявлять злонамеренное намерение, даже когда атаки скрытны, адаптивны или зашифрованы. Атакующие, которые успешно мутируют свои промпты мимо фильтров входных данных, все равно должны действовать. Эти действия оставляют следы. Обнаружение поведения находит эти следы до того, как ущерб распространяется.

Возможно, наиболее важно, что этот подход дает организациям достоверный путь к развертыванию агентов AI в масштабе без принятия пропорционального риска безопасности. Вопрос, который держит многие компании назад, не в том, могут ли агенты AI доставить ценность; это в том, могут ли они быть развернуты с достаточной уверенностью, что постур безопасности не ухудшается при росте развертывания. Поведенческая безопасность, основанная на том, как агенты фактически работают, а не на входных данных, которые они получают, обеспечивает эту уверенность способами, которые контроли на основе промпта не могут.

Граница безопасности была проведена не в том месте, и эта ошибка имела смысл, когда AI был инструментом, который ждал входных данных. Он больше не ждет; агентные системы действуют, соединяются, эскалируют и накапливаются через среды, которые предразвертывательное тестирование не могло предвидеть. Организации, которые признают это раньше, будут теми, кто фактически масштабирует AI с уверенностью. Все остальные будут тратить следующие несколько лет на обнаружение, нарушение за нарушением, что контроль над тем, что говорит модель, никогда не был тем же, что и контроль над тем, что она делает.