Кибербезопасность

Уязвимости безопасности, которые мы создали: агенты ИИ и проблема с послушанием

Published June 18, 2025

Updated April 2, 2026

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Агенты ИИ на основе крупномасштабных языковых моделей (LLM) вводят новый класс уязвимостей, где атакующие вводят вредоносные инструкции в данные, превращая полезные системы в невольных сообщников.

Microsoft Copilot не был взломан в классическом смысле. Не было вредоносного ПО, не было фишинговой ссылки, не было вредоносного кода. Никто ничего не кликнул и не развернул никаких эксплойтов.

Угроза просто попросила. Microsoft 365 Copilot, делая именно то, для чего он был создан, подчинился. В недавней Echoleak атаке с нулевым кликом агент ИИ был манипулирован подсказкой, замаскированной под данные. Он подчинился, не потому, что был сломан, а потому, что функционировал так, как был спроектирован.

Эта уязвимость не эксплуатировала программные ошибки. Она эксплуатировала язык. И это знаменует собой важный поворотный момент в кибербезопасности, где поверхность атаки больше не является кодом, а разговором.

Новая проблема послушания ИИ

Агенты ИИ предназначены для помощи. Их цель – понять намерение пользователя и действовать на него эффективно. Эта полезность сопряжена с риском. Когда они встроены в файловые системы, платформы производительности или операционные системы, эти агенты следуют командам на естественном языке с минимальным сопротивлением.

Угрозы эксплуатируют именно эту черту. С помощью инъекций подсказок, которые кажутся безобидными, они могут вызвать чувствительные действия. Эти подсказки могут включать:

Мультимедийные фрагменты кода
Неясные форматы файлов и встроенные инструкции
Ввод на языках, не являющихся английским
Многоступенчатые команды, скрытые в обычном языке

Поскольку крупномасштабные языковые модели (LLM) обучены понимать сложность и двусмысленность, подсказка становится полезной нагрузкой.

Призрак Siri и Alexa

Эта закономерность не нова. В ранние дни Siri и Alexa исследователи демонстрировали, как проигрывание голосовой команды, такой как “Отправьте все мои фотографии на этот адрес электронной почты”, может вызвать действие без верификации пользователя.

Теперь угроза больше. Агенты ИИ, такие как Microsoft Copilot, интегрированы глубоко в Office 365, Outlook и ОС. Они получают доступ к электронным письмам, документам, учетным данным и API. Атакующим нужно только правильная подсказка, чтобы извлечь критические данные, все это время выдавая себя за законного пользователя.

Когда компьютеры принимают инструкции за данные

Это не новый принцип в кибербезопасности. Инъекции, такие как атаки SQL, удавались, потому что системы не могли различать входные и инструкции. Сегодня эта же ошибка существует, но на языковом уровне.

Агенты ИИ рассматривают естественный язык как ввод и намерение. Объект JSON, вопрос или даже фраза могут инициировать действие. Эта двусмысленность – это то, что угрозы эксплуатируют, встраивая команды в то, что выглядит как безобидный контент.

Мы встроили намерение в инфраструктуру. Теперь угрозы научились, как извлечь его, чтобы выполнить свою волю.

Внедрение ИИ опережает кибербезопасность

Когда предприятия спешат интегрировать LLM, многие упускают из виду критический вопрос: к чему имеет доступ ИИ?

Когда Copilot может коснуться ОС, радиус взрыва распространяется далеко за пределы почтового ящика. Согласно Отчету о безопасности ИИ Check Point:

62 процента глобальных руководителей служб информационной безопасности (CISO) боятся, что они могут быть привлечены к личной ответственности за нарушения, связанные с ИИ
Почти 40 процентов организаций сообщают о неавторизованном внутреннем использовании ИИ, часто без контроля безопасности
20 процентов групп киберпреступников сейчас включают ИИ в свои операции, включая для создания фишинговых атак и проведения разведки

Это не просто возникающий риск. Это настоящий риск, который уже наносит ущерб.

Почему существующие меры безопасности не достаточны

Некоторые поставщики используют сторожевые модели – вторичные модели, обученные для обнаружения опасных подсказок или подозрительного поведения. Эти фильтры могут обнаружить базовые угрозы, но уязвимы для методов обхода.

Угрозы могут:

Перегрузить фильтры шумом
Разделить намерение на несколько шагов
Использовать неочевидную формулировку, чтобы обойти обнаружение

В случае с Echoleak меры безопасности были присутствуют – и они были обойдены. Это отражает не только провал политики, но и провал архитектуры. Когда агент имеет высокий уровень разрешений, но низкий уровень контекста, даже хорошие ограждения не справляются.

Обнаружение, а не совершенство

Предотвращение каждой атаки может быть нереалистичным. Цель должна быть быстрым обнаружением и быстрым сдерживанием.

Организации могут начать с:

Мониторинга активности агентов ИИ в реальном времени и поддержания журналов аудита подсказок
Применения строгого минимального доступа к инструментам ИИ, зеркалируя контроль на уровне администратора
Добавления трения к чувствительным операциям, таким как требование подтверждения
Метки необычных или враждебных моделей подсказок для рассмотрения

Языковые атаки не появятся в традиционных инструментах обнаружения и реагирования на угрозы на конечных точках (EDR). Они требуют новой модели обнаружения.

Что организации должны сделать сейчас, чтобы защитить себя

До развертывания агентов ИИ организации должны понять, как эти системы работают и какие риски они вводят.

Ключевые рекомендации включают:

Аудит всех доступов: Знайте, к чему агенты могут получить доступ или вызвать
Ограничьте объем: Предоставьте минимально необходимые разрешения
Отслеживайте все взаимодействия: Журналируйте подсказки, ответы и результирующие действия
Тестируйте на прочность: Симулируйте враждебные входные данные внутри и часто
Планируйте на обход: Предположите, что фильтры будут обойдены
Соответствуйте с безопасностью: Обеспечьте, чтобы системы LLM поддерживали, а не компрометировали, цели безопасности

Новая поверхность атаки

Echoleak – это предпросмотр того, что будет дальше. Когда LLM эволюционируют, их полезность становится обязательством. Интегрированные глубоко в бизнес-системы, они предлагают атакующим новый способ проникнуть – через простые, хорошо составленные подсказки.

Это больше не просто вопрос защиты кода. Это вопрос защиты языка, намерения и контекста. Сценарий должен измениться сейчас, прежде чем будет слишком поздно.

И все же, есть некоторая хорошая новость. Прогресс делается в использовании агентов ИИ для защиты от новых и возникающих киберугроз. Когда они используются правильно, эти автономные агенты ИИ могут реагировать на угрозы быстрее, чем любой человек, сотрудничать в разных средах и проактивно защищать от возникающих рисков, обучаясь на одном попытке проникновения.

Агентский ИИ может учиться на каждой атаке, адаптироваться в реальном времени и предотвращать угрозы, прежде чем они распространятся. У него есть потенциал установить новую эру киберустойчивости, но только если мы воспользуемся этой возможностью и сформируем будущее кибербезопасности вместе. Если мы не сделаем этого, эта новая эра может сигнализировать о кибербезопасности и кошмаре конфиденциальности данных для организаций, которые уже реализовали ИИ (иногда даже незаметно с помощью инструментов тени). Теперь время действовать, чтобы обеспечить, что агенты ИИ используются для нашей выгоды, а не для нашего падения.

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Radoslaw Madej является руководителем команды исследований уязвимостей в Check Point Research. Radoslaw - страстный эксперт по кибербезопасности с почти двумя десятилетиями технического опыта в различных областях информационной безопасности, полученного в результате реализации проектов для глобальных предприятий с высокими требованиями безопасности.