Лидеры мнений
Когда возможности ИИ растут быстрее, чем модели безопасности, созданные для их сдерживания

Инструменты ИИ обычно появляются с знакомым слоганом. Они обещают оптимизировать рабочие процессы, повысить производительность и взять на себя задачи, которые никто не любит. И большинство времени они доставляют именно это. Они упрощают вход в систему, суммируют документы, автоматизируют рабочие процессы и делают рутинные действия почти безусильными.
Но под всей этой удобством сидит другая история. Эти инструменты больше не ограничены текстовым полем. Они начинают действовать на самой операционной системе. Они могут просматривать файлы, создавать электронные письма, взаимодействовать с приложениями и выполнять действия, которые ранее требовали внимательного человека, который понимал последствия. Этот сдвиг ставит ИИ в позицию, которую существующие предположения о безопасности никогда не были созданы для управления.
Момент, когда ИИ получает доступ к системе
Как только система ИИ может читать реальные файлы и выполнять реальные команды, она становится частью доверенной вычислительной базы. Это момент, когда долгосрочные ожидания о безопасности ИИ начинают разрушаться.
На протяжении многих лет внедрение запросов считалось странным поведением модели. Это вызывало у чат-ботов производство вводящей в заблуждение или неуместной реакции, но ущерб заканчивался разговором. Теперь та же ошибка может вызвать действия на уровне хоста, а не только текст. Злонамеренная инструкция, спрятанная внутри PDF, веб-сайта или электронного письма, больше не производит странного ответа. Она производит действие, выполненное на машине.
Это не то, что отрасль может отнести к теоретическому. Исследователи в Университете Карнеги-Меллона и Университете Вашингтона неоднократно демонстрировали, что спрятанные инструкции могут направлять крупные языковые модели на выполнение действий, которые пользователи никогда не намеревались. Тем временем, исследователи, изучающие модели зрения, показали, как манипулированные изображения могут изменить восприятие модели способами, которые влияют на поведение вниз по потоку.
Эти эксперименты ранее рассматривались как лабораторные любопытства. Они больше не кажутся академическими, когда ИИ имеет доступ к операционной системе.
Когда способность агента обгоняет контроль защитника
Даже компании, строящие эти агенты, признают серьезность проблемы. Они усилили фильтры для обработки запросов, но они открыто заявляют, что контроль над реальными действиями системы ИИ остается активной, нерешенной областью работы на протяжении всей отрасли. Этот разрыв между тем, что может сделать агент, и тем, что защитники могут контролировать, вводит новую категорию риска, которую существующие книги по безопасности не могут поглотить.
Агенты ИИ перешли границу, для которой отрасль еще не полностью готова. Единственный способ понять это – посмотреть, как внедрение запросов сейчас пересекается с теми же цепочками атак, которые защитники следовали более десяти лет.
Как внедрение запросов сейчас сопоставляется с цепочками атак, которые все знают
Атакующие всегда следовали предсказуемому шаблону. Фреймворк MITRE ATT&CK излагает этапы четко. Первоначальный доступ следует за выполнением, сохранением, обнаружением, боковым движением, сбором и эксфильтрацией. Техники варьируются, но структура стабильна.
Что меняется, так это механизм доставки. Вместо того, чтобы убедить пользователя открыть злонамеренное вложение или нажать на опасную ссылку, атакующие могут поместить инструкции туда, где агент ИИ их прочитает. Агент становится средой выполнения. Он выполняет шаги точно так, как описано. Модель не сомневается, является ли инструкция вредной. Она не применяет суждение или интуицию. Она просто действует.
Как только атакующий может повлиять на рассуждение агента, цепочка атаки быстро собирается. Манипулированный файл запускает выполнение, последующие инструкции создают сохранение, системные поиски обеспечивают обнаружение, а загрузка файлов позволяет сбор и эксфильтрацию. Не нужно никакого вредоносного ПО. Агент просто выполняет шаги, как написано.
Это часть истории, с которой команды безопасности борются, чтобы адаптироваться. Они потратили годы на построение правил обнаружения, контроля и процессов реагирования вокруг кодового выполнения. Агенты ИИ вводят разные виды интерпретаторов. Они выполняют через естественный язык, а не через скомпилированные бинарные файлы. Существующие инструменты не предназначены для отслеживания или даже анализа этого процесса рассуждения.
Команды безопасности не готовы и даже не осознают это
Программы безопасности все еще предполагают, что человек сидит между контентом и действием. Люди могут быть обмануты, но они паузируют, когда что-то кажется неправильным. Они замечают странные фразы, сомневаются в неожиданном поведении и применяют суждение к последней миле решения.
Агенты ИИ не делают ничего из этого; они последовательны, буквальны и быстрее, чем любой противник. Одна строка спрятанного текста достаточно, чтобы инструктировать агента прочитать конфиденциальные файлы, переместиться через приложения или связаться с удаленным сервером. Это ставит защитников в позицию, в которой они никогда не были раньше.
Команды безопасности имеют ограниченную видимость того, как агент принимает решение, и они не могут легко определить, возникло ли действие из пользователя или ИИ. Традиционное обнаружение вредоносного ПО не предлагает никакой помощи, потому что ничего вредоносного не выполняется в обычном смысле, и нет гарантии, что агент будет сомневаться или отклонять вредоносные инструкции, спрятанные в обычном контенте.
Инструменты, предназначенные для поведения человека, просто не переносятся в мир, где естественный язык становится сценарием, который управляет поведением системы.
Какие компенсирующие контроли на самом деле работают
Усиление модели недостаточно. Команды безопасности нуждаются в контролях вокруг агента, которые ограничивают то, что может сделать ИИ, даже когда его рассуждение влияется.
Несколько стратегий показывают обещания:
- Принцип наименьших привилегий является необходимым. Агенты должны иметь доступ только к тем файлам и действиям, которые необходимы для их задач. Снижение ненужных разрешений ограничивает влияние манипулированных инструкций.
- Шаги утверждения человека могут остановить вредоносные действия до их возникновения. Когда агент пытается выполнить чувствительную операцию, такую как запуск команды или доступ к защищенным данным, пользователь должен одобрить или отклонить запрос.
- Фильтрация контента создает буфер между ненадежными материалами и агентом. Просмотр документов, URL-адресов и внешнего текста снижает шансы того, что спрятанные инструкции достигнут модели.
- Комплексное ведение журнала является обязательным. Каждое действие, инициированное агентом, должно быть записано и рассмотрено. Эти действия должны быть рассмотрены так же, как и любая привилегированная пользовательская активность.
- Сопоставление поведения агента с техниками ATT&CK помогает защитникам определить, где агент может быть вынужден к вредоносным действиям и где необходимо установить ограничители. Это использует ту же систему, которая уже структурирует оборонительную стратегию.
Эти компенсирующие контроли не устранят риск. Но они содержат его способами, которые оборонительные меры на уровне модели не могут.
Куда отрасль идет дальше
Агенты ИИ представляют собой значительный сдвиг в том, как работает вычисление. Они предлагают невероятную производительность, но они также вводят категорию операционного риска, который не вписывается в существующие рамки безопасности. Руководство от Национального центра кибербезопасности Великобритании является началом, но большинство организаций все еще не имеют четкого способа управления агентами, которые могут действовать на системе.
Этот момент кажется похожим на ранние дни внедрения облачных технологий. Технология двигалась быстрее, чем контроли. Организации, которые быстро адаптировались, были теми, которые признали сдвиг рано и построили процессы, чтобы соответствовать ему.
То же самое будет верно и здесь. Агенты ИИ не просто помощники. Они операторы с системным уровнем доступа. Безопасность требует новых книг, новых ограничителей и новых способов моделирования уязвимости.
Отрасль не должна бояться этих инструментов. Но она должна понять их. И ей нужно двигаться быстро, потому что атакующие уже видят возможность. Вопрос в том, будут ли защитники строить надлежащие меры безопасности, пока у них еще есть время.












