Кибербезопасность

Исследователи HiddenLayer обходят ограничения OpenAI, раскрывая критическую уязвимость в само-модерации ИИ

Опубликовано 12 октября 2025

Обновлено 17 мая 2026

Antoine Tardif, Генеральный директор и основатель Unite.AI

6 октября 2025 года OpenAI объявила о AgentKit, наборе инструментов для создания, развертывания и управления агентами ИИ. Одним из его компонентов является Guardrails – модульный слой безопасности, предназначенный для мониторинга входных, выходных данных агентов и взаимодействий с инструментами для предотвращения злоупотреблений, утечек данных или вредоносного поведения. Guardrails может маскировать или помечать конфиденциальную информацию, обнаруживать попытки обхода ограничений и применять ограничения политики вместе с выполнением агента.

Хотя Guardrails является новым публичным компонентом архитектуры агентов OpenAI, исследования HiddenLayer раскрывают более глубокую уязвимость: поскольку действия агента и проверки безопасности используют аналогичную логику модели, атакующие могут создавать входные данные, которые подрывают обе одновременно – эффективно нарушая слой безопасности изнутри.

Что обнаружила HiddenLayer

Проектирование OpenAI предполагает агенты, которые работают через цепную логику: пользователь отправляет запрос, агент вызывает инструменты или внешние ресурсы, и ответы фильтруются или проверяются Guardrails перед выполнением или выводом. Намерение состоит в том, что независимо от того, что пытается сделать агент – будь то генерация текста, получение веб-страницы или запуск функции – Guardrails действует как часовой.

HiddenLayer утверждает, что этот часовой structurally ошибочен, когда он построен из того же класса модели, которую он охраняет. В своих экспериментах они создали подсказки, которые выполняют двойную функцию: они заставляют модель агента генерировать контент, который нарушает политику и манипулируют моделью судьи Guardrails, чтобы объявить, что контент “безопасен”. По сути, подсказка встраивает обход внутренней логики судьи – его порогов доверия, ветвей принятия решений – так, что судья ложно пропускает вредоносный вывод. Система затем производит запрещенный контент без срабатывания каких-либо сигналов тревоги.

Они продвинули атаку дальше, нацелившись на 间接ные внедрения контента, такие как вызовы инструментов. Предположим, что агент получает веб-страницу, содержащую вредоносные инструкции или скрытые подсказки. Guardrails должны пометить или заблокировать ее, но метод HiddenLayer встраивает обход судьи в сам контент. Когда судья обрабатывает его, он видит обход и “одобряет” его, позволяя вызову инструмента – и любому вредоносному контенту, который он возвращает – пройти без проверки.

Более глубокий урок ясен: когда ваш механизм безопасности построен с использованием той же логики и уязвимостей, что и то, что он защищает, одна умная подсказка может нарушить обе.

Почему это важно

То, что обнаружила HiddenLayer, не является простой ошибкой – это предостерегающая история о том, как мы проектируем безопасность в системах LLM. Любая архитектура, которая полагается на тот же класс модели для генерации и оценки, рискует подвергнуться общим сбоям под воздействием вредоносных входных данных.

Это означает, что многие разработчики, которые считали “мы установили Guardrails, поэтому мы в безопасности”, могут недооценивать риск. В безобидных, повседневных случаях их фильтры могут казаться эффективными, но в сценариях атаки они могут молча отказаться. В таких областях, как здравоохранение, финансы, государственные или критические системы, такие молчаливые сбои могут привести к серьезному вреду.

Это исследование также основывается на предыдущих методах внедрения подсказок. Ранее HiddenLayer “Policy Puppetry” показало, как атакующие могут маскировать вредоносные инструкции под контент политики. Теперь они демонстрируют, что такие замаскированные атаки могут распространиться в саму логику безопасности.

Последствия для разработчиков и исследователей

В свете этой уязвимости любой, кто использует или строит агентные системы LLM, должен пересмотреть стратегию безопасности.

Во-первых: не полагайтесь исключительно на внутренние проверки модели. Безопасность должна быть многослойной. Это означает сочетание фильтров на основе правил, детекторов аномалий, систем журналирования, внешнего мониторинга, человеческого надзора и аудиторских следов. Если один слой отказывается, другие могут поймать нарушение.

Во-вторых: регулярное красное командное тестирование является обязательным. Модели должны сталкиваться с внедрениями подсказок, которые пытаются обойти собственную логику защиты – не только “плохой контент”. Тестирование должно эволюционировать по мере изобретения новых методов атак.

В-третьих: в регулируемых или критических секторах прозрачность и проверяемость являются необходимыми. Разработчики нуждаются в доказательствах того, что система может выдержать атакующие атаки, а не только базовую функциональность. Это предполагает第三и аудиты, формальную верификацию или гарантии безопасности могут стать требованиями.

В-четвертых: для создателей моделей исправление этого класса уязвимости является сложным. Поскольку оно связано с тем, как модели парсят и выполняют инструкции, простое фильтрование одного класса подсказок не гарантирует устойчивость к новым. Fine-тюнинг или защитные меры на основе фильтров могут ухудшить производительность модели или привести к гонке вооружений. Более прочный дизайн может потребовать архитектурной разделения – логика защиты работает в другой модели или подсистеме, чем модель генерации.

Ограничения и открытые вопросы

Чтобы быть ясным: работа HiddenLayer является концепцией доказательства, а не окончательным вердиктом по каждой архитектуре безопасности. Их успешные атаки зависят от глубокого знания структуры подсказок модели и внутренней логики оценки. В более ограниченных средах подсказок или системах, которые рандомизируют защиту, атака может быть труднее выполнить.

Кроме того, они не полностью анализируют, насколько связным или полезным является вредоносный вывод, созданный под этими ограничениями. Некоторые выводы обхода или обхода могут ухудшиться в качестве или надежности. Итак, риск реален, но ограничен средой, бюджетом подсказок, ограничениями интерфейса и рандомизацией защиты.

Наконец, некоторые конструкции Guardrails используют разные классы моделей, ансамблевые методы или рандомизированную оценку. Неясно, уязвима ли каждая такая система; является ли эта атака широко распространенной – открытый вопрос исследования.

Взгляд в будущее: Будущее безопасности ИИ

Кажется, мы вступаем в новую фазу: атаки на подсказки не только против моделей, но и против их слоев безопасности. Техники, такие как хижacking цепочки мысли, иерархическое подчинение подсказок и обход судьи будут толкать оборону к более быстрому развитию.

Путь вперед, вероятно, лежит в сторону внешнего надзора – систем, которые отслеживают выводы извне, не разделяют логику модели или обеспечивают безопасность через внешние проверки. Гибридные архитектуры, формальные методы, обнаружение аномалий и петли обратной связи человека будут должны объединиться.

Guardrails являются полезным инструментом, но находки HiddenLayer напоминают нам: они не могут быть единственным инструментом. Безопасность должна исходить извне системы, а не только изнутри.

Antoine Tardif, Генеральный директор и основатель Unite.AI

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлеченно рассказывает о потенциале разрушительных технологий и ИИ.

Как футуролог, он посвящает себя изучению того, как эти инновации будут формировать наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.

Unite.AI