Интервью
Бо Ли, генеральный директор Virtue AI – серия интервью

Бо ЛиГенеральный директор Virtue AI, — видный исследователь и предприниматель, специализирующийся на безопасности систем искусственного интеллекта. Она возглавляет Virtue AI, а также является профессором в Университете Иллинойса в Урбана-Шампейн, где ее исследования сосредоточены на безопасности машинного обучения, надежном ИИ и устойчивости к атакам. Ее карьера охватывает как академическую среду, так и промышленность, что позволяет ей переводить передовые исследования в области ИИ в практические приложения, помогающие организациям создавать более безопасные и устойчивые технологии ИИ.
ИИ добродетели Компания специализируется на защите и управлении системами искусственного интеллекта, используемыми в корпоративных средах. Ее платформа предоставляет такие возможности, как автоматизированное тестирование на проникновение (red-teaming), контроль в реальном времени и непрерывный мониторинг для выявления уязвимостей, таких как внедрение вредоносного кода, ложные срабатывания и утечка данных. Интегрируясь непосредственно в рабочие процессы разработки и развертывания ИИ, компания помогает организациям безопасно масштабировать использование больших языковых моделей и приложений на базе ИИ, сохраняя при этом высокие стандарты безопасности и управления.
Что побудило вас перейти от чисто академической карьеры к основанию и руководству компанией Virtue AI, и какую проблему, по вашему мнению, индустрия не решала в масштабах всей страны?
Традиционные инструменты безопасности создавались для предсказуемых приложений с фиксированными алгоритмами. Они никогда не разрабатывались для систем, которые рассуждают, адаптируются и действуют автономно. Мы с моими соучредителями увидели разрыв между тем, что показали фундаментальные исследования в области безопасности ИИ, и тем, что было реально доступно предприятиям. Исследования существовали, но практического применения не было. Именно это мы и решили изменить.
Компания Virtue AI фокусируется на безопасности, защите и соблюдении нормативных требований для больших языковых моделей и автономных агентов. Какая из этих областей, по вашему мнению, предприятия сегодня недооценивают больше всего?
Предприятия в той или иной степени разбираются во всех этих областях, особенно в вопросах безопасности, но существенный пробел все еще существует.
Предприятия начали серьезно относиться к безопасности моделей, по крайней мере, на поверхностном уровне. Но агенты представляют собой другую проблему. Им предоставляется доступ к наиболее конфиденциальным частям корпоративной инфраструктуры: выполнение кода, вызов API, просмотр веб-страниц и принятие цепочек решений, затрагивающих данные, финансы и операционную деятельность. Большинство команд безопасности не готовы анализировать подобные системы. Имеющиеся у них инструменты для этого не предназначены.
Риск не является теоретическим. Без системы безопасности, специально разработанной для агентских систем, мелкие сбои быстро накапливаются. Неожиданный вызов инструмента, неоднозначная инструкция, запрос, прошедший через защитные механизмы — любой из этих факторов может привести к несанкционированным действиям или утечке данных, прежде чем кто-либо заметит, что что-то пошло не так.
Непрерывное тестирование на проникновение (red-teaming) является центральным элементом подхода Virtue AI. Какие типы сбоев или рисков обычно проявляются только после запуска систем в рабочую среду?
Большинство из них — серьёзные.
В контролируемой среде вы тестируете модель и агентов. В производственной среде вы тестируете систему — и это разные вещи. Как только модель подключается к инструментам, конвейерам извлечения данных, пользовательскому вводу и другим агентам, пространство поведения расширяется таким образом, что тестирование перед развертыванием не охватывает эти аспекты. «Безопасно настроенный» агент может вести себя совершенно иначе при подключении к реальным базам данных, новым серверам MCP или другим агентам. Система становится недетерминированной. Она начинает принимать решения на основе контекста, которого не существовало во время оценки.
Именно тогда вы обнаруживаете те неудачи, которые действительно имеют значение.
Как вы оцениваете «безопасность ИИ» на практике, особенно когда системы развиваются за счет тонкой настройки, поиска информации и использования инструментов?
На практике безопасность ИИ нельзя измерить с помощью одного статического бенчмарка, поскольку современные системы ИИ постоянно развиваются за счет тонкой настройки, расширения возможностей поиска информации и взаимодействия инструментов или агентов. Вместо этого безопасность необходимо оценивать как свойство на системном уровне на протяжении всего жизненного цикла приложения ИИ. Это включает в себя стресс-тестирование моделей и агентов с помощью различных атак типа «красная команда», мониторинг поведения в реальном времени, такого как подсказки, вызовы инструментов и действия, а также оценку результатов в соответствии с определенными политиками риска (например, неправомерное использование, галлюцинации, утечка конфиденциальной информации или несанкционированные действия).
Например, наша отмеченная наградами статья (лучшая статья на конференциях Агентства национальной безопасности и NeurIPS), DecodingTrustНаша платформа DecodingTrust-Agent обеспечила всестороннее тестирование безопасности и защиты базовых моделей. Мы создали реалистичный симулятор агентов, поддерживающий различные среды с собственными агентами, предназначенными для проведения динамического, адаптивного и непрерывного тестирования.
Важно отметить, что измерение безопасности должно быть непрерывным и адаптивным, поскольку обновления подсказок, источников информации или инструментов могут привести к появлению новых уязвимостей. На практике это означает сочетание автоматизированного тестирования на проникновение, механизмов контроля в режиме реального времени и наблюдаемости для измерения не только реакции модели, но и безопасности всей системы искусственного интеллекта, работающей в реальном мире.
Ваши научные интересы охватывают такие области, как устойчивость, конфиденциальность и противодействие атакам. Какая из этих областей оказалась наиболее сложной для внедрения в реальные системы защиты?
Преобразование исследований в области устойчивости, конфиденциальности и противодействия враждебным атакам в реальные средства защиты вполне осуществимо. На самом деле, многие направления исследований в моей группе напрямую вдохновлены практическими проблемами безопасности, наблюдаемыми в развернутых системах искусственного интеллекта. Настоящая трудность заключается не в создании средств защиты, а в обеспечении надежных гарантий безопасности в динамичных, реальных условиях.
В академических исследованиях наша группа добилась значительных успехов, таких как сертифицированная надежность и гарантии конфиденциальности, но эти результаты, как правило, основаны на предположениях, которые могут не в полной мере выполняться в сложных производственных системах. Современные приложения ИИ постоянно развиваются за счет новых данных, тонкой настройки, конвейеров поиска и интеграции инструментов, что со временем может приводить к появлению новых уязвимостей.
В результате эффективная защита ИИ не может полагаться на разовую защиту — она требует непрерывного тестирования на проникновение, выявления рисков и адаптивных механизмов защиты, которые развиваются вместе с системой. Именно в этом заключается философия Virtue AI: сочетание наших многолетних исследований в области безопасности ИИ с автоматизированным крупномасштабным тестированием на проникновение и защитой в реальном времени для непрерывного выявления возникающих рисков и обновления средств защиты, что обеспечивает практичную и масштабируемую безопасность для реальных систем ИИ.
В чём принципиальное отличие защиты автономных агентов искусственного интеллекта от защиты традиционного программного обеспечения или даже чат-ботов?
Агенты — это не статичные программы. Они не следуют предсказуемым путям и не остаются в пределах тех границ, которые вы для них определили при развертывании.
Традиционные системы безопасности предполагают фиксированные пути выполнения, стабильные API и детерминированное поведение. Автономные агенты нарушают все эти предположения. Они рассуждают о дальнейших действиях, выбирают инструменты в зависимости от контекста и оказывают влияние на несколько систем за один запуск.
Нельзя просто просканировать запрос, усилить защиту модели или отслеживать отдельный вызов API и считать работу выполненной. Необходимо обеспечить безопасность агента как целостной системы — его логики, использования инструментов, окружения и всего, что происходит дальше по потоку.
В этом и заключается основная проблема, которую не могут решить точечные регуляторы. Они никогда и не были предназначены для её решения.
В чём заключаются недостатки существующих инструментов безопасности, когда агенты могут одновременно взаимодействовать со множеством систем, инструментов и источников данных?
Они не дают вам понять, как агент на самом деле действовал от начала до конца.
Большинство инструментов созданы для приложений с четкими границами и стабильным поведением. Они могут показать, как выглядел отдельный вызов API. Но они не могут объяснить, как агент, используя пять вызовов инструментов, рассуждал, чтобы получить результат, который никто не ожидал.
Проблема заключается в отсутствии полной прозрачности. Если вы не видите всю цепочку действий и решений, вы не можете управлять ею и не можете проводить аудит постфактум.
Каким образом системы контроля в режиме реального времени снижают риски по сравнению с одним лишь мониторингом или регистрацией данных?
Ведение журналов событий позволяет выявить причины неполадок уже после того, как ущерб нанесен. Это полезно для криминалистического анализа и соблюдения нормативных требований, но ничего предотвратить не удается.
В случае с автономными агентами задержка между действием и обнаружением может быть действительно дорогостоящей. Агент, который уже выполнил некорректный вызов API или украл данные, не дождался завершения работы конвейера логирования.
Механизмы контроля в реальном времени перехватывают действие до его выполнения. Если агент пытается совершить действие, выходящее за рамки установленных правил, оно блокируется или помечается как нарушающее правила до его выполнения, а не после.
Важно и сочетание факторов. Предотвращение угроз в режиме реального времени в сочетании с единой согласованной точкой контроля на всех этапах взаимодействия агента с инструментом представляет собой совершенно иной профиль риска, чем пассивный мониторинг отдельных компонентов.
Компания Virtue AI была основана высококвалифицированными техническими исследователями. Как это влияет на решения, принимаемые при разработке продукта, по сравнению с более коммерчески ориентированными стартапами в области ИИ?
Безопасность и управление ИИ — это, по сути, глубокая техническая проблема. Системы, которые мы защищаем, — такие как большие языковые модели, мультимодальные модели и агентные системы, — сами по себе построены на передовых исследованиях. Без прочной базовой экспертизы в области ИИ практически невозможно разработать для них эффективные решения по обеспечению безопасности.
Во многих случаях самая большая проблема в области безопасности ИИ заключается в том, как, используя продвинутый алгоритм «красной команды», преобразовать полученные данные в систему защиты производственного уровня, способную надежно защищать реальные системы в масштабе предприятия? В Virtue AI преодоление этого разрыва между исследованиями и внедрением является основой нашей работы и нашего опыта.
Поскольку компания Virtue AI была основана исследователями, которые десятилетиями работали над повышением устойчивости ИИ, состязательным обучением и созданием надежного ИИ, наши исследовательские и инженерные группы одновременно работают над одними и теми же проблемами. Наши исследователи постоянно изучают новые архитектуры моделей, новые рабочие процессы агентов и развивающиеся методы атак, в то время как наши инженерные группы интегрируют эти знания непосредственно в производственные системы.
Когда мы выявляем новую уязвимость — например, новый шаблон внедрения подсказок или стратегию манипулирования агентами — это быстро позволяет нам разработать новые модели обнаружения, механизмы защиты или стратегии «красной команды». Это происходит постоянно, а не только в рамках ежеквартального плана развития продукта.
В результате наши продукты остаются одновременно передовыми и готовыми к использованию в корпоративной среде, помогая организациям обеспечивать безопасность своих систем искусственного интеллекта на этапах их разработки и развертывания. Многие наши клиенты говорят, что именно такой научно обоснованный подход позволяет им быстрее внедрять решения, сохраняя при этом безопасность и соответствие нормативным требованиям.
Напротив, команды, ориентированные исключительно на коммерческий успех, часто оптимизируют свою работу, исходя из текущих запросов клиентов, что может приводить к появлению новых функций, но при этом отставать от быстро меняющегося ландшафта угроз в системах ИИ. В сфере безопасности ИИ угрозы развиваются так же быстро, как и сама технология. Основа, ориентированная на исследования, позволяет нам предвидеть новые риски на ранних стадиях и создавать средства защиты до того, как они превратятся в широко распространенные проблемы.
Какое наиболее распространенное заблуждение существует у предприятий относительно безопасности ИИ, когда они впервые знакомятся с Virtue AI?
Одно из самых распространенных заблуждений, которые возникают у предприятий при первом знакомстве с Virtue AI, заключается в том, что безопасность ИИ можно обеспечить простым применением традиционных инструментов кибербезопасности или базовых фильтров модерации контента.
В действительности системы искусственного интеллекта создают совершенно новые угрозы, такие как мгновенное внедрение вредоносного ПО, взлом систем, злоупотребление, вызванное галлюцинациями, утечка данных через системы извлечения и манипулирование агентами с помощью инструментов или внешних API. Эти риски возникают из поведения и рассуждений самой модели, а не только из окружающей инфраструктуры.
В результате защита систем искусственного интеллекта требует механизмов безопасности, которые понимают входные и выходные данные модели ИИ, а также процессы принятия решений агентами на протяжении всего жизненного цикла приложения ИИ, что требует наличия фундаментальных исследовательских возможностей в области ИИ.
Именно поэтому мы делаем акцент на безопасности, изначально разработанной для ИИ: сочетание автоматизированного тестирования на уязвимости, механизмов защиты в реальном времени для обеспечения соблюдения политик и мониторинга на системном уровне для отслеживания запросов, вызовов инструментов и действий агентов.
Как только предприятия понимают, насколько риски, связанные с ИИ, отличаются от традиционных рисков, связанных с программным обеспечением, они быстро осознают, что для обеспечения безопасности ИИ требуется принципиально новый комплекс мер безопасности.
И наконец, что для вас означает «ответственное внедрение ИИ» на практике — не в теории, а внутри компании, которая сегодня выпускает продукты?
Быстрее и безопаснее — это не противоположности, хотя большинство предприятий относятся к ним именно так. Предполагается, что серьёзная безопасность замедляет процесс — больше циклов проверки, больше этапов контроля, больше препятствий перед выпуском продукта.
На практике уверенные в развертывании агентов предприятия — это те, которые интегрируют безопасность в сам процесс, а не добавляют ее в конце: автоматизированная проверка на проникновение (red-teaming) перед развертыванием, контроль в реальном времени после запуска агента и централизованная видимость на протяжении всего жизненного цикла агента.
Это не просто формальность. Это то, что позволяет действовать быстро, потому что вы не обнаруживаете в процессе эксплуатации то, что следовало бы выявить раньше.
В конкретном смысле ответственное развертывание означает, что вы знаете, на что способны ваши агенты, вы видите, что они делают, и вы можете остановить их, если что-то пойдет не так.
Ответственная разработка ИИ позволяет с уверенностью внедрять непрерывные крупномасштабные системы искусственного интеллекта, а не замедлять инновации в этой области.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить ИИ добродетели.












