Кибербезопасность

Simbian Запускает Бенчмарк Кибербезопасности, Раскрывает Крупный Провал в Возможностях Безопасности ИИ

Published April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Новый бенчмарк, выпущенный компанией Simbian, бросает вызов одному из наиболее широко распространенных предположений в области искусственного интеллекта: что те же модели, которые способны обнаруживать уязвимости, также могут защитить от них.

Компания представила Бенчмарк Кибербезопасности, разработанный лабораторией Simbian Research Lab, который оценивает, насколько хорошо ведущие большие языковые модели (LLM) работают в реальных сценариях кибербезопасности. Результаты поразительны. Хотя современные системы ИИ все более эффективны в обнаружении и эксплуатации уязвимостей, они испытывают значительные трудности, когда им поручают выявление и остановку активных атак.

Модели Фронтира Не Выполняют Минимальный Стандарт Защиты

Бенчмарк протестировал ведущие модели, включая Claude Opus 4.6, GPT-5, Gemini 3.1 Pro и другие, в симулированных корпоративных средах.

Ни одна из моделей не получила проходной балл.

Claude Opus 4.6, которая показала лучший результат в тесте, обнаружила только часть доказательств атак по тактикам MITRE ATT&CK, в то время как многие модели не смогли выявить целые категории злонамеренной деятельности. Независимые академические исследования, подтверждающие эти выводы, показали, что даже лучшие модели испытывают трудности с открытым охотничьим на угрозы, обнаруживая только небольшую часть злонамеренных событий в реалистичных сценариях.

Этот разрыв подчеркивает критическое ограничение. Системы ИИ сегодня могут отлично справляться с ответами на структурированные вопросы или решением изолированных проблем, но они терпят неудачу, когда им необходимо расследовать сложные, эволюционирующие цепочки атак без руководства.

Сдвиг В сторону Реалистичной, Агентно-Ориентированной Оценки

То, что отличает этот бенчмарк, – его конструкция.

В отличие от предыдущих тестов на кибербезопасность, которые полагаются на вопросы с несколькими вариантами ответов или статические наборы данных, подход Simbian использует реальные телеметрические данные и помещает модели в агентный цикл расследования. Вместо того, чтобы указывать, что искать, ИИ должен исследовать журналы, формировать гипотезы и выявлять угрозы самостоятельно.

Это отражает, как человеческие аналитики безопасности работают в реальных Центрах операций безопасности.

Бенчмарк включает десятки тактик атак на различных этапах, заставляя модели соединять сигналы во времени и системах. Благодаря мутации контекста и определению детерминированного подсчета, он также снижает риск того, что модели просто запоминают закономерности.

Этот сдвиг в сторону реализма значим. В разработке ИИ создание бенчмарка, точно отражающего реальную сложность, часто является первым шагом к решению самой проблемы.

Растущий Разрыв Между Нападением и Защитой ИИ

Результаты укрепляют более широкую тенденцию, возникающую в отрасли.

ИИ быстро улучшается в офенсивных киберзадачах. Недавние исследования показывают, что модели фронтира уже могут выполнять многоступенчатые атаки в симулированных средах и все чаще делают это с минимальным инструментарием. В то же время возможности защиты отстают.

Этот дисбаланс создает расширяющуюся асимметрию. Нападающие могут использовать автоматизацию и масштаб, в то время как защитники все еще сильно полагаются на человеческий опыт и фрагментированное инструментирование. Даже когда ИИ выявляет уязвимость, он может неправильно интерпретировать ее серьезность или не действовать соответствующим образом, подчеркивая разрыв между обнаружением и пониманием.

Почему “Из Коробки” ИИ Не Срабатывает

Вывод Simbian заключается не в том, что ИИ не может защитить системы, а в том, что он не может сделать это в одиночку.

Бенчмарк предполагает, что LLM требуют того, что компания описывает как “современную упряжь” – комбинацию внешней разведки, структурированных рабочих процессов и системной интеграции – для эффективной работы в средах безопасности.

Это соответствует более широким исследованиям, показывающим, что добавление инструментов, памяти и контекста значительно улучшает производительность ИИ в задачах кибербезопасности.

В производственных средах Simbian утверждает, что достиг значительной точности обнаружения, сочетая модели с этими дополнительными слоями. Импликация ясна: сывая способность модели является только частью головоломки.

Новая Категория Бенчмарка Для Безопасности ИИ

Выпуск Бенчмарка Кибербезопасности знаменует важный шаг в том, как системы ИИ оцениваются для реального развертывания.

Сосредоточившись на доказательствах угроз, а не на ответах на вопросы, он переформулирует проблему с интеллекта на выполнение. Он также вводит стоимость как измеримый фактор, подчеркивая компромиссы между производительностью и эффективностью среди моделей.

Поскольку ИИ продолжает менять кибербезопасность, бенчмарки, подобные этому, могут стать важными инструментами для понимания не только того, что могут модели, но и где они терпят неудачу – и почему.

На данный момент вывод прост. Несмотря на быстрый прогресс в ИИ, полностью автономная кибербезопасность остается недоступной. Следующая фаза инноваций, вероятно, будет зависеть не от построения более крупных моделей, а от проектирования систем, которые сочетают ИИ со структурированной разведкой, контекстом и человеческим надзором.