사이버 보안

Simbian, 사이버 방어 벤치마크 출시, AI 보안 능력의 큰 격차暴露

Published April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Simbian이 출시한 새로운 벤치마크는 인공 지능에서 가장 널리 받아들여지는 가설 중 하나에 도전한다. 즉, 취약점을 찾을 수 있는 모델은 또한 이를 방어할 수 있다는 가설이다.

Simbian Research Lab에서 개발한 회사의 새로 소개된 Cyber Defense Benchmark는 주요 대형 언어 모델(LLM)의 실제 사이버 방어 시나리오에서 얼마나 잘 수행되는지 평가한다. 결과는 충격적이다. 현대적인 AI 시스템은 약점을 발견하고 악용하는 데越来越 효과적이지만, 활성 공격을 식별하고 중단하는任务에 큰 어려움을 겪는다.

최전선 모델, 방어 최소 기준 미달

벤치마크는 Claude Opus 4.6, GPT-5, Gemini 3.1 Pro 등을 포함한 주요 모델을 시뮬레이션된 기업 환경에서 테스트했다.

모델 중 어느 것도 통과 점수를 얻지 못했다.

테스트에서 가장 강한 성능을 보인 Claude Opus 4.6는 MITRE ATT&CK 전술에서 공격 증거의 일부만을 감지했으며, 많은 모델은 악의적인 활동의 전체 범주를 식별하지 못했다. 독립적인 학술 연구는 이러한 발견과 일치하며, 심지어 최고의 모델도 개방형 위협 사냥에 어려움을 겪으며, 현실적인 시나리오에서 악의적인 이벤트의 작은 부분만을 감지한다는 것을 보여주었다.

이 격차는 중요한 제한을 강조한다. 오늘날의 AI 시스템은 구조화된 질문에 답변하거나 제한된 문제를 해결하는 데 우수할 수 있지만, 가이드없이 복잡하고 진화하는 공격 체인을 조사할 때는 어려움을 겪는다.

현실적이고 에이전트 기반 평가로의 전환

이 벤치마크를 구별하는 것은 설계이다.

이전의 사이버 보안 테스트와 달리 다중 선택 질문이나 정적 데이터 세트에 의존하는 대신, Simbian의 접근 방식은 실제 텔레메트리 데이터를 사용하고 모델을 에이전트 기반 조사 루프에 배치한다. 무엇을 찾을 것인지 알려주지 않고, AI는 로그를 탐색하고 가설을 형성하며 독립적으로 위협을 식별해야 한다.

이는 실제 보안 운영 센터에서 인간 보안 분석가가 작동하는 방식과 같다.

벤치마크는 여러 단계에 걸친 수십 개의 공격 기술을 포함하며, 모델이 시간과 시스템 전체에서 신호를 연결하도록 강요한다. 또한, 맥락을 변형하고 결정론적 점수를 적용함으로써, 모델이 단순히 패턴을 기억하는 위험을 줄인다.

이 현실성으로의 전환은重大하다. AI 개발에서 실제 복잡성을 반영하는 벤치마크를 생성하는 것은 종종 문제 자체를 해결하는 첫 번째 단계이다.

공격과 방어 AI 간의 증가하는 격차

발견은 산업 전반에 걸쳐 나타나는 더广泛한 추세를 강화한다.

AI는 공격적인 사이버 작업에서 급격히 개선되고 있다. 최근 연구에 따르면, 최전선 모델은 이미 시뮬레이션 환경에서 다단계 공격을 수행할 수 있으며, 점점 더 최소한의 툴링으로 이를 수행한다. 与此同时, 방어 능력은 뒤처지고 있다.

이 불균형은 확대되는 비대칭을 생성한다. 공격자는 자동화와 규모를 활용할 수 있지만, 방어자는 여전히 인간 전문 지식과 단편화된 툴링에 크게 의존한다. AI가 취약점을 식별할 때, 그것은 심각성을 잘못 해석하거나 적절하게 작동하지 않을 수 있으며, 이는 탐지와 이해 사이의 격차를 강조한다.