사이버 λ³΄μ•ˆ

μ‚¬μ΄λΉ„μ•ˆ, 사이버 λ°©μ–΄ 벀치마크 μΆœμ‹œ 및 μ£Όμš” AI λ³΄μ•ˆ λŠ₯λ ₯ 격차 곡개

mm

사이비안이 출시한 새로운 벤치마크는 인공 지능에서 가장 널리 받아들여지는 가설 중 하나에 도전하고 있습니다. 즉, 취약점을 찾을 수 있는 모델이 방어에도 사용될 수 있다는 가설에 도전하고 있습니다.

이 회사의 새로 소개된 サイバー 방어 벤치마크는 Simbian Research Lab에서 개발되었으며, 주요 대형 언어 모델(LLM)의 실제 사이버 방어 시나리오에서 얼마나 잘 수행되는지 평가합니다. 결과는 충격적입니다. 현대적인 AI 시스템은 점점 더 효과적으로 약점을 발견하고 악용하지만, 공격을 식별하고 중단하는任务에 크게 어려움을 겪습니다.

최전선 모델은 방어에 대한 최소 기준을 충족하지 못함

벤치마크는 Claude Opus 4.6, GPT-5, Gemini 3.1 Pro 등 주요 모델을 시뮬레이션된 기업 환경에서 테스트했습니다.

모델 중 하나도 통과 점수를 얻지 못했습니다.

Claude Opus 4.6은 테스트에서 가장 강력한 수행자였지만, MITRE ATT&CK 전술에 대한 공격 증거를 부분적으로만 감지했으며, 많은 모델은 악의적인 활동의 전체 범주를 식별하지 못했습니다. 독립적인 학술 연구는 이러한 결과와 일致하여, 최고의 모델조차도 열린 위협 사냥에 어려움을 겪고, 실제 시나리오에서 악의적인 이벤트를 작은 부분만 감지할 수 있음을 보여주었습니다.

이 격차는 중요한 제한을 강조합니다. 오늘날의 AI 시스템은 구조화된 질문에 답하거나 포함된 문제를 해결하는 데 탁월하지만, 복잡하고 진화하는 공격 체인을 조사하는 데는 어려움을 겪습니다.

현실적인 에이전트 기반 평가로의 전환

이 벤치마크를 다른 점은 설계입니다.

이전의 사이버 보안 테스트와 달리, Simbian의 접근 방식은 실제 텔레메트리 데이터를 사용하고, 모델을 에이전트 조사를 위한 루프에 배치합니다. 모델은 무엇을 찾을지 알려주지 않고, 로그를 탐색하고, 가설을 세우고, 위협을 독립적으로 식별해야 합니다.

이것은 실제 보안 운영 센터에서 인간 보안 분석가가 작동하는 방식을 반영합니다.

벤치마크는 여러 단계에 걸쳐 수십 개의 공격 기술을 포함하며, 모델이 시간과 시스템에 걸쳐 신호를 연결하도록 강요합니다. 또한, 문맥을 변형하고 결정론적인 점수를 적용함으로써, 모델이 단순히 패턴을 기억하는 위험을 줄입니다.

이 현실성으로의 전환은 중요합니다. AI 개발에서 실제 복잡성을 정확하게 반영하는 벤치마크를 생성하는 것은 종종 문제 자체를 해결하는 첫 번째 단계입니다.

공격과 방어 AI 간의 증가하는 격차

결과는 산업 전반에 걸쳐 나타나는 더广泛한 경향을 강화합니다.

AI는 공격적인 사이버 작업에서 빠르게 개선되고 있습니다. 최근 연구에 따르면, 최전선 모델은 시뮬레이션된 환경에서 멀티스텝 공격을 이미 수행할 수 있으며, 점점 더 최소한의 툴링으로 수행합니다.同時에, 방어 능력은 뒤처지고 있습니다.

이 불균형은 확대되는 비대칭을 생성합니다. 공격자는 자동화와 규모를 활용할 수 있지만, 방어자는 여전히 인간 전문 지식과 단편적인 툴링에 크게 의존합니다. 심지어 AI가 취약점을 식별하더라도, 그것의 심각성을 잘못 해석하거나 적절하게 행동하지 못할 수 있으며, 이는 탐지와 이해 간의 격차를 강조합니다.

“박스 밖” AI가 부족한 이유

Simbian의 결론은 AI가 시스템을 방어할 수 없다는 것이 아니라, 혼자서 방어할 수 없다는 것입니다.

벤치마크는 LLM이 효과적으로 보안 환경에서 작동하려면 회사가 설명하는 ” sophisiticated harness”가 필요하다고 제안합니다. 즉, 외부 지능, 구조화된 워크플로, 시스템 수준의 통합이 필요합니다.

이것은 보안 작업에서 AI의 성능을 개선하는 데 도구, 메모리, 컨텍스트를 추가하는 효과를 보여주는 더广泛한 연구와 일치합니다.

실제 환경에서 Simbian은 모델을 이러한 추가적인 레이어와 결합함으로써 훨씬 더 높은 탐지 정확도를 달성했다고 주장합니다. 이는 명백한 의미를 가지고 있습니다. 즉, 원시 모델 능력은 퍼즐의 한 부분에 불과하다는 것입니다.

AI 보안을 위한 새로운 벤치마크 카테고리

サイバー 방어 벤치마크의 출시는 실제 배포를 위한 AI 시스템 평가 방법에 중요한 단계를 나타냅니다.

질문에 대한 답변 대신 증거 기반 위협 사냥에 초점을 맞춤으로써, 벤치마크는 지능에서 실행으로 문제를 재정의합니다. 또한, 모델 간의 성능과 효율성의 트레이드오프를 측정할 수 있는 비용 요소를 도입합니다.

AI가 사이버 보안을 계속해서 재정의함에 따라, 이러한 벤치마크는 모델이 무엇을 할 수 있는지뿐만 아니라 어디서 실패하는지 이해하는 데 필수적인 도구가 될 수 있습니다.

현재, 주요 내용은 간단합니다. AI의 빠른 발전에도 불구하고, 완전히 자율적인 사이버 방어는 아직도 달성할 수 없습니다. 다음 혁신 단계는 더 큰 모델을 구축하는 것보다 AI와 구조화된 지능, 컨텍스트, 인간 감시를 결합하는 시스템을 설계하는 데 더 많이 의존할 것입니다.

μ•™νˆ¬μ•ˆμ€ μœ λ‚˜μ΄νŠΈ.AI의 λΉ„μ „μžˆλŠ” λ¦¬λ”μ΄μž 곡동 μ°½λ¦½μžλ‘œμ„œ AI와 λ‘œλ΄‡κ³΅ν•™μ˜ 미래λ₯Ό ν˜•μ„±ν•˜κ³  μ΄‰μ§„ν•˜λŠ” 데 λŒ€ν•œ λΆˆλ³€μ˜ 열정을 κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€. 연속적인 κΈ°μ—…κ°€λ‘œμ„œ, κ·ΈλŠ” AIκ°€ μ‚¬νšŒμ— 전기와 같은 파괴λ ₯을 κ°€μ§ˆ 것이라고 믿으며, μ’…μ’… 파괴적인 기술과 AGI의 잠재λ ₯에 λŒ€ν•΄ μ—΄κ΄‘ν•©λ‹ˆλ‹€.

作为 λ―Έλž˜ν•™μžλ‘œ, κ·ΈλŠ” μ΄λŸ¬ν•œ ν˜μ‹ μ΄ 우리 세계λ₯Ό μ–΄λ–»κ²Œ ν˜•μ„±ν• μ§€ νƒκ΅¬ν•˜λŠ” 데 ν—Œμ‹ ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, κ·ΈλŠ” Securities.io의 μ°½λ¦½μžλ‘œμ„œ, 미래λ₯Ό μž¬μ •μ˜ν•˜κ³  전체 뢀문을 μž¬ν˜•μ„±ν•˜λŠ” μ΅œμ²¨λ‹¨ κΈ°μˆ μ— νˆ¬μžν•˜λŠ” ν”Œλž«νΌμ„ μš΄μ˜ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.