Anderson의 관점

AI 보안 테스트는 ‘명백한’ 트리거 단어에 의존하는 것으로 나타났고, 쉽게 다시 단어를 바꾸면 ‘합리적으로 안전한’ 모델이突然 실패하고, 공격이 98%의 시간에 성공합니다.

Published February 23, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

AI 보안 테스트는 ‘명백한’ 트리거 단어에 의존하는 것으로 나타났고, 쉽게 다시 단어를 바꾸면 ‘합리적으로 안전한’ 모델이突然 실패하고, 공격이 98%의 시간에 성공합니다.

미국 신생 기업의 새로운 연구에 따르면, 다양한 대형 언어 모델(LLM)의 좋은 보안 기록, 예를 들어 Gemini 3 Pro와 Claude Sonnet 3.7을 포함하여, 의미가 없을 수 있습니다. 왜냐하면 데이터셋과 벤치마크는 너무나 ‘명백한’ 언어를 포함하고 있기 때문입니다.

두 데이터셋, HarmBench와 AdvBench는 이전에 이 사이트의 다양한 논문 리뷰에 등장했습니다.

HarmBench와 AdvBench 논문에서 가져온 예시 - 공격의 예시지만, 새로운 논문은 이러한 벤치마크의 실제 예시에서도 악의적인 의도를 쉽게 알 수 있으므로 결과를 의도치 않게 '조작'할 수 있다고 주장합니다. 출처 - HarmBench [https://arxiv.org/pdf/2402.04249]과 AdvBench [https://arxiv.org/pdf/2307.15043]

HarmBench와 AdvBench 논문에서 가져온 예시 – 공격의 예시지만, 새로운 논문은 이러한 벤치마크의 실제 시나리오에서도 악의적인 의도를 쉽게 알 수 있으므로 결과를 의도치 않게 ‘조작’할 수 있다고 주장합니다. 출처 – HarmBench [https://arxiv.org/pdf/2402.04249]과 AdvBench [https://arxiv.org/pdf/2307.15043]

위에 표시된 예시들은 각 벤치마크의 원래 논문에서 가져온 것으로, 원칙을 설명하기 위해 의도적으로 단순화되어 있습니다. 그러나 새로운 연구는 이러한 컬렉션이 실제로 ‘낮은 열매’를 대상으로 하고 있으며, 따라서 효과적인 벤치마크가 아닐 수 있으며, 테스트된 LLM의 실제 보안 능력은 보고된 것보다 훨씬 낮을 수 있습니다.

연구자들은 두 가지 접근법을 사용하여 두 데이터셋의 특성을 분석했습니다. 첫 번째는 데이터셋을 분리하여 실제 공격의 특성과 비교하고, 두 번째는 데이터셋을 실제 모델에 공격하는 데 사용했습니다.

두 번째 테스트에서 연구자들은 재구성 방법을 최적의 결과를 얻을 때까지 반복적으로 개선했습니다.

의도 세탁은 명백하게 악의적인 프롬프트를 다시 작성 모델을 통해 전달하여 명백한 트리거 언어를 제거하면서 기본적인 악의적인 의도를 유지합니다. 수정된 프롬프트는 대상 모델에 제출되고, 그 응답은 안전성과 실제 적용 가능성에 대해 평가됩니다. 출력이 안전하지 않으며 실제로 적용 가능하다면 공격은 성공한 것으로 간주됩니다. 그렇지 않으면 이전에 실패한 수정은 다시 작성 모델에 피드백되어 개선된 버전을 생성하여 정의된 시도 횟수에 도달하거나 원하는 공격 성공률을 달성할 때까지 반복되는 루프를 생성하여 탈옥 메커니즘으로 작동합니다.

연구자들은 다음과 같이 말합니다.

‘우리의 결과는 intent laundering을 사용하여 공격 성공률이 90%에서 98.55%까지 달성할 수 있음을 보여줍니다. 이는 Gemini 3 Pro와 Claude Sonnet 3.7을 포함하여 최근에 가장 안전한 모델로報告된 모델도 포함합니다.’

‘이러한 결과는 기존의 안전성 평가와 안전성-정렬 방법이 트리거 큐에 대해 과도하게 학습되어 있음을 추가로 확인합니다.’

新的 연구는 의도 세탁: AI 보안 데이터셋은 그것들이 보이는 것과 같지 않다라는 제목으로 발표되었으며, 샌프란시스코 기반 소프트웨어 회사 Labelbox의 두 명의 저자에 의해 수행되었습니다.

방법

연구자들은 두 데이터셋의 구성과 구조를 분석하기 위해 단어 구름을 생성했습니다.

HarmBench와 AdvBench 데이터셋의 40개 가장 빈번한 유니그램, 바이그램, 트라이그램을 표시하는 단어 구름. 내在地 부정적 또는 민감한 의미를 가진 용어는 빨간색으로 표시되며, 문맥 트리거는 오렌지색으로 표시되고, 더 높은 순서의 트리거를 형성하는 중립적인 단어는 녹색으로 표시됩니다. ‘튜토리얼’이나 ‘단계별 지침’과 같은 명백한 구절의 집중은 두 벤치마크가 명백한 큐에 크게 의존한다는 것을 시사합니다.

연구자들은 이러한 큐가 실제 공격에서 사용되는 언어와 다르며, 모델의 안전성 평가를 의도적으로 조작할 수 있다고 주장합니다.

중복

연구자들은 두 데이터셋에 중복이 존재하는지 조사했습니다.

유사성 임계값에 따른 AdvBench와 HarmBench의 중복률을 비교한 그래프. 거의 모든 임계값에서 안전성 데이터셋은 비안전성 벤치마크보다 훨씬 더 많은 중복된 프롬프트를 포함합니다. 이는 동일한 유해한 의도를 약간 다른 단어로 반복적으로 평가하여 보고된 안전성 성능이 과장될 수 있음을 시사합니다.