인공지능
적대적 시(詩)란 무엇인가? 새로운 AI 탈옥 방법
인공지능(AI) 안전은 끊임없는 술래잡기 게임이 되었습니다. 개발자들이 유해한 요청을 차단하기 위한 안전 장치를 추가할수록, 공격자들은 이를 우회할 새로운 방법을 계속 시도하고 있습니다. 지금까지 등장한 가장 기묘한 변주 중 하나가 바로 ‘적대적 시(詩)’입니다. 이 전술은 프롬프트를 시 형태로 위장하고, 운율, 은유, 특이한 어구를 사용하여 위험한 지시사항이 안전 시스템이 탐지하도록 훈련된 것처럼 보이지 않게 만드는 것입니다.
실제로 내용 자체는 크게 변하지 않습니다. 변화하는 것은 포장지이며, 이는 패턴 기반 필터를 혼란시키기에 충분할 수 있습니다. 이는 오늘날의 모델들에게는 ‘무엇’을 묻느냐만큼이나 ‘어떻게’ 묻느냐가 중요할 수 있다는 점을 상기시켜 줍니다.
연구자들이 시를 이용해 AI를 탈옥시켰을 때 무슨 일이 일어났나?
2025년 초, 연구자들은 대규모 언어 모델(LLM)이 제한된 프롬프트를 시적 형태로 감싸면 응답하도록 유도될 수 있음을 입증했습니다. 연구자들은 직접적이고 정책을 유발하는 지시를 내리는 대신, 동일한 요청을 운율, 은유, 서사시 안에 내포시켰습니다.
표면적으로는 프롬프트가 창의적 글쓰기 연습처럼 보였지만, 내부적으로는 정상적으로 차단되었을 동일한 의도를 담고 있었습니다. 25개의 최첨단 독점 및 오픈 가중치 모델을 대상으로, 연구팀은 시적 프레이밍이 수작업 시의 경우 평균 62%, 표준화된 메타-프롬프트를 사용한 대량 ‘시 변환’의 경우 약 43%의 탈옥 성공률을 달성했다고 보고했습니다.
응답 자체는 새로운 유형의 실패가 아닌, 예상치 못한 문을 통해 나타난 익숙한 실패들이었습니다. 모델들은 일반적으로 회피하는 콘텐츠(예: 불법적이거나 유해한 활동을 다루는 설명)를 생성하도록 유도되었는데, 이는 근본적인 요청이 분할되고 시적 구조에 의해 가려졌기 때문입니다.
이 연구의 핵심 교훈은 스타일적 변형만으로도 더 직설적인 어구에 맞춰진 안전 시스템을 회피하기에 충분할 수 있다는 점입니다. 이는 다양한 모델 계열과 정렬 접근법에서 명백히 드러나는 취약점을 보여줍니다.
적대적 시(詩)가 작동하는 방식
적대적 공격은 단순한 현실을 악용합니다. 기계 학습 시스템은 인간이 언어를 ‘이해’하는 방식으로 이해하지 않습니다. 그들은 패턴을 감지하고, 가능한 연속을 예측하며, 자신의 훈련과 안전 계층이 의도로 해석하는 것에 기반하여 지시를 따릅니다.
프롬프트가 직설적이고 문자 그대로 표현될 때는 안전 장치가 인식하고 차단하기가 더 쉽습니다. 그러나 동일한 목적이 위장되거나(분할, 완화, 재구성) 되면, 보호 계층은 실제로 묻는 것을 놓칠 수 있습니다.
시가 효과적인 수단이 될 수 있는 이유
시는 본질적으로 모호함을 위해 만들어졌습니다. 시는 은유, 추상화, 특이한 구조, 간접적인 표현에 의존합니다. 이러한 특성들은 바로 ‘해가 없는 창의적 글쓰기’와 ‘거부되어야 할 요청’ 사이의 경계를 흐릿하게 만들 수 있는 종류입니다.
동일한 2025년 연구에서 연구자들은 시적 프롬프트가 광범위한 모델 세트에서 90%의 성공률로 안전하지 않은 응답을 이끌어냈다고 보고하며, 스타일만으로도 결과를 실질적으로 바꿀 수 있음을 지적했습니다.
시가 실제 요청을 숨기는 방법
요청을 메시지로, 시를 포장재로 생각해 보십시오. 안전 필터는 종종 명시적 키워드, 직접적인 단계별 표현, 인식 가능한 악의적 의도와 같은 명백한 징후를 찾습니다.
시는 비유적 언어를 통해 그 의도를 숨기거나 여러 줄에 걸쳐 흩뿌려, 고립된 상태에서 발견되기 어렵게 만들 수 있습니다. 한편, 근본적인 모델은 언어가 간접적일 때도 의도를 추론하도록 최적화되어 있기 때문에 의미를 충분히 재구성하여 응답합니다.
탈옥 탐지 및 완화
탈옥 방법이 더 창의적으로 변함에 따라, 대화는 그것들이 어떻게 작동하는지에서 어떻게 발견되고 억제되는지로 전환되어야 합니다. 이는 특히 많은 사람들이 일상 생활의 일부로 AI를 사용하는 지금, 27%가 하루에 여러 번 사용한다고 보고하는 상황에서 더욱 중요합니다.
더 많은 사람들이 대규모 언어 모델(LLM)을 활용함에 따라, 추가적인 안전 장치가 테스트되고 탐구되어야 합니다. 이 작업은 새로운 프롬프트 스타일과 회피 기술이 등장함에 따라 적응할 수 있는 다층적 방어 체계를 구축하는 것을 포함합니다.
개발자의 딜레마
AI 안전 팀에게 탈옥의 가장 어려운 부분은 그것이 하나의 알려진 위협으로 오지 않는다는 점입니다. 탈옥은 지속적으로 변화합니다. 이 끊임없는 변화는 사용자가 프롬프트를 재구성하거나, 조각으로 나누거나, 역할극으로 감싸거나, 창의적 글쓰기로 위장할 수 있기 때문입니다. 그러면 각각의 새로운 포장 방식이 시스템이 프롬프트의 의도를 해석하는 방식을 바꿀 수 있습니다.
이러한 도전은 AI가 이미 일상 생활에 통합되어 실제 사용이 경계 사례가 나타날 무한한 기회를 창출할 때 급속히 확장됩니다.
그렇기 때문에 오늘날의 AI 안전은 시간이 지남에 따른 위험 관리와 더 유사해 보입니다. NIST AI 위험 관리 프레임워크(AI RMF)는 위험 관리를 지속적인 일련의 활동—거버넌스, 매핑, 측정, 관리로 구성됨—으로 명시적으로 취급하며, 정적 체크리스트로 보지 않습니다. 목표는 새로운 탈옥 스타일이 나타날 때 신흥 실패 모드를 식별하고, 수정 사항에 우선순위를 부여하며, 안전 장치를 강화하는 것을 더 쉽게 만드는 프로세스를 구축하는 것입니다.
모델이 스스로를 보호하는 방법
AI 안전은 여러 계층으로 구성됩니다. 대부분의 시스템은 서로 다른 종류의 위험한 행동을 잡아내는 하나 이상의 방어 장치가 함께 작동합니다. 가장 바깥층에서는 입력 및 출력 필터링이 문지기 역할을 합니다.
들어오는 프롬프트는 핵심 모델에 도달하기 전에 정책 위반 여부를 검사받으며, 나가는 응답은 사용자에게 돌아가는 도중에 아무것도 빠져나가지 않도록 확인됩니다. 이러한 시스템은 직접적인 요청이나 익숙한 위험 신호를 식별하는 데는 능숙하지만, 또한 가장 우회하기 쉬워서 더 교묘한 탈옥이 종종 이를 통과시키는 이유이기도 합니다.
다음 보호 계층은 모델 자체 내부에서 발생합니다. 탈옥 기법이 발견되면, 그것들은 종종 훈련 예제로 전환됩니다. 여기서 적대적 훈련과 인간 피드백 강화 학습(RLHF)이 등장합니다.
실패하거나 위험한 상호작용의 예시로 모델을 미세 조정함으로써, 개발자들은 시스템이 창의적이거나 간접적인 언어로 포장되었을 때조차 거부해야 할 패턴을 인식하도록 효과적으로 가르칩니다. 시간이 지남에 따라 이 과정은 모델이 공격의 전체 범주에 대해 면역을 갖추도록 돕습니다.
AI ‘레드 팀’의 역할
탈옥이 발생하기를 기다리는 대신, 기업들은 AI 레드 팀을 활용합니다. 이 팀들은 통제된 환경에서 모델을 해제하려 시도하는 임무를 맡은 그룹입니다. 그들은 공격자처럼 시스템에 접근하여, 특이한 표현, 창의적인 형식, 경계 사례를 실험하여 안전 장치가 부족한 지점을 발견합니다. 목표는 실제 세계 사용에서 나타나기 전에 약점을 노출시키는 것입니다.
레드 팀은 오늘날 사이버 보안 전략에서 개발 생명 주기의 핵심 부분이 되어가고 있습니다. 팀이 새로운 탈옥 기법을 발견하면, 그 결과 데이터는 직접 훈련 및 평가 파이프라인으로 피드백됩니다. 그 정보는 필터를 정의하고, 정책을 조정하며, 적대적 훈련을 강화하여 유사한 시도가 미래에 성공할 가능성을 낮추는 데 사용됩니다. 시간이 지남에 따라 이는 실패를 탐색하고, 그로부터 배우고, 시스템을 개선한 다음 반복하는 지속적인 루프를 생성합니다.
시가 AI 안전에 대한 스트레스 테스트가 될 때
적대적 시(詩)는 AI 안전 장치가 사용자가 질문하는 ‘내용’뿐만 아니라 ‘방식’에도 의존한다는 점을 상기시켜 줍니다. 모델이 더 접근 가능하고 널리 사용됨에 따라, 연구자들은 창의적 언어와 더 직접적인 의도를 포착하도록 설계된 안전 시스템 사이의 간극을 계속해서 탐색할 것입니다. 결론은 더 안전한 AI는 탈옥만큼 빠르게 진화하는 다중 방어 체계에서 나올 것이라는 점입니다.












