์ฌ์ ๋ฆฌ๋
์์ธกํ ์ ์๋ ํ๋กฌํํธ ์ฃผ์ ๊ณต๊ฒฉ: ๋ฐ๋์ ์๋ฆฌ์ธ๊ฐ ์ค์ง์ ์ธ ์ฐ๋ ค์ธ๊ฐ?

이 글에서 나는 독자에게 사고 실험에 참여해 줄 것을 요청하고 싶습니다. 나는 가까운 미래에 특정 유형의 프롬프트 주입 공격이 효과적으로 예방할 수 없을 것이라고 주장하고 싶습니다.私の 주장은 구체적인 증거보다는 추측에 기반할 것입니다. 따라서 나는 당신을 설득하려고 하는 것이 아니라, 이러한 생각을 함께 탐구해 보자고 제안하고 싶습니다. 시작하기 전에, 설득력 있는 글을 쓰는 작가가 하는 것처럼, 체스와 체스 엔진에 대해 चर치해 보겠습니다.
초인적 체스 엔진과 인간 경험에 대한 주장
체스의 좋은 점 중 하나는 다른 분야에서 부족한 것이 체스에서 객관적으로 선수의 품질이나 실력을 측정할 수 있는 것입니다. 이 목적을 위해 사용되는 ELO 등급 시스템은 결점이 있지만, 시간이 지남에 따라 매우 좋은 대략적인 추정치를 제공합니다. 2700 이상의 등급은 일반적으로 세계 수준(세계에서 상위 30위)으로 인식됩니다. 세계 최고의 선수는 2850 아래에 있습니다. 어떤 인간도 2900의 등급에 도달한 적이 없습니다.
1990년대 중반, 우리는 처음으로 세계 수준에 도달한 AI 엔진(Deep Blue)을 보았습니다. 이 里程碑의 실제 의미는 모든 수준의 선수들이 연습과 분석을 위해 엔진을 광범위하게 채택한 것입니다. 실제로 엔진 사용은 세계 최고의 선수들에게 필수적이 되었습니다. 그러나 이러한 세계 수준 엔진의 여러 世代에서, 추천 이동(즉, 출력)을 검토하는 것이 필수적이었습니다. 실제로 인간이 엔진과 함께 경쟁하는 특별한 형식인 “고급 체스”가 만들어졌으며, 인간 + 기계의 조합은 기계만으로는 우수하다고 여겨졌습니다.
약 20년이 지나고, 딥 러닝과 강화 학습의 일부 중요한 진보가 체스 엔진이 초인적 수준(대략 3200 ELO)에 도달하도록 허용했습니다. 그러나 그 천국을 2017년 경에 돌파한 후, 매우惊くべき 두 가지 일이 발생했습니다. 첫 번째는 완전히 예상된 것이었습니다. 엔진은 99%의 모든 위치에서 “기본 사실”의 де facto 출처가 되었습니다. 실제로 이는 우리가 엔진에 대한 “盲目적인 신뢰”의 시대에 들어섰음을 의미합니다. 이러한 날들에는 인간이 엔진보다 훨씬 더 나은 이동을 제안하는 것이 거의 불가능합니다. “고급 체스”는 재미있었지만, 이제는 무의미한 연습입니다. 인간은 게임에 거의 아무런 기여도 하지 않을 것입니다. 그러나 두 번째는 대부분의 체스 선수들에게 충격적인 것이었습니다. 이러한 초인적인 신경 엔진(즉, 딥 뉴럴 네트워크)은 때때로 “로맨틱한” 스타일로 플레이했습니다. 즉, 그들은 그 값이 인간이나 세계 수준 엔진이 계산할 수 있는 것보다 훨씬 더 많은 이동 후에만 감상할 수 있는 이동을 만들었습니다. 이는 거의 엔진이 특정 위치에 대한 “감정” 또는 “직감”을 개발한 것처럼 느껴졌습니다. 그러나 이 직감은 인간이 कभ라도 이해하거나 모방할 수 없는 것입니다.
다르게 말하자면, 초인적인 신경 엔진은 인간의 인지 수평선을 넘어서 이동을 할 수 있습니다. 여기서의 핵심 점은 해석 가능성의 문제가 아닙니다. 오히려 인간은 이동을 추천하는 엔진의 이유를 이해할 수 없으며, 이동을 수행하고 결과를 관찰하기 전까지는 게임 시퀀스의 전체 궤적을 재생할 수 없습니다. 결과적으로 우리는 능력에 대한 불가넘을 수 있는 간격을 가지고 있습니다. 객관적으로 엔진 출력을 검토하지 않고 수락하는 것이 최적입니다. 나는私の 주장을 다음과 같이 요약할 수 있습니다:
체스는 초인적인 AI가 일부 영역에서 효과적으로 자율적으로 작동할 것이라는 존재 증명입니다. 그러한 시스템을 인간의 검토 없이 결정하게 하는 것이 최적의 배포 방법입니다.
私の 주장이 너무나 당연하거나 특출나지 않다고 생각할 수 있으므로,私は 몇 가지 세부 사항을 강조하고 싶습니다.假设 우리는 구체적이고 돌이킬 수 없는 결과를 가진 복잡한 임무에서 초인적 수준을 보여주는 AI 시스템을 가지고 있습니다.私の 주장에는 두 가지 의미가 있습니다:
- 시스템은 인간의 검토 없이 임무에 대한 결정에 사용될 것입니다. 내재된 위험에도 불구하고
- 그러한 시스템을 모니터링하여 얻은 통찰력은 유해한 결정으로부터 예방하지 못할 것입니다. 이미 손상이 발생했을 것입니다
출력 검토 및 모니터링은 정확히 프롬프트 주입 공격에 대한 마지막 두 개의 방어 계층입니다. 따라서 우리의 가상 프롬프트 주입 공격은 적절한 시스템을 대상으로 함으로써 이러한 계층을 간단히 우회할 수 있습니다.
이것은私の 마음속에서 매우 실제적인 시나리오입니다. 특정 영역에서 초인적인 AI 시스템은 AGI가 아니며, 대부분의 전문가들은 그러한 시스템이 곧 도착할 것이라고 믿습니다. 우리는 결정이 시간에 민감하다고 가정할 필요가 없었습니다. 단지 임무가 인간의 검토가 불가능할 정도로 충분히 복잡하다는 것입니다.
물론, 우리는 지금까지 두 개의 방어 계층만 우회했습니다.幸运하게도, 몇 가지 다른 계층이 개발되었습니다. 나머지 부분을 해결하기 위해, 프롬프트 주입이 방어하기 어렵게 하는 핵심 요소에 대해 더 깊이 들어가 보겠습니다.
프롬프트 주입이란 무엇인가?
프롬프트 주입은 대형 언어 모델(LLM)을 조작하여 설계된 입력을 통해 LLM이 공격자의 의도를 모르는 채로 실행하도록 하는 것입니다. 이는 AI를 위한 사회 공학으로 간주될 수 있습니다. 중요한 점은 이것이 전통적인 소프트웨어 버그가 아니라는 것입니다. 프롬프트 주입 공격은 내재된 LLM 취약점을 악용합니다. LLM이 시스템 및 사용자 프롬프트를 모두 텍스트 시퀸스로 처리하므로, 합법적인 지시와 유해한 지시를 내재적으로 구별할 수 없습니다. 취약점은 그러므로 설계에 의한 것이 아니라, 우연에 의한 것입니다.
프롬프트 주입 기술
프롬프트 주입은 일반적으로 LLM 애플리케이션의 #1 위험으로 간주됩니다. 이것이 그런 이유가 여러 가지 있습니다. 가장 명백한 요인은 개발된 주입 기술의 다양성입니다. 대략 네 가지 범주로 그룹화하면, 가장 잘 알려진 기술에는 다음이 포함됩니다:
- 구문 기반: 특수 문자, 이모티콘 또는 대체 언어 사용
- 간접: 외부 소스(사이트에서 가져오기), 인코딩(베이스 64), 또는 다중 모드 참조(이미지中的 텍스트)
- “가상으로 하자”: 역할 놀이, 가상적 어필, 윤리적 프레임, 형식 전환 등 조작적인 스타일을 도입
- 직접: 강제, 보상, 또는 부정적인 프롬프트를 통해 모델 지시를 강제하려는 명시적인 시도
다양성 자체가 애플리케이션 개발자에게 도전을 제공하지만, 이러한 공격은 또한 빠르게 진화하고 있습니다. 아래 다이어그램의 왼쪽은 2023년 초의 최신 공격을 설명하는 것으로, 오른쪽은 오늘날의 공격 특성을 반영합니다.

LLM 애플리케이션 개발자들은 또한 표준 사용성 대 안전성 트레이드오프를 고려해야 합니다. 그들은 모든 적절한 방어 계층과 디자인 패턴을 도입할 수 있습니다. 그러나 그것은 사용자 경험에 부정적인 영향을 미치는 지연과 거짓 양성(FPs)을 도입할 것입니다. 즉, 안전한 프롬프트를 잘못된 것으로 표시하는 것. 따라서 실제에서는 어떤 정도의妥協이 불가피합니다. 또한 “은총” 솔루션은 없습니다.
그러나 이 글에서 나는 이러한 끝없는 고양이와 쥐의 게임에 관심이 없습니다. 오히려 공격이 원칙적으로 예방할 수 없는지 조사하고 싶습니다. 개발자/방어자의 관점에서 중요한 통찰력은 하나뿐입니다:
프롬프트에서 지시와 데이터를 분리하는 것이 프롬프트 주입 위험을 해결하는 데 기본적입니다
우리는妥協이 요인으로 고려되지 않는다고 가정할 수 있습니다. 또한 모든 방어 계층이나 기술을 사용할 수 있습니다. 이러한(강한) 가정 하에, 프롬프트에서 지시-데이터 분리가 효과적으로 불가능한 시나리오를 구상할 수 있을까요?
DNA 아날로지
문제가 프롬프트에서 지시-데이터 분리로 명명되었을 때,私の 초기 생각은 생물학을 아날로지로 사용하는 것이었습니다.
세포와 DNA의 한 구간(즉, 유전자)을 고려해 보십시오. 유전자는 단백질을 구축하기 위한 지시를 제공하는 전사와 번역을 통해 정보(데이터)를 암호화합니다. 따라서 유전자는同時적으로 무엇을 구축할지와 어떻게 구축할지 결정합니다. 그러나 이것은 단순히 거짓입니다. 유전자는 자신을 해석하는 방법을 결정하지 않습니다. 지시를 따르는 것과 같은 것은 생물학에서 유전자 수준에는 없습니다. “어떻게”는 완전히 외부의 세포 기계에 의해 결정됩니다.
따라서, 향후 LLM의 世代 – 또는 더 정확하게, 그들이 진화하는 시스템 -이 생물학적 기계와 훨씬 더 유사하다고 느끼지 않을 수 없습니다. 그러나 제안된 아날로지는 작동하지 않습니다. 우리는 셀을 LLM으로, 유전자를 프롬프트로 대체하고, 유전자에 주입을 수행하여 “손상된” 단백질을 구축하도록 할 수 없습니다. 자연어와 의미적 해석을 필요로 하는 작업에 집중하는 것이 더 생산적입니다.
방어의 계층을 벗기다
프롬프트 주입 공격을 막는 다층 방어 전략이 더 효과적이라는 것은 놀라운 일이 아닙니다. 아래 이미지는 가장 일반적인 방어 계층과 각 계층에서 사용되는 기술을 순서대로 보여줍니다.

우리는 이미 출력 및 모니터링의 마지막 두 계층에 대해 위에서 논의했습니다. 따라서 첫 네 계층에 집중해 보겠습니다.
입력 계층을 고려할 때, 간접적인 공격을 감지하는 프롬프트의 정리 또는 검증이 khá 성공적일 것입니다. 그러나 주입이 직접적으로 제공되고, 위에서 제안한 대로, 의미적 해석을 통해, 정리가 관련이 없을 수 있고(정리할 것이 없기 때문에), 검증은 기본적으로 불가능할 수 있습니다. 계산이 완료되어 문제가 식별될 때까지.
검출 계층에는 거의 제한이 없습니다. 실제로 전용 LLM을 주입 감지에 사용할 수 있습니다. 그러나 한번 더, 지능적인 프롬프트에서 숨겨진 독을 감지하는 것이 분류기 또는 이상 탐지기에 어려울 것입니다.
모델 계층은 작업 범위가 狭く, 미세 조정이 가능할 때 khá 효과적일 수 있습니다. 시스템 계층에서도 도구 사용이 예측 가능할 때 비슷한 주장을 할 수 있습니다. 그러나 직관적으로, 둘 다 주입이 해석기를 벗어날 때 경보를 발하지 않을 것입니다.
하우스 오브 카드
이 글을 쓰기 시작했을 때,私は широк한 선에서 “예방할 수 없는” 프롬프트 주입 공격을 설명하고 싶었습니다. 아마도 나는 기존의 방어 계층에 구멍을 내는 “비건설적” 접근 방식을 따랐습니다. 방어 기술은 계속 빠르게 진화하고 있으며, 공격 표면도 마찬가지입니다. 이 게임은 곧 끝날 것이라는 표시를 보이지 않고 있습니다. 그러나 나는 우리가 더 이상 이 게임을 하지 않을 것이라고도 믿습니다. 나는 미래의 성공적인 프롬프트 주입 공격이 여전히 자연어로 이루어질 것이라고 추측합니다. 그러나 인간이 이해할 수 없는 언어일 것입니다. 또한 그것은 특정 목적을 위해 구축된 시스템에 의해 자동으로 발견되거나, 관련 작업(예: 특정 표현 공간에서 의미적 모호성을 검색)을 처리하는 과정에서 우연히 발견될 것입니다.
우리가 제어력을 잃고 있지만, 이것이 가장 합리적인 일이라고 느끼는 것은 불쾌한 것입니다. 당신은 GPT 5.2가 이 논증을 “논쟁의 여지도 없고 새로운 것도 아님”이라고 판단하고, 나는 “주장을 과도하게 강조하지 말라”고 조언하며, 이 글의 40%를 삭제하라고 주장했다는 사실에 안도할 것입니다.
