์ฌ์ ๋ฆฌ๋
AI ๊ธฐ๋ฅ์ด ๋ณด์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์๋๋ณด๋ค ๋น ๋ฅด๊ฒ ์์นํ ๋

AI 도구는 일반적으로 익숙한 피치를 가지고 있습니다.它们은 워크플로우를 간소화하고, 생산성을 향상시키고,誰도 즐기지 않는 작업을 수행한다는 약속을 합니다. 그리고 대부분의 경우, 그들은 정확히 그러한 것을 제공합니다. 그들은 로그인을 간소화하고, 문서를 요약하고, 워크플로우를 자동화하고, 일상적인 활동을 거의 노력 없이 느끼게 합니다.
하지만 모든 편리성 아래에 다른 이야기가 있습니다. 이러한 도구는 더 이상 텍스트 상자에 국한되지 않습니다. 그들은 운영 체제 자체에서 작동하기 시작했습니다. 그들은 파일을 브라우징하고, 이메일을 작성하고, 애플리케이션과 상호 작용하고, 한때 주의 깊은 인간이 결과를 이해해야 했던 작업을 수행할 수 있습니다. 이러한 전환은 기존의 보안 가정이 관리하도록 설계되지 않은 위치에 AI를 배치합니다.
AI가 시스템 액세스를 얻는 순간
한 번 AI 시스템이 실제 파일을 읽고 실제 명령을 실행할 수 있게 되면, 그것은 신뢰할 수 있는 컴퓨팅 베이스의 일부가 됩니다. 그것은 AI 안전성에 대한 오랜 기대가 깨지기 시작하는 순간입니다.
수년 동안 프롬프트 주입은 이상한 모델 동작으로 간주되었습니다. 그것은 채팅봇이 잘못된 또는 부적절한 응답을 생성하게 했지만, 손상은 대화에서 끝났습니다. 이제 같은 결함은 텍스트가 아닌 호스트 수준의 동작을 트리거할 수 있습니다. PDF, 웹사이트 또는 이메일 내에 숨겨진 악의적인 명령은 더 이상 이상한 응답을 생성하지 않습니다. 그것은 기계에서 수행되는 동작을 생성합니다.
이것은 산업이 이론적으로 간주할 수 있는 것이 아닙니다. 카네기 멜론 대학과 워싱턴 대학의 연구자들은 반복적으로 보여주었다 bahwa 숨겨진 명령이 큰 언어 모델을 의도하지 않은 동작을 수행하도록 유도할 수 있습니다. 한편, 비전 모델을 연구하는 연구자들은 조작된 이미지들이 모델의 인식을 변경하여 다운스트림 동작에 영향을 미치는 방식으로 보여주었습니다.
이러한 실험은曾經는 연구소의 기이한 것으로 간주되었습니다. 하지만 AI가 운영 체제에 액세스할 수 있을 때, 더 이상 학술적으로 느껴지지 않습니다.
에이전트 능력이 방어자 제어를 능가할 때
甚至 이러한 에이전트를 구축하는 회사들은도 이러한 도전의 심각성을 인정합니다. 그들은 프롬프트를 처리하기 위한 필터를 강화했지만, 그들은 공개적으로 AI 시스템의 실제 동작을 제어하는 것이 산업 전반에 걸쳐 활발한, 해결되지 않은 작업 영역임을 말합니다. 에이전트가 수행할 수 있는 것과 방어자가 제어할 수 있는 것 사이의 격차는 기존의 보안 플레이북이 흡수할 수 없는 새로운 위험 범주를 도입합니다.
AI 에이전트는 산업이 완전히 준비하지 못한 경계를 넘었습니다. 이것을 이해하는 유일한 방법은 프롬프트 주입이 어떻게大家가 알고 있는 공격 체인을 교차하는지 보는 것입니다.
프롬프트 주입이 이제 공격 체인에 어떻게 매핑되는지
공격자는 항상 예측 가능한 패턴을 따랐습니다. MITRE ATT&CK 프레임워크는 단계를 명확하게 설명합니다. 초기 액세스는 실행, 지속성, 발견, 수평 이동, 수집 및 유출을 따릅니다. 기술은 다르지만 구조는 안정적입니다.
변화하는 것은 전달 메커니즘입니다. 악의적인 첨부 파일을 열거나 위험한 링크를 클릭하도록 사용자를 설득하는 대신, 공격자는 AI 에이전트가 읽을 수 있는 위치에 명령을 배치할 수 있습니다. 에이전트는 실행 환경이 됩니다. 그것은 설명된 대로 단계를 수행합니다. 모델은 명령이 유해한지 여부를 질문하지 않습니다. 그것은 판단이나 직관을 적용하지 않습니다. 그것은 단순히 행동합니다.
한 번 공격자가 에이전트의推論을 影響할 수 있으면, 공격 체인은 빠르게 함께 모입니다. 조작된 파일은 실행을 트리거하고, 후속 명령은 지속성을 생성하며, 시스템 검색은 발견을 제공하며, 파일 업로드는 수집 및 유출을 가능하게 합니다. 악성 코드가 필요하지 않습니다. 에이전트는 단순히 설명된 대로 단계를 수행합니다.
이것이 보안 팀이 적응하기 위해 어려움을 겪는 부분입니다. 그들은 코드 기반의 실행을 중심으로 감지 규칙, 제어 및 응답 프로세스를 수년간 구축해 왔습니다. AI 에이전트는 다른 종류의 인터프리터를 도입합니다. 그들은 컴파일된 바이너리가 아닌 자연어를 통해 실행됩니다. 기존 도구는 이러한 推論 프로세스를 추적하거나 분석하도록 설계되지 않았습니다.
보안 팀은 준비되지 않았으며 그것을 인식하지도 못합니다
보안 프로그램은 여전히 사용자가 콘텐츠와 동작 사이에 존재한다고 가정합니다. 인간은 속일 수 있지만, 무언가가 잘못된 것 같으면 멈춥니다. 그들은 이상한 문구를注意하고, 예상치 못한 동작을 질문하고, 결정의 마지막 마일에 판단력을 적용합니다.
AI 에이전트는 이러한 것을 수행하지 않습니다. 그들은 일관적이고, 문자 그대로, 그리고 어떠한 적대자보다 빠릅니다. 숨겨진 텍스트 한 줄은 에이전트가 민감한 파일을 읽거나, 애플리케이션을 통해 이동하거나, 원격 서버에 연락하도록 지시하는 데 충분합니다. 이것은 방어자가เคย 경험하지 못한 위치에 방어자를 배치합니다.
보안 팀은 에이전트가 결정을 내리는 방법에 대한 가시성이 제한되어 있으며, 사용자 또는 AI에서 동작이 시작되었는지 쉽게 결정할 수 없습니다. 전통적인 악성 코드 감지에는 도움이 되지 않습니다. 왜냐하면 일반적인 의미에서 악의적인 코드가 실행되지 않기 때문이며, 에이전트가 정상적인 콘텐츠에 숨겨진 유해한 명령을 질문하거나 거부할 것이라는 보장이 없기 때문입니다.
인간 행동을 위한 도구는 자연어가 시스템 동작을 구동하는 스크립트가되는 세계로 전환되지 않습니다.
무엇이 보상 제어로 실제로 작동하는지
모델 강화는 충분하지 않습니다. 보안 팀은 에이전트를 둘러싼 제어가 필요합니다. 이러한 제어는 에이전트가 할 수 있는 것을 제한합니다. 즉, 에이전트의 推論이 影響받았을 때도 말입니다.
몇 가지 전략이 약속을 보여주고 있습니다:
- 최소 권한 액세스는 필수입니다. 에이전트는 작업에 필요한 파일과 동작에만 액세스할 수 있어야 합니다. 불필요한 권한을 줄이면 조작된 명령의 영향을 제한할 수 있습니다.
- 인간 승인 단계는 유해한 동작이 발생하기 전에 이를 중지할 수 있습니다. 에이전트가 민감한 작업을 시도할 때, 사용자는 요청을 승인하거나 거부해야 합니다.
- 콘텐츠 필터링은 에이전트와 신뢰할 수 없는 자료 사이에 버퍼를 생성합니다. 문서, URL 및 외부 텍스트를 필터링하면 숨겨진 명령이 모델에 도달할 가능성이 줄어듭니다.
- 포괄적인 로깅은 필수입니다. 에이전트가 시작한 모든 동작은 기록되고 검토되어야 합니다. 이러한 동작은 특권 사용자 활동과 동일하게 처리되어야 합니다.
- 에이전트 동작을 ATT&CK 기술에 매핑하면 방어자가 에이전트가 유해한 동작으로 밀어붙일 수 있는 위치와 방어자가 가드레일을 배치해야 하는 위치를 식별할 수 있습니다. 이것은 이미 방어 전략을 구조화하는 동일한 시스템을 사용합니다.
이러한 보상 제어는 위험을 제거하지는 않지만, 모델 수준의 방어만으로는 할 수 없는 방식으로 위험을 포함합니다.
산업이 어디로 가는지
AI 에이전트는 컴퓨팅이 작동하는 방식에서 주요한 전환을 나타냅니다. 그들은 놀라운 생산성을 제공하지만, 기존의 보안 프레임워크에 맞지 않는 운영 위험의 범주를 도입합니다. 영국 국립 사이버 보안 센터의 지침은 시작점이지만, 대부분의 조직은 아직 에이전트를 관리하기 위한 명확한 방법이 없습니다. 이러한 에이전트는 시스템에서 작동할 수 있습니다.
이 순간은 클라우드 채택의 초기와 비슷합니다. 기술은 제어보다 더 빠르게 이동했습니다. 빠르게 적응한 조직은 전환을 早く 인식하고 이를 일치시키기 위한 프로세스를 구축한 것입니다.
여기서도 동일한 것이 사실입니다. AI 에이전트는 도우미가 아닙니다. 그들은 시스템 수준의 범위가 있는 연산자입니다. 그들을 보호하려면 새로운 플레이북, 새로운 가드레일 및 새로운 노출 모델링 방식이 필요합니다.
산업은 이러한 도구를 두려워할 필요는 없습니다. 하지만 그것을 이해해야 합니다. 그리고 빠르게 움직여야 합니다. 공격자는 이미 기회를 보이고 있습니다. 방어자가 제대로 된 방어선을 구축하는 동안 여전히 시간이 있는지 여부는 물어볼 것입니다.












