사상 리더

채팅봇 보안이 잘못된 보안 경계인 이유

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

기업용 AI는 이미 검증 단계를 넘어서去了. 23%의 조직은 이미 에이전트 AI 시스템을 어디론가 확대하고 있으며, 62%는至少 에이전트와 실험을하고 있다. 이것들은 연구 프로젝트가 아니다. 생산 배포이며, 코드 저장소, 고객 데이터, 내부 API 및 운영 인프라에 접근하는 워크플로에 내장되어 있다.

이 성장에 대한 산업의 반응은 주로 에이전트가 활성화되기 전에 발생하는 일에 집중되었다. 벤더와 연구자들은 배포 전 보안에 에너지를 쏟았다: 확장 정책을 공개, 기초 모델을 강화, 입력을 필터링, AI 공급망을 보안, 훈련 시간에 정렬을 강제한다. 주요 AI 제공업체는 개발자용 보안 도구에 상당한 투자를 하여, 중앙 가정을 강화한다: 모델과 입력이 제어되면, 하류 위험을 포함할 수 있다.

이것은 합리적인 본능이지만, 점점 더 불완전한 것이다.

프롬프트는 보안 경계가 아니다

모델 인터페이스에서 작동하는 보안은 주로 애플리케이션 코드, 모델 구성 및 기본 인프라를 제어하는 팀에게ประโยชน을 제공한다. 그러나 에이전트를 구축하지 못하고 수정할 수 없는 보안을 담당하는 수비수에게는 거의 보호를 제공하지 않는다. 이것은 상당한 맹점이며, 적들은 이미 그것을 발견했다.

OpenAI의 최신 위협 지능 보고서는 정확히 이러한 역동성을 문서화한다. 위협 행위자는 생산 환경에서 ChatGPT 및 유사한 도구를 악용하고 있으며, 새로운 공격 기술을 발명하는 것이 아니라, 기존 워크플로에 AI를 통합하여 더 빠르게 이동한다. 정찰이 더 효율적이다. 사회 공학이 확대된다. 악성 코드 개발이 가속된다. 공격 표면은 근본적으로 변경되지 않았다; 악용의 속도와 볼륨이 변경되었다.

더 중요한 것은 도구가 밀어붙일 때 공격자가 어떻게 반응했는지이다. OpenAI는 위협 행위자가 프롬프트를 빠르게 변형시키면서, 표면 수준의 변형을 통해 프론트엔드 제어를 우회하는 것을 관찰했다. 이것은 보안 전문가가 이전에 본 패턴이다. 정적 방어, 시그니처 기반 안티바이러스 또는 입력 필터링은 규칙 업데이트가 따라갈 수 있는 속도보다 더 빠르게 반복하는 적에 대해 작동하지 않는다.

도전은 에이전트가 자율성을 얻을 때 복잡해진다. 현대적인 에이전트는 단일 교환에서 작동하지 않는다.它们는 다단계 동작 시퀀스를 실행하며, 정상적으로 보이는 도구와 권한을 호출한다. 유효한 자격증명을 사용하여 내부 API를 열거하는 에이전트는 경고를 트리거하지 않는다. 루틴 워크플로우 동안에 민감한 데이터 저장소를 액세스하는 에이전트는 즉시 플래그를 생성하지 않는다. 각 개별 동작은 검사를 통과하지만, 위험은 조합과 시퀀스에 산재한다.

위협이 다운스트림으로 이동할 때

오늘날 AI 배포를 방어하는 보안 팀은 구조적인 불일치를 직면한다. 사용할 수 있는 도구는 주로 모델이 무엇을 말할 수 있는지에 대해 추론하도록 설계되었다. 실제로 관리해야 하는 위험은 에이전트가 권한을 부여받고 생산 환경에서 풀려난 후 시스템, 네트워크 및 身分을 통해 무엇을 하는지이다.

프롬프트 기반 보안은 이전의 규칙 기반 보안 접근 방식과 같은 근본적인 약점을 공유한다. 그것들은 예측 가능한 공격 패턴에 의존하기 때문에 취약하다. 그것들은 누군가가 위협을 관찰하고 코드화하기 전에 방어가 작동할 수 없기 때문에 반응적이다. 그리고 AI 지원 반복을 표준 관행으로 채택한 적들에 의해 추월된다. 입력 필터링에 의존하여 언어 모델을 사용하여 새 프롬프트 변형을 생성하는 위협 행위자를 잡는 수비수는 본질적으로 패배한 위치에 있다.

실제 노출은 배포 후에 발생한다. 에이전트 주도 동작은 예상할 수 없는 방식으로 환경을 통해 전파한다. 에이전트는 에지 케이스를遭遇하고, 원래 설계에서 처리하지 못한 데이터 소스와 상호 작용하며, 원래 아키텍처 외부의 시스템에서 입력을 받고, 시간이 지남에 따라 합성되는 결정한다. 배포 전 테스트는 스냅샷이다; 생산은 연속적인 스트림이다. 스냅샷만 방어한다면 스트림에서 발생하는 모든 것이 효과적으로 모니터링되지 않는다는 것을 의미한다.

에이전트 동작으로 보안 경계 이동

AI 내구성을 구축하려면 다른 프레임이 필요하며, 목표는 모델 인터페이스를 보호하는 것이 아니다. 에이전트 동작의 관찰 가능한 결과를 통해 공격자 의도를 감지하는 것이 목표이다. 이는 중요한 차이이다. 의도는 항상 에이전트가 무엇을 말하거나 어떤 입력을 받는지에 표면화되지 않는다.

AI 시스템을 보안하는 것은 배포 시간에 정렬 확인 및 강건성 평가를 넘어, 에이전트가 실제 도구, 실제 API 및 실제 데이터와 상호 작용할 때 어떻게 행동하는지에 대한 지속적인 평가를 포함해야 한다. 배포 시간의 정적 평가는 필요하지만 불충분하다. 에이전트가 작동하는 위협 환경은 끊임없이 변경된다. 에이전트 동작은 동일한 연속성으로 모니터링되어야 한다.

이것은 프롬프트 강화가 해결할 수 없는 문제이다. 악의적인 의도를 동작 시퀀스를 통해 나타나는 것을 감지하려면, 운영 환경에서 복잡하고 순차적인 동작을 이해할 수 있는 모델이 필요하다. 행동 분석을 위한 심층 학습 기반 모델은 규칙 기반 시스템과 전통적인 SIEM 도구가 할 수 없는 방식으로 이를 수행할 수 있다.它们는 에이전트 활동의 전체 contexto에서 정상이 무엇인지 학습하며, 어떤 개별 동작도 전통적인 경보를 트리거하지 않을 때도 변화를 나타내는 편차를 표면화한다.

기본 논리는 배포 contexto에 관계없이 동일하다: 프롬프트 레이어에 고정된 보안은 항상 행동 레이어에서 작동하는 공격자에게 패배한다. 방어는 실제로 위협이 존재하는 곳으로 이동해야 한다.

보안 팀이 지금 해야 할 일

이 문제를 앞서가는 보안 리더를 위해, 몇 가지 실제로 변화를 통해 방어와 현재의 간격을 닫을 수 있다.

전체 애플리케이션 스택에서 AI 안전성을 평가한다. 기초 모델은 하나의 레이어이다. 同样重要한 것은 에이전트가 배포된 후 어떻게 행동하는지, 어떤 도구를 호출하는지, 어떤 권한을 사용하는지, 그리고 이러한 선택이 시간이 지남에 따라 어떻게 진화하는지이다. 모델 경계에서 끝나는 보안 평가에서는 운영 표면을 대부분 조사하지 않는다.

에이전트 수준에서 최소 권한을 강제한다. AI 에이전트는 지정된 기능에 필요한 도구, API 및 데이터에만 액세스할 수 있어야 한다. 이는 에이전트의 출력이 무해한 것으로 보이는 경우에도 중요하다. 범위를 제한하면 위협 에이전트의 영향을 줄이고, 비정상 감지를 더 효과적으로 만드는 더 명확한 행동 기준을 만든다.

에이전트를 텔레메트리 생성 身分으로 처리한다. 에이전트가 취하는 모든 동작은 데이터 포인트이다. 보안 팀은 에이전트 시작 동작 체인 주변의 탐지 논리를 구축해야 한다. 이는 모니터링을 에이전트에게 요청한 사용자 프롬프트에서 에이전트가 실제로 무엇을 했는지로 변경한다. 이는 공격자 의도가 보이는 곳으로 이동한다.

이 작업을 위해 특별히 설계된 탐지 모델을 사용하여 지속적인 행동 모니터링에 투자한다. 동작 시퀀스를 통해 나타나는 악의적인 의도를 식별하려면 전문 능력이 필요하다. 전통적인 모니터링 도구는 인간이 생성한 활동 패턴을 위해 설계되었다. 에이전트 동작, 속도, 볼륨 및 다단계 구조는 이 contexto에서 설계된 탐지 인프라를 요구한다.

집단 방어를 우선한다. AI 기반 공격 기술은 단일 조직이 추적할 수 있는 속도보다 더 빠르게 진화하고 있다. 공동 연구, 공개 협력 및 커뮤니티 위협 지능은 AI 보안 전략의 선택적 보완이 아니다; 핵심 입력이다. 현재 있는 수비수는 집단 지식을 기여하고 끌어들이는 사람들이다.

행동 보안이 실제로 제공한다

이 시프트를 만드는 보안 팀을 위해, 운영 보상은 구체적이다. 에이전트 동작에錨を하는 탐지 Enables 더 조용하고, 적응적이거나 암호화된 공격의 악의적인 의도를 더 일찍 식별한다. 입력 필터링을 통해 프롬프트를 변형하여 우회하는 공격자는 여전히 행동해야 한다. 그 행동은 흔적을 남긴다. 행동 탐지는 손상이 전파되기 전에 그 흔적을 찾는다.

아마도 가장 중요한 것은, 이 접근법이 조직에 AI 에이전트를 확대 배포하는 것을 제공한다. 이는 보안 포스트가 배포가 증가함에 따라恶化하지 않는다. 많은 기업이 후퇴하는 질문은 AI 에이전트가 가치를 제공할 수 있는지에 대한 것이 아니다; 그것은 에이전트를 배포할 수 있는지에 대한 것이다. 행동 보안, 에이전트가 실제로 작동하는 방식에 기반하여, 프롬프트 기반 제어가 구조적으로 할 수 없는 방식으로 제공한다.

보안 경계는 잘못된 곳에 그려졌으며, 이는 AI가 입력을 기다리는 도구일 때는 합리적이었다. 이제는 더 이상 기다리지 않는다. 에이전트 시스템은 작동하고, 체인하고, 확대하며, 예상하지 못한 환경에서 복합한다. 이를 가장 먼저 인식하는 조직은 실제로 AI를 확대하는 조직이 될 것이다. 다른 모든 사람은 다음 몇 년 동안 발견할 것이다. 모델이 무엇을 말할 수 있는지에 대한 제어는 모델이 무엇을 하는지에 대한 제어가 아니었다는 것을, 침해마다 알게 될 것이다.

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

마야ンク 쿠마르는 DeepTempo의 창립 AI 엔지니어로서, 회사의 기본적인 로그 언어 모델(LogLM)의 설계 및 개발을 주도합니다. 생성 및 멀티모달 AI 분야에서 강한 학술 및 연구 배경을 가지고 있으며, 사이버 보안 환경에서 위협 탐지 및 대응을 강화하는 도메인 특정 모델을 구축하는 데 전문적인 전문 지식을 제공합니다.