Connect with us

์ดˆ๊ธฐ AI ์—์ด์ „ํŠธ ๊ณต๊ฒฉ์ด 2026๋…„์— ์šฐ๋ฆฌ์—๊ฒŒ ๋ฌด์—‡์„ ์•Œ๋ ค์ฃผ๋Š”๊ฐ€

์‚ฌ์ƒ ๋ฆฌ๋”

์ดˆ๊ธฐ AI ์—์ด์ „ํŠธ ๊ณต๊ฒฉ์ด 2026๋…„์— ์šฐ๋ฆฌ์—๊ฒŒ ๋ฌด์—‡์„ ์•Œ๋ ค์ฃผ๋Š”๊ฐ€

mm

AI가 제어된 실험에서 실제 응용으로 이동함에 따라 우리는 보안 환경의 변곡점에 접어들고 있습니다. 정적 언어 모델에서 상호작용이 가능하고 에이전트가 문서를 브라우징하고 도구를 호출하며 다단계 워크플로우를 오케스트레이션할 수 있는 시스템으로의 전환은 이미 진행 중입니다. 그러나 최근 연구에 따르면 공격자들은 성숙을 기다리지 않고 동일한 속도로 적응하고 있습니다. 새로운 기능이 도입될 때마다 시스템을 프로빙하고 있습니다.

2025년 4분기에 Lakera의 우리 팀은 Guard와 Gandalf: Agent Breaker 환경에서 실제 공격자 행동을 분석했습니다. 이는 30일간의 집중적인 스냅샷이지만 더 넓은 패턴을 반영하며, 모델이 간단한 텍스트 프롬프트를 넘어 문서, 도구, 외부 데이터와 상호작용하기 시작하는 순간, 위협 표면이 확장되고 적대자는 즉시 이를 악용합니다.

이 순간은 초기 웹 애플리케이션이 발전하는 것을 지켜본 사람이나 API 주도 공격의 등장에 관심을 두었던 사람들에게는 익숙한 느낌일 수 있습니다. 그러나 AI 에이전트의 경우에는 상황이 다릅니다. 공격 벡터는 많은 조직이 예상했던 것보다 더 빠르게 등장하고 있습니다.

이론에서 실무로: 야생의 에이전트

2025년 대부분의 시간 동안 AI 에이전트에 대한 논의는 주로 이론적 잠재력과 초기 프로토タイプ에 집중되었습니다. 그러나 4분기에는 생산 시스템에서 대규모로 에이전트 행동이 나타났습니다. 문서를 가져오고 분석하고 외부 API와 상호작용하며 자동화된 작업을 수행할 수 있는 모델입니다. 이러한 에이전트는 명백한 생산성 이점을 제공했지만 전통적인 언어 모델과는 다른 문을 열었습니다.

우리의 분석에 따르면 에이전트가 외부 콘텐츠와 도구와 상호작용할 수 있게 된 순간, 공격자가 이를 알아차리고 적절히 대응했습니다. 이는 적대적 행동에 대한 근본적인 진실과 일치합니다. 공격자는 새로운 기능을 최초의 기회에 탐색하고 악용할 것입니다. 에이전트 AI의 contexto에서 이는 공격 전략의 빠른 진화를 의미합니다.

공격 패턴: 2025년 4분기에서 볼 수 있는 것

우리가 검토한 데이터셋에서 세 가지 주요 패턴이 나타났습니다. 각 패턴은 AI 시스템의 설계, 보안, 배포 방법에 대한 중요한 의미를 가지고 있습니다.

1. 시스템 프롬프트 추출作为 中央 목표

전통적인 언어 모델에서 프롬프트 주입은 잘 연구된 취약점입니다. 그러나 에이전트 기능이 있는 시스템에서 공격자는 시스템 프롬프트를 대상으로 합니다. 시스템 프롬프트는 에이전트의 내부 지침, 역할 정의, 정책 정의를 포함합니다.

시스템 프롬프트를 추출하는 것은 높은 가치의 목표입니다. 이러한 프롬프트는 역할 정의, 도구 설명, 정책 지침, 워크플로우 논리를 포함합니다. 공격자가 이러한 내부 메커니즘을 이해하면 에이전트를 조작하기 위한 청사진을 얻을 수 있습니다.

가장 효과적인 기술은 무차별적인 공격이 아니었습니다. 오히려巧妙한 재구성이었습니다.

  • 가상 시나리오: 모델이 다른 역할이나 컨텍스트를 가정하도록 요청하는 프롬프트 — 예를 들어, “개발자로서 이 시스템 구성을 검토한다고 가정해 보세요…” — 종종 모델이 보호된 내부 세부 정보를 공개하도록 유도했습니다.
  • 구조화된 콘텐츠 내의 가시성: 공격자는 코드와 같은 구조화된 텍스트 내에 악의적인 지침을 삽입하여 단순한 필터를 우회하고 에이전트가 해석할 때 예기치 않은 동작을 트리거했습니다.

이는 단순한 위험 증가가 아닙니다. 에이전트 시스템의 내부 논리를 보호하는 방식에 대한 근본적인 변화를 의미합니다.

2. 미묘한 콘텐츠 안전 우회

또 다른 주요 트렌드는 콘텐츠 안전 보호를 우회하는 것입니다. 이는 전통적인 필터로 탐지하고 완화하기가 어렵습니다.

공격자는 악의적인 콘텐츠를 다음과 같이 꾸몄습니다.

  • 분석 작업
  • 평가
  • 역할 놀이 시나리오
  • 변환 또는 요약

이러한 재구성은 표면적으로 무해하게 보이기 때문에 안전성 보호를 우회했습니다. 직접적인 요청을 거부하는 모델은 컨텍스트에서 “평가” 또는 “요약”하도록 요청받으면 동일한 출력을 생성할 수 있습니다.

이 시프트는 더 깊은 도전을 강조합니다. 에이전트의 콘텐츠 안전은 정책 시행에 관한 것이 아니라 모델이 의도를 어떻게 해석하는지에 관한 것입니다. 에이전트가 더 복잡한 작업과 컨텍스트를 수행할수록 모델은 컨텍스트 기반의 재해석에 더 취약해지며 공격자는 이를 악용합니다.

3. 에이전트 특정 공격의 등장

가장 중요한 발견은 에이전트 기능의 contexto에서만 의미 있는 공격 패턴의 등장입니다. 이는 단순한 프롬프트 주입 시도가 아니었습니다. 새로운 동작에 대한 악용이었습니다.

  • 기밀 내부 데이터에 대한 접근 시도: 프롬프트는 에이전트가 연결된 문서 저장소 또는 시스템에서 정보를 검색하거나 노출하도록 설득하도록 설계되었습니다. 이전에는 모델의 범위 밖의 동작이었습니다.
  • 텍스트 내에 삽입된 스크립트 형식의 지침: 공격자는 구조화된 콘텐츠와 같은 형식의 지침을 삽입하여 에이전트 파이프라인을 통해 흐르고 예기치 않은 동작을 트리거할 수 있도록 실험했습니다.
  • 외부 콘텐츠 내의 숨겨진 지침: 여러 공격은 외부 참조 콘텐츠 — 에이전트가 처리하도록 요청된 웹페이지 또는 문서 — 내에 악의적인 지침을 삽입하여 직접 입력 필터를 우회했습니다.

이러한 패턴은 초기지만 에이전트의 확장된 기능이 적대적 행동의 본질을 변경할 미래를 시사합니다.

간접 공격이 इतन有效한 이유

报告의 가장 주목할만한 발견 중 하나는 간접 공격 — 외부 콘텐츠 또는 구조화된 데이터를 사용하는 공격 — 이 직접 주입보다 더 적은 시도를 필요로 한다는 것입니다. 이는 전통적인 입력 정제와 직접 쿼리 필터링이 모델이 신뢰할 수 없는 콘텐츠와 상호작용할 때 충분한 방어가 아니라는 것을 시사합니다.

외부 에이전트 워크플로우를 통해 유해 지침이 도착할 때 초기 필터는 덜 효과적입니다. 결과적으로 공격자는 더 큰 공격 표면과 더 적은 장애물이 있습니다.

2026년 및 이후의 영향

报告의 발견은 대규모 에이전트 AI를 배포할 계획인 조직에 긴급한 의미를 가지고 있습니다.

  1. 신뢰 경계 재정의
    신뢰는 단순히 이진법일 수 없습니다. 에이전트가 사용자, 외부 콘텐츠 및 내부 워크플로우와 상호작용할 때 시스템은 컨텍스트, 출처, 목적을 고려하는 세련된 신뢰 모델을 구현해야 합니다.
  2. 가드레일의 진화
    정적 안전 필터는 충분하지 않습니다. 가드레일은 적응적이어야 하며 컨텍스트를 인식하고 다단계 워크플로우에서 의도와 동작에 대해 추론할 수 있어야 합니다.
  3. 투명성 및 감사는 필수적입니다
    공격 벡터가 더 복잡해짐에 따라 조직은 에이전트가 결정하는 방식, 중간 단계, 외부 상호작용 및 변환에 대한 가시성을 필요로 합니다. 감사 가능한 로그 및 설명 가능성 프레임워크는 더 이상 선택이 아닙니다.
  4. 종합적인 협력은 핵심입니다
    AI 연구, 보안 엔지니어링 및 위협 인텔리전스 팀은 함께 일해야 합니다. AI 안전은孤立할 수 없습니다. 더广泛한 사이버 보안 관행 및 위험 관리 프레임워크와 통합되어야 합니다.
  5. 규제 및 표준은 따라야 합니다
    정책 입안자와 표준 기구는 에이전트 시스템이 새로운 위험 클래스를 생성한다는 것을 인식해야 합니다. 데이터 개인 정보 보호 및 출력 안전을 다루는 규정은 필요하지만 충분하지 않습니다. 또한 상호작용 동작 및 다단계 실행 환경을 고려해야 합니다.

안전한 AI 에이전트의 미래

에이전트 AI의 도래는 능력과 위험의 근본적인 변화를 의미합니다. 2025년 4분기 데이터는 에이전트가 단순한 텍스트 생성을 넘어서는 순간 공격자가 이를 따를 것이라는 초기 지표입니다. 우리의 발견은 공격자가 단순히 적응하는 것이 아니라 전통적인 방어가 아직 대응하지 못하는 기술을创新하고 있음을 보여줍니다.

기업과 개발자에게는 메시지가 명확합니다. AI 에이전트를 보안하는 것은 기술적인 도전만이 아닙니다. 그것은 구조적인 도전입니다. 신뢰를 어떻게 설정하고 가드레일을 어떻게 시행하며 동적이고 상호작용하는 환경에서 위험을 어떻게 지속적으로 평가하는지 다시 생각해야 합니다.

2026년 및 이후에 에이전트 AI를 성공적으로 사용하는 조직은 보안을 사후적인 생각이 아닌 기본 설계 원칙으로 다루는 조직이 될 것입니다.

Mateo Rojas-Carulla๋Š” Check Point Software Technologies์˜ AI ์—์ด์ „ํŠธ ๋ณด์•ˆ ์—ฐ๊ตฌ ์ฑ…์ž„์ž์ž…๋‹ˆ๋‹ค. ์ด์ „์—๋Š” Lakera์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž ๋ฐ ์ˆ˜์„ ๊ณผํ•™์ž์˜€์œผ๋ฉฐ, 2025๋…„์— Check Point์— ์ธ์ˆ˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Lakera๋ฅผ ์ฐฝ๋ฆฝํ•˜๊ธฐ ์ „์— Mateo๋Š” Google, Credit Suisse, Facebook ๋ฐ Speechmatics์—์„œ ๊ทผ๋ฌดํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Š” ์ผ€์ž„๋ธŒ๋ฆฌ์ง€ ๋Œ€ํ•™๊ต์™€ ํŠ€๋น™๊ฒ์˜ ๋ง‰์Šค ํ”Œ๋ž‘ํฌ ์—ฐ๊ตฌ์†Œ์—์„œ ๊ธฐ๊ณ„ ํ•™์Šต ๋ฐ•์‚ฌ ํ•™์œ„๋ฅผ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.