Connect with us

사상 리더

AI 애플리케이션을 위한 가드레일 재고하기

mm

AI 애플리케이션이 단순한 채팅봇을 넘어 사용자의 대리인으로 행동할 수 있는 에이전트 시스템으로 발전함에 따라, 위험은 기하급수적으로 증가한다. 에이전트 애플리케이션은 도구를 통해 행동을 취할 수 있으며, 이는 공격자가 사용자 애플리케이션과 데이터의 상태를 변경할 수 있는 새로운 위협 벡터를 열어준다.

전통적인 가드레일과 보안 모델은 좁고 잘 정의된 위협에 대해 설계되었지만, 현대적인 공격 기술의 다양성과 창의성에 대응하기에는 어려움이 있다. 이러한 새로운 현실은 패러다임의 전환을 요구한다. 즉, AI를 사용하여 AI를 방어하는 것이다. 이는 적응性과 확장성이 있는 보안을 가능하게 하며, 오늘날의 적들의 지능과 예측 불가능성을 따라갈 수 있다.

확장된 위험 이해

AI는 모든 소프트웨어 계층으로 퍼져나가고 있다. 즉, CRM에서 달력, 이메일, 워크플로우, 브라우저 등 모든 곳에 지능을 집어넣고 있다. 대화형 어시스턴트로 시작된 것이 이제 독립적인 행동을 취할 수 있는 자율 에이전트로 발전하고 있다.

예를 들어, OpenAI의 새로운 “에이전트”는 인터넷을 검색하거나 온라인에서 작업을 실행할 수 있다. 이러한 기능은 엄청난 생산성을解放하지만,同時에 방대한 미탐색 공격 표면도 노출한다. 데이터 유출 이상으로 행동 조작, 모델 회피 및 프롬프트 주입 공격과 같은 위협이 동적으로 진화하며, 모델의 논리보다 인프라를 대상으로 한다.

기업에서는 이로 인해 보안이 AI 자체와 같은 속도로 발전해야 함을 의미한다. 기술 및 보안 리더들의 도전은 혁신을 방해하지 않으면서도 이를 보호하는 방법을 찾는 것이다. 이는 오래전부터 보안과 AI 개발 팀 사이에 존재해 온 긴장이다.

전통적인 가드레일의 한계

대부분의 현재 AI 보안 도구는 여전히 특정 유형의 공격을 인식하도록 설계된 정적, 협소하게 훈련된 기계 학습 모델에 의존한다. 각 새로운 회피 또는 프롬프트 주입 방법은 종종 모델의 재훈련 또는 재배치를 요구한다. 이러한 반응적인 접근 방식은 악의적인 행위자가 예측 가능한 방식으로 행동할 것이라고 가정한다. 그러나 실제로는 공격자가 AI를 사용하여 적응性, 창의성, 빠른 속도의 위협을 생성하며, 전통적인 방어 수단은 이를 예측할 수 없다.

thậm chí 최신 가드레일도 범위와 기능이 제한적이며, 훈련된 시나리오 내에서만 효과적이다. 구식 패러다임은 새로운 공격 기술마다 별도의 모델을 훈련해야 하는데, 이는 취약하고 지속 불가능한 접근 방식이다. 또한 AI 팀과 보안 팀 사이에 문화적 단절이 존재한다. AI 개발자는 보안을 발전을 방해하는 것으로 간주하는 반면, 보안 팀은 실패의 책임을 진다. 이러한 협력의 부족으로 많은 조직이 설계적으로 취약해졌다. 필요한 것은 AI 생명주기와無마찰로 통합되는 방어 수단이다.

패러다임의 전환: AI를 사용하여 AI를 방어하다

이러한 도전을 극복하기 위해 새로운 보안 패러다임이 등장하고 있다. 즉, 악의적인 AI를 공격하고 자신의 AI를 방어하는 AI를 사용하는 것이다. 정적인 규칙이나 수동으로 작성된 시그니처에 의존하는 대신, 이 접근 방식은 대규모 언어 모델(LLM)의 생성 및 분석 능력을 활용하여 AI 시스템을 프로브하고 보호한다.

  • AI 기반 적대적 테스팅: LLM은 모델 회피, 프롬프트 주입, 에이전트 오용과 같은 다양한 적대적 행동을 시뮬레이션할 수 있다. “unaligned” 또는 “rogue” 모델을 사용하여 твор적으로 애플리케이션을 테스트함으로써, 조직은 공격자가 이를 악용하기 전에 취약성을 보다 풍부하고 실제적인 이해를 얻을 수 있다.
  • 연속적, 적응적 방어: 동일한 AI 시스템을 각 공격에서 배우고 자동으로 방어를 강화하도록 훈련할 수 있다. 수백 개의 협소하게 범위가 정의된 모델을 관리하는 대신, 조직은 다양한 위협을 인식하고 적응하면서 일관된 지연과 성능을 유지하는 단일, 확장 가능한 방어 계층을 배포할 수 있다.

이것은 수동적, 특정 시점의 테스팅에서 살아있는 가드레일로의 근본적인 전환을 의미한다. 살아있는 가드레일은 시스템이 발전함에 따라 함께 진화한다.

자율 방어 생태계 구축

AI를 사용하여 AI를 방어하는 것은 단순히 탐지를 개선하는 것이 아니라, 전체 방어姿勢를 변환한다. 적절하게 통합된 이러한 시스템은:

  • 여러 공격 유형에 걸쳐 보호를 쉽게 확장할 수 있다.
  • 생산에서 새로운 위협을遭遇함에 따라 지속적으로 개선된다.
  • AI와 보안 팀 사이의 간격을 메우며, 혁신을 방해하지 않는 오버사이트를 가능하게 한다.
  • 디지털 환경에서 자율적으로 행동하는 에이전트의 행동으로 인해 발생하는 복잡한 위험 표면에 대한 가시성을 제공한다.

목표는 공격者の 생각을 이해하고, 그들의 동작을 예측하며, 그들과 같은 속도로 발전하는 보안 시스템을 구축하는 것이다.

적응적 사고의 필요성

산업은 중요한 전환점에 있다. 2023-2024年的초기 호재 이후, 많은 기업의 AI 이니셔티브는 생산성 문제로 인해停滞했다. 이는 잠재력이 부족해서가 아니라, 인프라와 보안 패러다임이 따라가지 못해서였다. 현재 AI가 중요한 워크플로에 통합됨에 따라, 보안이 설계되지 않은 경우의 결과는 더욱 커질 것이다.

조직은 지속적으로 다른 AI 시스템을 모니터링, 테스팅, 강화하는 AI 시스템을 포함하는 적응적 보안 사고 방식을 채택해야 한다. 이는 처음부터 지능형 가드레일을 통합하는 것을 의미한다. 소프트웨어가 기본적으로 AI 기반으로 설계되지 않았다는 것은 어리석은 생각이며, AI가 기본적으로 보안이 되지 않는다는 것은 위험하다.

살아있는 AI 가드레일

AI는 소프트웨어의 새로운 기초이며, 모든 기초와 마찬가지로, 그 강도는 얼마나 잘 스트레스를 견딜 수 있는지에 달려 있다. 정적인 방어 수단은 이 순간을 충족할 수 없다. 보안의 다음 시대는 자신이 직면하는 위협의 속도, 창의성, 규모를 따라갈 수 있는 자가 학습 시스템(AI가 AI를 방어함)으로 구성될 것이다. 우리는 AI가 자신을 보호하는 방법을 가르침으로써 미래를 보장할 수 있다.

Girish Chandrasekar는 Straiker의 제품 책임자로, 회사를 0에서 1로 성장시키는 것을 도와줍니다. 그는 이전에 Robust Intelligence (acq. Cisco)의 제품 팀에서 일했으며, 그 이전에는 Postmates와 JPMorgan Asset Management의 머신 러닝 팀에서 기술적인 역할을 맡았습니다.