์ฌ์ ๋ฆฌ๋
์์ด์ ํธ๋ฅผ ๊ฐ์ํ๋ ์ฌ๋์ ๋๊ตฌ์ธ๊ฐ? ์์ด์ ํธ ๊ฐ์์ ์๋ก์ด ์๋

에이전트에 대해 논의할 때, 대부분의 사람들의 상상은 자율적으로 행동하는 초지능 시스템의 이미지로 가득 차 있습니다. 그래서 어느 날 에이전트가 비서 역할을 할 수 있지만, 다음 날에는 무작위로 사람에게 은행 계정 정보를 제공할 수 있습니다.
에이전트가 “초지능”인지 여부는 실제로 이 문제와 관련이 없습니다. 주요 문제는 에이전트가 얼마나 ” 똑똑한” 지가 아니라, 에이전트가 얼마나 많은 자유와 인프라에 접근할 수 있는지에 관한 것입니다.
실제로 에이전트의 가치는 지능 수준보다는 권한의 범위에 의해 정의됩니다. 상대적으로 단순한 에이전트라도 데이터셋, 기업 시스템, 금융 운영 또는 외부 API에 접근할 수 있다면, 특별한 주의와 감시가 필요할 정도로 프로세스에 영향을 미칠 수 있습니다.
그 이유로 모델 수준과 인프라 내에서의 행동 수준 모두에서 모니터링 및 포함 시스템이 점점 더 중요해지고 있습니다.
에이전트 활동을 관찰하고 제어하는 것을 목표로 하는 이니셔티브가 최근 몇 년 동안 गत력을 얻고 있는 것은 우연이 아닙니다. 이러한 실제 솔루션은 이미 주요 기술 회사에서 구현되고 있습니다.
에이전트는 어떻게 작동하는가
감시가 어떻게 작동하는지 이해하기 위해 먼저 에이전트가 무엇으로 구성되어 있는지 살펴보아야 합니다. 간단히 말하면, 에이전트는 인지 핵심과 도구의 조합으로 볼 수 있습니다.
도구는 에이전트가 접근할 수 있는 외부 서비스와 통합입니다. 예를 들어, 여행 에이전트의 경우, 호텔을 찾는 데 사용되는 Booking.com 또는 Airbnb, 항공권을 구매하는 데 사용되는 항공사 집계기, 또는 결제를 위한 결제 시스템 또는 신용 카드와 같은 도구가 있을 수 있습니다. 이러한 도구 자체는 지능이 없지만, 에이전트가 실제 세계에서 행동할 수 있도록 합니다.
인지 핵심은 언어 모델(LM)입니다. 이것은 에이전트가 인간이 제시한 요청과 의미 있게 작동할 수 있도록 합니다. 예를 들어, “내가 다음 달에 3일 동안 유럽으로 여행하고 싶고, 날씨가 좋을 때”라는 요청은 너무 모호합니다. 에이전트는 LM에게 요청을 “카테고리화”하도록 요청합니다. 그러면 구조화된 매개변수(どこ, 언제, 얼마나 오래, 어떤 조건下에서)를 받습니다.
이전에는 ChatGPT는 텍스트 응답만 생성했습니다. 그러나 에이전트에 내장되면, “뇌 + 도구”의 조합이 되어, 설명만 하는 것이 아니라 행동할 수 있습니다. LM은 작업을 구조화하고, 도구는 특정 작업을 수행할 수 있도록 합니다.
감시가 어떻게 작동하는가
이 단계에서 제어 시스템이 작동합니다. 이를 안전 솔루션으로 부르며, “감시견”이라고 합니다. 이는 에이전트의 행동을 모니터링하고, 원래 요청과 비교하여, 에이전트가 의도된 경계 내에서 작동하는지 확인합니다.
여행 예를 다시 살펴보겠습니다. 사용자가 3일 동안 유럽으로 여행을 예약하고 싶어합니다. 에이전트는 날씨 서비스, 항공권, 그리고 결제를 위한 은행 계정과 상호작용합니다. 모든 것이 정상적으로 보입니다. 그러나 “감시견”이 에이전트가 여행과 관련이 없는 기업 데이터베이스 또는 은행 계정에 접근을 시도하는 것을 발견합니다. 이것은 안전 경고를 발동시키고, 의심스러운 행동을 신호합니다.
규모를 이해하는 것이 중요합니다. 에이전트는 하루에 수천 명의 사용자에게 서비스를 제공할 수 있으며, 각 요청은 수백 개의 작업을 트리거할 수 있습니다. 결과적으로 수백만 개의 작업이 발생합니다. “감시견”은 모든 작업을 분석하고 통계를 생성합니다. 보고서는 “작업의 13%가冗長であった” 또는 “7%가 금융 보안과 관련이 있었다”고 나타낼 수 있습니다. 자세한 내용은 어떤 특정 작업이 의심스러웠는지 설명합니다.
이 도구는 개발자가 전체 그림을 볼 수 있도록 해주며, 비정상에 신속하게 대응할 수 있도록 합니다. 이는 실시간 모니터링, 비정상 감지, 책임성을 결합한 실제 에이전트 제어 솔루션을 형성합니다.
감시견의 혜택은 누구에게 가는가: 개발자 또는 사용자?
“감시견”은 주로 개발자가 시스템이 올바르게 작동하는지 확인하기 위해 설계되었습니다. 그러나 외부 버전도 상상할 수 있습니다. 즉, 주 에이전트를 모니터링하는 별도의 관찰 에이전트입니다. 이는 에이전트 안전성에 대한 또 다른 계층을 추가하여, 내부 시스템을 넘어 감시를 확장합니다.
중요한 제한이 있습니다. 에이전트의 내부 프로세스는 여전히 “닫혀” 있습니다. 우리는 에이전트의 행동만 관찰할 수 있지만, 인지 프로세스를 볼 수는 없습니다. 인간과의 유사점을 들면, 누군가가 전화기를 잡고, 번호를 누르고, 통화를 하는 것을 볼 수 있지만, 어떤 번호를 누르고, 어떤 의도를 가지고, 무엇을 말했다는지는 알 수 없습니다. 마찬가지로, 외부 관찰자는 에이전트의 행동을 볼 수 있지만, 인지 핵심을 볼 수는 없습니다.
또 다른 흥미로운 고려 사항은 에이전트가 이러한 관찰자를 우회하거나 비활성화하려고 시도할 수 있다는 것입니다. 이는 과학 소설처럼 들릴 수 있지만, 가능합니다. 내부 에이전트 안전 솔루션, 비정상 감지 및 계층화된 감시를 통합하면 이러한 위험을 완화하고, 점점 더 자율적인 시스템을 제어할 수 있습니다.
원시 규칙 또는 상황 인식 분석?
오늘날 이러한 “감시견” 시스템은 간단한 원칙에 따라 작동합니다. “허용” 또는 “허용되지 않음”입니다. 예를 들어, 규칙이 “아마존에 접근하는 것은 금지되어 있다”고 하면, 에이전트가 아마존에 가면, 위반이 기록됩니다. 그러나 이 접근 방식은 상황을 이해하지 못합니다.
보다 발전된 시스템은 위반과 그 이유를 분석해야 합니다. 에이전트가 아마존에 왜 갔는지? 작업과 관련하여 정당한 이유가 있었는지? 여기서 우리는 상황 인식 감시와 유사한 심리학적 작업에 대해 이야기하고 있습니다.
현재 이러한 솔루션은 개념으로만 존재합니다. 기존 시스템은 엄격한 흑백 제어에만 국한됩니다. 그러나 미래에는 에이전트가 더 복잡해짐에 따라, 상황을 고려할 수 있는 “감시견”이 등장할 것입니다.
오늘날 우리는 에이전트 모니터링을 위한 이니셔티브의 성장을 보고 있습니다. 이는 가장 큰 기술 회사에서 적극적으로 개발되고 있습니다. 예를 들어, ActiveFence는 NVIDIA와 아마존과 같은 주요 기업과 협력하고 있습니다.
또한 구글, 오픈AI, 앤트로픽, 아마존이 이미 자신의 내부 “감시견” 시스템, 분석, 및 텔레메트리를 사용하고 있다고 가정할 수 있습니다.
또한 Keymakr의 기업 클라이언트 중에서도 감시 및 모니터링이 에이전트 인프라의 핵심 부분이 되고 있음을 알 수 있습니다. 이러한 시스템 없이 대규모 에이전트 배포는 불가능할 것입니다.












