인공지능

의도에서 실행까지: Microsoft가 대규모 언어 모델을 행동 지향형 AI로 변환하는 방법

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

대규모 언어 모델(Large Language Models, LLMs)은 자연어 처리를 다루는 방식을 바꾸었다.它们는 질문에 대답하고, 코드를 작성하고, 대화를 나눌 수 있다. 그러나 실제 작업에 관해서는 부족하다. 예를 들어, LLM은 자켓을 구매하는 방법을 안내할 수 있지만 직접 주문할 수는 없다. 생각과 행동 사이의 이 간격은 주요한 제한이다. 사람들은 단순히 정보를 필요로 하는 것이 아니라 결과를 원한다.

이 간격을 메우기 위해 Microsoft는 LLMs를 행동 지향형 AI 에이전트로 변환하고 있다. 계획을 세우고, 작업을 분해하고, 실제 상호작용에 참여할 수 있도록 해줌으로써, LLMs가 실제 작업을 효과적으로 관리할 수 있도록 해준다. 이 변환은 LLMs가 할 수 있는 것을 재정의할 수 있으며, 복잡한 워크플로를 자동화하고 일상적인 작업을 단순화하는 도구로 변환할 수 있다. 이를 가능하게 하는 데 필요한 것과 Microsoft가 이 문제에 접근하는 방법을 살펴보자.

LLMs가 행동하기 위해 필요한 것

LLMs가 실제 세계에서 작업을 수행하려면 텍스트를 이해하는 것을 넘어서야 한다. 디지털 및 물리적 환경과 함께 변경되는 조건에 적응해야 한다. 필요한 기능은 다음과 같다:

사용자 의도 이해

효과적으로 행동하려면 LLMs는 사용자 요청을 이해해야 한다. 텍스트 또는 음성 명령과 같은 입력은 종종 모호하거나 불완전하다. 시스템은 지식과 요청의 contexto를 사용하여 간격을 메워야 한다. 다단계 대화는 의도를 정제하는 데 도움이 되며, 행동을 취하기 전에 AI가 이해하는 것을 보장한다.

의도를 행동으로 전환

작업을 이해한 후, LLMs는 이를 행동할 수 있는 단계로 전환해야 한다. 이는 버튼을 클릭하거나 API를 호출하거나 물리적 장치를 제어하는 것을 포함할 수 있다. LLMs는 작업에 맞게 행동을 수정해야 하며, 환경에 적응하고 문제가 발생할 때 해결策을 찾아야 한다.

변화에 적응

실제 작업은 항상 계획대로 진행되지 않는다. LLMs는 문제를 예측하고, 단계를 조정하고, 문제가 발생할 때 대안을 찾아야 한다. 예를 들어, 필요한 리소스가 사용할 수 없으면 시스템은 작업을 완료하는 다른 방법을 찾아야 한다. 이 유연성은 프로세스가 변경될 때 중단되지 않도록 보장한다.

특정 작업에 대한 전문성

LLMs는 일반적으로 사용되도록 설계되었지만, 전문성이 더 효율적으로 만든다. 특정 작업에 집중함으로써, 이러한 시스템은 더 나은 결과를 제공할 수 있으며, 더少한 리소스를 사용할 수 있다. 이는 컴퓨팅 파워가 제한된 장치(예: 스마트폰 또는 내장 시스템)에서 특히 중요하다.

이러한 기능을 개발함으로써, LLMs는 단순히 정보를 처리하는 것을 넘어서서의 의미 있는 행동을 취할 수 있다. 이는 AI가 일상적인 워크플로에無缝하게 통합되는 길을 열어준다.

Microsoft가 LLMs를 변환하는 방법

Microsoft의 행동 지향형 AI 생성 접근법은 구조화된 프로세스를 따른다. 주요 목표는 LLMs가 명령을 이해하고, 효과적으로 계획하고, 행동할 수 있도록 하는 것이다. 다음과 같이 진행된다:

1단계: 데이터 수집 및 준비

첫 번째 단계에서, Microsoft는 UFO 에이전트(아래에서 설명함)와 같은 특정 사용 사례에 관련된 데이터를 수집했다. 데이터에는 사용자 쿼리, 환경 세부 정보 및 작업별 동작이 포함된다. 이 단계에서 수집되는 두 가지 유형의 데이터는 다음과 같다. 첫째, LLMs가 작업을 완료하는 데 필요한 고수준 단계를 개요하는 작업 계획 데이터가 포함된다. 예를 들어, “Word에서 글꼴 크기 변경”은 텍스트를 선택하고 툴바 설정을 조정하는 단계를 포함할 수 있다. 둘째, 이러한 단계를 구체적인 지침으로 번역할 수 있는 작업 동작 데이터가 포함된다. 예를 들어, 특정 버튼을 클릭하거나 키보드 단축키를 사용하는 것과 같다.

이 조합은 모델이 큰 그림과 세부 지침을 모두 제공하여 작업을 효과적으로 수행할 수 있도록 한다.

2단계: 모델 훈련

데이터가 수집되면, LLMs는 여러 훈련 세션을 통해 세분화된다. 첫 번째 단계에서, LLMs는 작업 계획을 위해 훈련된다. 즉, 사용자 요청을 행동할 수 있는 단계로 분해하는 방법을 가르친다. 전문가가 레이블을 붙인 데이터를 사용하여 이러한 계획을 구체적인 동작으로 번역하는 방법을 가르친다. 문제 해결 능력을 더욱 강화하기 위해, LLMs는 자기 강화 탐색 프로세스에 참여하여 해결되지 않은 작업에 대처하고 지속적인 학습을 위해 새로운 예제를 생성할 수 있다. 마지막으로, 강화 학습을 적용하여 성공과 실패의 피드백을 사용하여 의사 결정 능력을 더욱 향상시킨다.

3단계: 오프라인 테스트

훈련을 완료한 후, 모델은 제어된 환경에서 테스트되어 안정성을 보장한다. 작업 성공률(TSR) 및 단계 성공률(SSR)과 같은 메트릭을 사용하여 성능을 측정한다. 예를 들어, 일정 관리 에이전트를 테스트하는 경우에는 오류 없이 회의를 예약하고 초대장을 보낼 수 있는지 확인한다.

4단계: 실제 시스템 통합

검증된 모델은 에이전트 프레임워크에 통합된다. 이를 통해 실제 환경(예: 버튼 클릭, 메뉴 탐색)과 상호작용할 수 있다. UI 자동화 API와 같은 도구를 사용하여 시스템은 사용자 인터페이스 요소를 동적으로 식별하고 조작할 수 있다.

예를 들어, 워드에서 텍스트를 강조 표시하는 작업을 맡길 경우, 에이전트는 강조 표시 버튼을 식별하고, 텍스트를 선택하고, 서식을 적용한다. 메모리 구성 요소를 사용하여 LLM이 과거의 동작을 추적할 수 있도록 하여 새로운 시나리오에 적응할 수 있다.

5단계: 실제 테스트

마지막 단계는 온라인 평가이다. 여기서 시스템은 실제 시나리오에서 테스트되어 예상치 못한 변경이나 오류를 처리할 수 있는지 확인한다. 예를 들어, 고객 지원 봇이 사용자를 비밀번호 재설정으로 안내하거나, 잘못된 입력이나 누락된 정보에 대한 대응과 같은 실제 사용 사례에서 테스트할 수 있다. 이 테스트는 AI가 강력하고 일상적인 사용에 준비가 되었는지 확인한다.

실제 예: UFO 에이전트

행동 지향형 AI가 작동하는 방식을展示하기 위해, Microsoft는 UFO 에이전트를 개발했다. 이 시스템은 Windows 환경에서 실제 작업을 실행하도록 설계되었으며, 사용자 요청을 완료된 동작으로 전환한다.

UFO 에이전트의 핵심은 LLM을 사용하여 요청을 해석하고 계획을 수립하는 것이다. 예를 들어, 사용자가 “이 문서에서 ‘중요’라는 단어를 강조 표시하세요”라고 요청하면, 에이전트는 워드에서 작업을 완료한다. UI 요소(예: 버튼, 메뉴)의 위치와 같은 컨텍스트 정보를 수집하여 계획과 동작을 수립한다.

UFO 에이전트는 Windows UI 자동화(UIA) API와 같은 도구를 사용한다. 이 API는 응용 프로그램을 제어 요소(예: 버튼, 메뉴)로 스캔한다. “문서를 PDF로 저장”과 같은 작업의 경우, 에이전트는 UIA를 사용하여 “파일” 버튼을 식별하고, “다른 이름으로 저장” 옵션을 찾고, 필요한 단계를 수행한다. 데이터를 일관되게 구조화함으로써, 시스템은 훈련에서 실제 적용까지 원활한 작동을 보장한다.

도전 과제 극복

이것은 흥미로운 발전이지만, 행동 지향형 AI를 생성하는 것은 도전 과제를 수반한다. 확장성은 주요 문제이다. 다양한 작업에 걸쳐 모델을 훈련하고 배포하는 것은 상당한 리소스를 필요로 한다. 안전성과 신뢰성을 보장하는 것도同等히 중요하다. 모델은 의도하지 않은 결과 없이 작업을 수행해야 하며, 특히 민감한 환경에서는 더욱 중요하다. 또한 이러한 시스템이 개인 데이터와 상호작용하므로, 개인 정보 보호와 보안에 관한 윤리 기준을 유지하는 것도 중요하다.

Microsoft의 로드맵은 효율성을 개선하고, 사용 사례를 확장하며, 윤리 기준을 유지하는 데 중점을 두고 있다. 이러한 발전으로, LLMs는 세계와 상호작용하는 AI의 방식을 재정의할 수 있으며, 더 실제적이고, 적응 가능하며, 행동 지향형으로 만들 수 있다.

AI의 미래

LLMs를 행동 지향형 에이전트로 변환하는 것은 게임 체인저가 될 수 있다. 이러한 시스템은 작업을 자동화하고, 워크플로를 단순화하며, 기술을 더 접근하기 쉽게 만들 수 있다. Microsoft의 행동 지향형 AI와 UFO 에이전트와 같은 도구에 대한 작업은 시작에 불과하다. AI가 계속 발전함에 따라, 더 지능적이고, 능력 있는 시스템을 기대할 수 있으며, 단순히 우리와 상호작용하는 것이 아니라, 작업을 수행한다.

Dr. Tehseen Zia

Dr. Tehseen Zia는 COMSATS University Islamabad의 정교수이며, 오스트리아 비엔나 기술대학교에서 인공지능 박사학위를 취득했습니다. 인공지능, 기계학습, 데이터 과학, 컴퓨터 비전을 전문으로 하며, 유명한 과학 저널에 발표된 논문으로 знач적인 기여를 했습니다. Dr. Tehseen은 주요 연구자로서 다양한 산업 프로젝트를 이끌었으며, 인공지능 컨설턴트로도 활동했습니다.