인공 지능

AIOS: LLM 에이전트용 운영 체제

게재

1 주 전

2024 년 4 월 25 일

지난 60년 동안 운영 체제는 기본 시스템에서 오늘날의 장치를 구동하는 복잡하고 대화형 운영 체제로 발전하면서 점진적으로 발전해 왔습니다. 처음에 운영 체제는 게이트 조작과 같은 컴퓨터 하드웨어의 바이너리 기능과 사용자 수준 작업 간의 브리지 역할을 했습니다. 그러나 수년에 걸쳐 단순한 일괄 작업 처리 시스템에서 멀티태스킹 및 시간 공유를 포함한 보다 정교한 프로세스 관리 기술로 발전했습니다. 이러한 발전으로 인해 최신 운영 체제는 다양하고 복잡한 작업을 관리할 수 있게 되었습니다. Windows 및 MacOS와 같은 그래픽 사용자 인터페이스(GUI)의 도입으로 최신 운영 체제는 더욱 사용자 친화적이고 대화형이 되었으며, 런타임 라이브러리와 포괄적인 개발자 도구 제품군을 통해 OS 생태계도 확장되었습니다.

최근 혁신에는 통합 및 배포가 포함됩니다. 대규모 언어 모델 (LLM)은 새로운 가능성을 열어 다양한 산업에 혁명을 일으켰습니다. 최근에는 LLM 기반 지능형 에이전트가 광범위한 작업에서 인간과 유사한 성능을 달성하는 놀라운 기능을 보여주었습니다. 그러나 이러한 제제는 아직 개발 초기 단계에 있으며 현재 기술은 효율성과 효과에 영향을 미치는 몇 가지 과제에 직면해 있습니다. 일반적인 문제에는 대규모 언어 모델에 대한 상담원 요청의 차선책 일정, 다양한 전문 분야의 상담원 통합의 복잡성, LLM과 상담원 간의 상호 작용 중 컨텍스트 유지 등이 포함됩니다. LLM 기반 에이전트의 급속한 개발과 복잡성 증가로 인해 병목 현상이 발생하고 리소스 사용이 최적화되지 않는 경우가 많습니다.

이러한 문제를 해결하기 위해 이 기사에서는 대규모 언어 모델을 운영 체제의 '두뇌'로 통합하여 효과적으로 '영혼'을 제공하도록 설계된 LLM 에이전트 운영 체제인 AIOS에 대해 설명합니다. 특히, AIOS 프레임워크는 에이전트 간 컨텍스트 전환을 촉진하고, 리소스 할당을 최적화하고, 에이전트를 위한 도구 서비스를 제공하고, 액세스 제어를 유지하고, 에이전트의 동시 실행을 활성화하는 것을 목표로 합니다. 우리는 AIOS 프레임워크를 깊이 파고들어 그 메커니즘, 방법론 및 아키텍처를 탐구하고 이를 최신 프레임워크와 비교할 것입니다. 뛰어 들어 봅시다.

대규모 언어 모델에서 눈에 띄는 성공을 거둔 AI 및 ML 산업의 다음 초점은 독립적으로 작동하고 스스로 결정을 내리며 인간 개입을 최소화하거나 전혀 사용하지 않고 작업을 수행할 수 있는 자율 AI 에이전트를 개발하는 것입니다. 이러한 AI 기반 지능형 에이전트는 인간의 지시를 이해하고, 정보를 처리하고, 결정을 내리고, 자율 상태를 달성하기 위해 적절한 조치를 취하도록 설계되었으며, 대규모 언어 모델의 출현 및 개발은 이러한 자율 에이전트 개발에 새로운 가능성을 가져옵니다. DALL-E, GPT 등을 포함한 현재 LLM 프레임워크는 인간의 지시, 추론 및 문제 해결 능력을 이해하고 외부 환경과 함께 인간 사용자와 상호 작용하는 놀라운 능력을 보여주었습니다. 이러한 강력하고 유능한 대규모 언어 모델을 기반으로 구축된 LLM 기반 에이전트는 가상 비서부터 문제 해결, 추론, 계획 및 실행 생성과 관련된 보다 복잡하고 정교한 시스템에 이르기까지 다양한 환경에서 강력한 작업 수행 능력을 갖추고 있습니다.

위 그림은 LLM 기반 자율 에이전트가 실제 작업을 어떻게 해결할 수 있는지에 대한 강력한 예를 제공합니다. 사용자가 시스템에 여행 정보를 요청하면 여행사는 작업을 실행 가능한 단계로 분류합니다. 그런 다음 에이전트는 항공편 예약, 호텔 예약, 결제 처리 등의 단계를 순차적으로 수행합니다. 단계를 실행하는 동안 이러한 에이전트를 기존 소프트웨어 애플리케이션과 차별화하는 점은 에이전트가 의사 결정 기능을 보여주고 단계 실행에 추론을 통합하는 능력입니다. 이러한 품질의 기하급수적인 증가와 함께 자율 에이전트, 대규모 언어 모델 및 운영 체제의 기능에 대한 부담이 증가하는 것을 목격했으며, 동일한 예는 제한된 대규모 언어 모델에서 에이전트 요청의 우선 순위를 지정하고 예약하는 것이 중요한 문제를 야기한다는 것입니다. 또한, 긴 컨텍스트를 처리할 때 대규모 언어 모델의 생성 프로세스는 시간이 많이 걸리는 작업이 되므로 스케줄러가 결과 생성을 일시 중지할 수 있으므로 언어 모델의 현재 생성 결과를 스냅샷하는 메커니즘을 고안하는 문제가 발생합니다. . 결과적으로 대규모 언어 모델이 현재 요청에 대한 응답 생성을 완료하지 않은 경우 일시 중지/재개 동작이 활성화됩니다.

위에서 언급한 문제를 해결하기 위해 대규모 언어 모델 운영 체제인 AIOS는 LLM 및 OS 기능의 집계 및 모듈 격리를 제공합니다. AIOS 프레임워크는 대규모 언어 모델과 관련된 작업과 관련되지 않은 작업 간에 발생하는 잠재적인 충돌을 피하기 위한 시도로 LLM 관련 커널 디자인을 제안합니다. 제안된 커널은 업무와 같은 운영 체제, 특히 LLM 에이전트, 개발 툴킷 및 해당 리소스를 감독하는 업무를 분리합니다. 이러한 분리의 결과로 LLM 커널은 LLM과 관련된 활동의 조정 및 관리를 향상시키려고 시도합니다.

AIOS: 방법론 및 아키텍처

보시다시피 AIOS 프레임워크의 작동에는 6가지 주요 메커니즘이 있습니다.

에이전트 스케줄러: 에이전트 스케줄러에 할당된 작업은 대규모 언어 모델의 활용을 최적화하기 위해 에이전트 요청을 예약하고 우선 순위를 지정하는 것입니다.

컨텍스트 관리자: 컨텍스트 관리자에게 할당된 업무는 대형 언어 모델의 중간 생성 상태 복원, 대형 언어 모델의 컨텍스트 창 관리와 함께 스냅샷을 지원하는 것입니다.

메모리 관리자: 메모리 관리자의 주요 임무는 각 에이전트의 상호작용 로그에 단기 메모리를 제공하는 것입니다.

스토리지 관리자: 저장소 관리자는 향후 검색을 위해 에이전트의 상호 작용 로그를 장기 저장소에 유지하는 역할을 담당합니다.

도구 관리자: 도구 관리자 메커니즘은 외부 API 도구에 대한 에이전트 호출을 관리합니다.

액세스 관리자: 액세스 관리자는 에이전트 간 개인 정보 보호 및 액세스 제어 정책을 시행합니다.

위에서 언급한 메커니즘 외에도 AIOS 프레임워크는 계층화된 아키텍처를 특징으로 하며 애플리케이션 계층, 커널 계층 및 하드웨어 계층의 세 가지 개별 계층으로 나뉩니다. AIOS 프레임워크에 의해 구현된 계층형 아키텍처는 책임이 시스템 전체에 균등하게 분산되도록 보장하고, 상위 계층은 그 아래 계층의 복잡성을 추상화하여 특정 모듈이나 인터페이스를 사용한 상호 작용을 허용하고, 모듈성을 강화하며, 시스템 간 시스템 상호 작용을 단순화합니다. 레이어.

애플리케이션 계층부터 시작하여 이 계층은 수학이나 여행사와 같은 애플리케이션 에이전트를 개발하고 배포하는 데 사용됩니다. 애플리케이션 계층에서 AIOS 프레임워크는 에이전트 개발자의 개발 프로세스를 단순화하는 시스템 호출의 더 높은 추상화를 갖춘 AIOS 소프트웨어 개발 키트(AIOS SDK)를 제공합니다. AIOS가 제공하는 소프트웨어 개발 키트는 하위 수준 시스템 기능의 복잡성을 추상화하여 에이전트 애플리케이션 개발을 촉진하는 풍부한 툴킷을 제공하므로 개발자는 에이전트의 기능과 필수 로직에 집중할 수 있어 보다 효율적인 개발이 가능합니다. 프로세스.

계속해서 커널 계층은 LLM 커널과 OS 커널이라는 두 가지 구성 요소로 더 나뉩니다. OS 커널과 LLM 커널은 모두 LLM 관련 작업과 비 LLM 작업의 고유한 요구 사항을 충족하며, 차이점을 통해 LLM 커널은 에이전트 예약 및 컨텍스트 관리, 활동 처리에 필수적인 활동을 비롯한 대규모 언어 모델 특정 작업에 집중할 수 있습니다. 대규모 언어 모델과 관련이 있습니다. AIOS 프레임워크는 기존 OS 커널의 구조를 크게 변경하지 않고 대규모 언어 모델 커널을 향상시키는 데 주로 중점을 둡니다. LLM 커널에는 에이전트 스케줄러, 메모리 관리자, 컨텍스트 관리자, 저장소 관리자, 액세스 관리자, 도구 관리자 및 LLM 시스템 호출 인터페이스를 포함한 여러 주요 모듈이 장착되어 있습니다. 커널 계층 내의 구성 요소는 다양한 실행 요구 사항을 해결하기 위해 설계되었습니다. AIOS 프레임워크 내에서 효과적인 실행 및 관리를 보장하는 에이전트 애플리케이션입니다.

마지막으로 GPU, CPU, 주변 장치, 디스크 및 메모리를 포함한 시스템의 물리적 구성 요소로 구성된 하드웨어 계층이 있습니다. LLM 커널 시스템은 하드웨어와 직접 상호 작용할 수 없으며 이러한 호출은 하드웨어 리소스를 관리하는 운영 체제의 시스템 호출과 상호 작용한다는 점을 이해하는 것이 중요합니다. LLM 커널 시스템과 하드웨어 리소스 간의 이러한 간접적인 상호 작용은 보안 및 추상화 계층을 생성하여 LLM 커널이 하드웨어를 직접 관리하지 않고도 하드웨어 리소스의 기능을 활용할 수 있도록 하여 시스템의 무결성 및 효율성 유지를 용이하게 합니다. .

실시

위에서 언급했듯이 AIOS 프레임워크의 작동에는 6가지 주요 메커니즘이 있습니다. 에이전트 스케줄러는 에이전트 요청을 효율적으로 관리할 수 있도록 설계되었으며, 에이전트가 동일한 단계로 작업을 선형 방식으로 처리하는 전통적인 순차 실행 패러다임과 달리 여러 실행 단계를 갖습니다. 에이전트는 다음 에이전트로 이동하기 전에 먼저 처리되므로 실행 순서에서 나중에 나타나는 작업에 대한 대기 시간이 늘어납니다. 에이전트 스케줄러는 Round Robin, First In First Out 및 기타 스케줄링 알고리즘과 같은 전략을 사용하여 프로세스를 최적화합니다.

컨텍스트 관리자는 대규모 언어 모델에 제공되는 컨텍스트와 특정 컨텍스트에 따른 생성 프로세스를 관리하는 방식으로 설계되었습니다. 컨텍스트 관리자에는 컨텍스트 스냅샷 및 복원, 컨텍스트 창 관리라는 두 가지 중요한 구성 요소가 포함됩니다. AIOS 프레임워크에서 제공하는 컨텍스트 스냅샷 및 복원 메커니즘은 다음 그림에 표시된 대로 스케줄러가 에이전트 요청을 일시 중지하는 상황을 완화하는 데 도움이 됩니다.

다음 그림에서 볼 수 있듯이 에이전트 수명 주기 내에서 단기 메모리를 관리하는 것은 메모리 관리자의 책임이며, 에이전트가 활성 상태일 때, 즉 런타임 중이거나 에이전트가 대기 중일 때만 데이터가 저장되고 액세스 가능하도록 보장합니다. 실행을 위해.

반면, 스토리지 관리자는 데이터를 장기적으로 보존하는 역할을 담당하며, 개별 에이전트의 활동 수명을 넘어 무기한 보관해야 하는 정보의 저장을 감독합니다. AISO 프레임워크는 클라우드 기반 솔루션, 데이터베이스, 로컬 파일 등 내구성이 뛰어난 다양한 매체를 사용하여 영구 스토리지를 구현하여 데이터 가용성과 무결성을 보장합니다. 또한 AISO 프레임워크에서는 대규모 언어 모델의 기능을 향상시키는 다양한 API 도구를 관리하는 도구 관리자이며, 다음 표는 도구 관리자가 다양한 리소스에서 일반적으로 사용되는 도구를 통합하고 분류하는 방법을 요약한 것입니다. 다른 카테고리로.

액세스 관리자는 고유한 내에서 액세스 제어 작업을 구성합니다. 자치령 대표 각 에이전트에 대한 전용 권한 그룹을 관리하고 에이전트의 권한 그룹에서 제외된 경우 해당 리소스에 대한 에이전트 액세스를 거부합니다. 또한 액세스 관리자는 시스템의 투명성을 더욱 향상시키는 감사 로그를 컴파일하고 유지 관리할 책임도 있습니다.

AIOS: 실험 및 결과

AIOS 프레임워크의 평가는 두 가지 연구 질문에 따라 진행됩니다. 첫째, 잔액 대기 및 처리 시간을 개선하는 데 있어 AIOS 스케줄링의 성능은 어떻습니까, 둘째, 에이전트 요청에 대한 LLM의 응답이 에이전트 일시 중단 후 일관성이 있는지 여부입니다.

일관성 질문에 대답하기 위해 개발자는 세 가지 에이전트를 각각 개별적으로 실행한 후 이러한 에이전트를 병렬로 실행하고 각 단계에서 출력을 캡처하려고 시도합니다. 다음 표에서 볼 수 있듯이 BERT 및 BLEU 점수는 1.0 값을 달성합니다. 이는 단일 에이전트 구성과 다중 에이전트 구성에서 생성된 출력 간의 완벽한 정렬을 나타냅니다.

효율성 질문에 답하기 위해 개발자는 FIFO 또는 선입선출 스케줄링을 사용하는 AIOS 프레임워크와 에이전트가 동시에 실행되는 비예약 접근 방식 간의 비교 분석을 수행합니다. 예약되지 않은 설정에서는 에이전트가 미리 정의된 순차적인 순서(수학 에이전트, 내레이션 에이전트, 녹음 에이전트)로 실행됩니다. 시간적 효율성을 평가하기 위해 AIOS 프레임워크는 대기 시간과 처리 시간이라는 두 가지 지표를 사용하며 에이전트가 대규모 언어 모델에 여러 요청을 보내기 때문에 개별 에이전트의 대기 시간과 처리 시간은 평균으로 계산됩니다. 모든 요청에 대한 대기 시간 및 처리 시간. 다음 표에서 볼 수 있듯이 예약되지 않은 접근 방식은 시퀀스 초기에 에이전트에 대해 만족스러운 성능을 표시하지만 시퀀스 후반에 에이전트에 대한 대기 시간 및 처리 시간이 길어지는 문제가 있습니다. 반면, AIOS 프레임워크에 의해 구현된 스케줄링 접근 방식은 대기 시간과 처리 시간을 모두 효과적으로 조절합니다.

최종 생각

이 기사에서 우리는 OS의 두뇌로서 대규모 언어 모델을 OS에 내장하여 영혼이 있는 운영 체제를 가능하게 하려는 시도로 설계된 LLM 에이전트 운영 체제인 AIOS에 대해 이야기했습니다. 보다 구체적으로 AIOS 프레임워크는 에이전트 간 컨텍스트 전환을 용이하게 하고, 리소스 할당을 최적화하고, 에이전트에 대한 도구 서비스를 제공하고, 에이전트에 대한 액세스 제어를 유지하고, 에이전트의 동시 실행을 가능하게 하려는 의도로 설계되었습니다. AISO 아키텍처는 다음의 개발과 배포를 촉진할 수 있는 잠재력을 보여줍니다. 대규모 언어 모델 기반 자율 에이전트, 결과적으로 더욱 효과적이고 응집력 있으며 효율적인 AIOS-Agent 생태계가 탄생했습니다.