Искусственный интеллект

AIOS: Операционная система для агентов LLM

Published April 25, 2024

Updated April 4, 2026

Kunal Kejriwal

За последние шесть десятилетий операционные системы эволюционировали прогрессивно, развиваясь от базовых систем до сложных и интерактивных операционных систем, которые управляют устройствами сегодня. Первоначально операционные системы служили мостом между бинарной функциональностью компьютерного оборудования, такой как манипуляция воротами, и задачами пользователя. Однако за годы они развились от простых систем обработки пакетных заданий до более сложных методов управления процессами, включая многозадачность и разделение времени. Эти достижения позволили современным операционным системам управлять широким спектром сложных задач. Введение графических интерфейсов пользователя (GUI), таких как Windows и MacOS, сделало современные операционные системы более удобными и интерактивными, а также расширило экосистему ОС за счет runtime-библиотек и комплекса инструментов для разработчиков.

Недавние инновации включают интеграцию и развертывание больших языковых моделей (LLM), которые революционизировали различные отрасли, открывая новые возможности. Более недавно LLM-основанные интеллектуальные агенты показали замечательные способности, достигая человеческого уровня производительности на широком спектре задач. Однако эти агенты все еще находятся на ранних стадиях разработки, и текущие методы сталкиваются с несколькими проблемами, которые влияют на их эффективность и результативность. Общие проблемы включают субоптимальное планирование запросов агентов на большой языковой модели, сложности интеграции агентов с разными специализациями и поддержание контекста во время взаимодействия между LLM и агентом. Быстрая разработка и растущая сложность LLM-основанных агентов часто приводят к узким местам и субоптимальному использованию ресурсов.

Чтобы решить эти проблемы, эта статья будет обсуждать AIOS, операционную систему агентов LLM, предназначенную для интеграции больших языковых моделей как “мозга” операционной системы, эффективно давая ей “душу”. Конкретно,框架 AIOS направлен на облегчение переключения контекста между агентами, оптимизацию распределения ресурсов, предоставление сервисов инструментов для агентов, поддержание контроля доступа и обеспечение параллельного выполнения агентов. Мы глубоко рассмотрим框架 AIOS, изучая его механизмы, методологию и архитектуру, и сравним его с передовыми框ами. Давайте погрузимся.

После достижения замечательного успеха в больших языковых моделях, следующим направлением отрасли ИИ и МО является разработка автономных ИИ-агентов, которые могут работать самостоятельно, принимать решения самостоятельно и выполнять задачи с минимальным или отсутствием человеческого вмешательства. Эти ИИ-основанные интеллектуальные агенты предназначены для понимания человеческих инструкций, обработки информации, принятия решений и выполнения соответствующих действий для достижения автономного состояния, с появлением и развитием больших языковых моделей, открывающих новые возможности для разработки этих автономных агентов. Текущие框ы LLM, включая DALL-E, GPT и другие, показали замечательные способности понимать человеческие инструкции, рассуждения и решение проблем, а также взаимодействие с человеческими пользователями и внешними средами. Построенные на основе этих мощных и способных больших языковых моделей, LLM-основанные агенты имеют сильные способности выполнения задач в различных средах, от виртуальных помощников до более сложных и изощренных систем, включающих создание решения проблем, рассуждения, планирование и выполнение.

Вышеуказанная фигура дает убедительный пример того, как LLM-основанный автономный агент может решать реальные задачи. Пользователь запрашивает систему для получения информации о поездке, после чего агент разбивает задачу на выполнимые шаги. Затем агент выполняет шаги последовательно, бронирование рейсов, резервирование отелей, обработку платежей и многое другое. При выполнении шагов то, что отличает этих агентов от традиционных программных приложений, является способностью агентов демонстрировать способности принятия решений и включать рассуждения в выполнении шагов. Вместе с экспоненциальным ростом качества этих автономных агентов, нагрузка на функциональность больших языковых моделей и операционных систем увеличилась, и примером этого является то, что приоритизация и планирование запросов агентов в ограниченных больших языковых моделях представляет значительную проблему. Кроме того, поскольку процесс генерации больших языковых моделей становится трудоемкой задачей при работе с длинными контекстами, возможно, что планировщик приостановит результирующую генерацию, что создает проблему разработки механизма для сохранения текущего результата генерации языковой модели. В результате этого, поведение паузы/возобновления включается, когда большая языковая модель не завершила генерацию ответа для текущего запроса.

Чтобы решить вышеуказанные проблемы, AIOS, операционная система больших языковых моделей, обеспечивает агрегацию и модульную изоляцию функций LLM и ОС. Фреймворк AIOS предлагает специфичный для LLM дизайн ядра в попытке избежать потенциальных конфликтов, возникающих между задачами, связанными и не связанными с большой языковой моделью. Предлагаемый ядро разделяет обязанности, подобные операционной системе, особенно те, которые контролируют агенты LLM, наборы инструментов для разработки и соответствующие ресурсы. В результате этого разделения ядро LLM пытается улучшить координацию и управление деятельностью, связанной с LLM.

AIOS: Методология и архитектура

Как вы можете наблюдать, существует шесть основных механизмов, участвующих в работе фреймворка AIOS.

Планировщик агентов: Задача, назначенная планировщику агентов, заключается в планировании и приоритизации запросов агентов в попытке оптимизировать использование большой языковой модели.

Менеджер контекста: Задача, назначенная менеджеру контекста, заключается в поддержке снимков и восстановления промежуточного статуса генерации в большой языковой модели, а также управления контекстным окном большой языковой модели.

Менеджер памяти: Основная ответственность менеджера памяти заключается в предоставлении краткосрочной памяти для журнала взаимодействия каждого агента.

Менеджер хранилища: Менеджер хранилища отвечает за сохранение журналов взаимодействия агентов в долгосрочное хранилище для будущего извлечения.

Менеджер инструментов: Механизм менеджера инструментов управляет вызовом агентов внешних инструментов API.

Менеджер доступа: Менеджер доступа обеспечивает соблюдение политики доступа и контроля между агентами.

Помимо вышеуказанных механизмов, фреймворк AIOS имеет слоистую архитектуру и разделен на три различных слоя: слой приложения, слой ядра и слой аппаратуры. Слоистая архитектура, реализованная фреймворком AIOS, гарантирует, что обязанности распределяются равномерно по системе, и более высокие слои абстрагируют сложности слоев ниже них, позволяя взаимодействовать с помощью конкретных модулей или интерфейсов, улучшая модульность и упрощая системные взаимодействия между слоями.

Начиная со слоя приложения, этот слой используется для разработки и развертывания агентов-приложений, таких как математические или туристические агенты. В слое приложения фреймворк AIOS предоставляет набор разработки программного обеспечения AIOS (AIOS SDK) с более высоким уровнем абстракции системных вызовов, который упрощает процесс разработки для разработчиков агентов. Набор разработки программного обеспечения, предлагаемый AIOS, предлагает богатый инструментарий для облегчения разработки агентских приложений, абстрагируя сложности более низкоуровневых системных функций, позволяя разработчикам сосредоточиться на функциях и основной логике своих агентов, что приводит к более эффективному процессу разработки.

Переходя к слою ядра, он разделен на два компонента: ядро LLM и ядро ОС. Оба ядра ОС и ядра LLM служат уникальным требованиям операций, специфичных для LLM, и не связанных с LLM, с отличием, позволяющим ядру LLM сосредоточиться на задачах, специфичных для большой языковой модели, включая планирование агентов и управление контекстом, деятельности, которая необходима для обработки деятельности, связанной с большой языковой моделью. Фреймворк AIOS концентрируется в основном на улучшении ядра большой языковой модели без значительных изменений структуры существующего ядра ОС. Ядро LLM оснащено несколькими ключевыми модулями, включая планировщик агентов, менеджер памяти, менеджер контекста, менеджер хранилища, менеджер доступа, менеджер инструментов и интерфейс системных вызовов LLM. Компоненты внутри слоя ядра предназначены для решения различных потребностей выполнения агентских приложений, гарантируя эффективное выполнение и управление внутри фреймворка AIOS.

Наконец, у нас есть слой аппаратуры, который включает физические компоненты системы, включая GPU, CPU, периферийные устройства, диск и память. Необходимо понять, что система ядер LLM не может взаимодействовать с аппаратурой напрямую, и эти вызовы взаимодействуют с системными вызовами операционной системы, которые, в свою очередь, управляют аппаратными ресурсами. Это косвенное взаимодействие между системой LLM и аппаратными ресурсами создает слой безопасности и абстракции, позволяя ядру LLM использовать возможности аппаратных ресурсов без необходимости управления аппаратурой напрямую, что облегчает поддержание целостности и эффективности системы.

Реализация

Как упоминалось выше, существует шесть основных механизмов, участвующих в работе фреймворка AIOS. Планировщик агентов разработан так, чтобы он мог управлять запросами агентов эффективно, и имеет несколько шагов выполнения, в отличие от традиционной последовательной парадигмы выполнения, в которой агент обрабатывает задачи линейно, с шагами из одного и того же агента, обрабатываемыми первыми, прежде чем перейти к следующему агенту, что приводит к увеличению времени ожидания задач, появляющихся позже в последовательности выполнения. Планировщик агентов использует стратегии, такие как Round Robin, First In First Out и другие алгоритмы планирования, для оптимизации процесса.

Менеджер контекста разработан так, чтобы он был ответственным за управление контекстом, предоставленным большой языковой модели, и процессом генерации, учитывая определенный контекст. Менеджер контекста включает два важных компонента: снимок контекста и восстановление, и управление контекстным окном. Механизм снимка и восстановления контекста, предлагаемый фреймворком AIOS, помогает смягчить ситуации, когда планировщик приостановит запросы агентов, как показано на следующей фигуре.

Как показано на следующей фигуре, это ответственность менеджера памяти управлять краткосрочной памятью в течение жизненного цикла агента и гарантирует, что данные хранятся и доступны только тогда, когда агент активен, либо во время выполнения, либо когда агент ожидает выполнения.

С другой стороны, менеджер хранилища отвечает за сохранение данных в долгосрочной перспективе и контролирует хранение информации, которая должна быть сохранена на неопределенный период времени, за пределами срока жизни отдельного агента. Фреймворк AIOS достигает постоянного хранения, используя различные прочные носители, включая облачные решения, базы данных и локальные файлы, гарантируя доступность и целостность данных. Кроме того, в фреймворке AIOS это менеджер инструментов, который управляет разнообразным набором инструментов API, которые улучшают функциональность больших языковых моделей, и следующая таблица суммирует, как менеджер инструментов интегрирует часто используемые инструменты из различных ресурсов и классифицирует их в различные категории.

Менеджер доступа организует операции контроля доступа внутри отдельных агентов путем администрирования выделенной группы привилегий для каждого агента и отказывает агенту в доступе к его ресурсам, если они исключены из группы привилегий агента. Кроме того, менеджер доступа также отвечает за компиляцию и поддержание аудиторских журналов, что еще больше повышает прозрачность системы.

AIOS: Эксперименты и результаты

Оценка фреймворка AIOS руководствуется двумя исследовательскими вопросами: первым, какова производительность планирования AIOS в улучшении баланса ожидания и времени выполнения, и вторым, являются ли ответы LLM на запросы агентов последовательными после приостановки агента?

Чтобы ответить на вопрос о последовательности, разработчики запускают каждый из трех агентов индивидуально, а затем выполняют эти агенты параллельно, и пытаются захватить их вывод во время каждой стадии. Как показано в следующей таблице, баллы BERT и BLEU достигают значения 1,0, что указывает на идеальное совпадение между выводами, сгенерированными в конфигурациях с одним агентом и несколькими агентами.

Чтобы ответить на вопрос об эффективности, разработчики проводят сравнительный анализ между фреймворком AIOS, использующим планирование FIFO или First In First Out, и не запланированным подходом, в котором агенты выполняются параллельно. В не запланированном подходе агенты выполняются в предопределенном последовательном порядке: математический агент, агент-рассказчик и агент-рекордер. Чтобы оценить временную эффективность, фреймворк AIOS использует два метрики: время ожидания и время выполнения, и поскольку агенты отправляют несколько запросов большой языковой модели, время ожидания и время выполнения для отдельных агентов рассчитываются как среднее значение времени ожидания и времени выполнения для всех запросов. Как показано в следующей таблице, не запланированный подход демонстрирует удовлетворительную производительность для агентов, находящихся в начале последовательности, но страдает от длительного времени ожидания и времени выполнения для агентов, находящихся позже в последовательности. С другой стороны, подход планирования, реализованный фреймворком AIOS, регулирует как время ожидания, так и время выполнения эффективно.

Заключительные мысли

В этой статье мы говорили об AIOS, операционной системе агентов LLM, предназначенной для встраивания больших языковых моделей в ОС как “мозга” ОС, давая ей “душу”. Чтобы быть более конкретным, фреймворк AIOS предназначен для облегчения переключения контекста между агентами, оптимизации распределения ресурсов, предоставления сервисов инструментов для агентов, поддержания контроля доступа для агентов и обеспечения параллельного выполнения агентов. Архитектура AIOS демонстрирует потенциал для облегчения разработки и развертывания больших языковых моделей на основе автономных агентов, что приводит к более эффективной, сплоченной и эффективной экосистеме AIOS-агентов.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.