Artificial Intelligence

AIOS: Операционная система для агентов LLM

опубликованный

2 недели назад

25 апреля 2024

AIOS: Операционная система для агентов LLM

За последние шесть десятилетий операционные системы постепенно развивались, переходя от базовых систем к сложным и интерактивным операционным системам, на которых работают современные устройства. Первоначально операционные системы служили мостом между двоичными функциями компьютерного оборудования, такими как управление воротами, и задачами пользовательского уровня. Однако с течением времени они превратились из простых систем пакетной обработки заданий в более сложные методы управления процессами, включая многозадачность и разделение времени. Эти достижения позволили современным операционным системам управлять широким спектром сложных задач. Внедрение графических пользовательских интерфейсов (GUI), таких как Windows и MacOS, сделало современные операционные системы более удобными и интерактивными, а также расширило экосистему ОС за счет библиотек времени выполнения и комплексного набора инструментов разработчика.

Последние инновации включают интеграцию и развертывание Большие языковые модели (LLM), которые произвели революцию в различных отраслях, открыв новые возможности. Совсем недавно интеллектуальные агенты на основе LLM продемонстрировали замечательные возможности, достигая человеческого уровня производительности при выполнении широкого спектра задач. Однако эти агенты все еще находятся на ранних стадиях разработки, и современные методы сталкиваются с рядом проблем, которые влияют на их эффективность и результативность. Общие проблемы включают неоптимальное планирование запросов агента в рамках большой языковой модели, сложности интеграции агентов с разными специализациями и поддержание контекста во время взаимодействия между LLM и агентом. Быстрое развитие и возрастающая сложность агентов на основе LLM часто приводят к узким местам и неоптимальному использованию ресурсов.

Чтобы решить эти проблемы, в этой статье будет обсуждаться AIOS, операционная система агента LLM, предназначенная для интеграции больших языковых моделей в качестве «мозга» операционной системы, фактически придающая ей «душу». В частности, платформа AIOS призвана облегчить переключение контекста между агентами, оптимизировать распределение ресурсов, предоставить инструментальные сервисы для агентов, поддерживать контроль доступа и обеспечить одновременное выполнение агентов. Мы углубимся в структуру AIOS, изучим ее механизмы, методологию и архитектуру, а также сравним ее с современными платформами. Давайте погрузимся.

После достижения выдающихся успехов в больших языковых моделях следующим направлением деятельности индустрии искусственного интеллекта и машинного обучения является разработка автономных агентов искусственного интеллекта, которые могут работать независимо, принимать решения самостоятельно и выполнять задачи с минимальным вмешательством человека или без него. Эти интеллектуальные агенты на основе искусственного интеллекта предназначены для понимания человеческих инструкций, обработки информации, принятия решений и принятия соответствующих мер для достижения автономного состояния, а появление и развитие больших языковых моделей открывает новые возможности для разработки этих автономных агентов. Текущие структуры LLM, включая DALL-E, GPT и другие, продемонстрировали замечательные способности понимать человеческие инструкции, способности рассуждать и решать проблемы, а также взаимодействовать с пользователями-людьми наряду с внешней средой. Созданные на основе этих мощных и функциональных больших языковых моделей, агенты на основе LLM обладают сильными способностями выполнения задач в различных средах, начиная от виртуальных помощников и заканчивая более сложными и изощренными системами, включающими создание решения проблем, рассуждение, планирование и исполнение.

На приведенном выше рисунке показан убедительный пример того, как автономный агент на основе LLM может решать реальные задачи. Пользователь запрашивает у системы информацию о поездке, после чего турагент разбивает задачу на выполняемые шаги. Затем агент выполняет последовательные шаги: бронирует авиабилеты, бронирует отели, обрабатывает платежи и многое другое. При выполнении шагов эти агенты отличаются от традиционных программных приложений способностью агентов демонстрировать возможности принятия решений и включать рассуждения при выполнении шагов. Наряду с экспоненциальным ростом качества этих автономные агенты, нагрузка на функциональные возможности больших языковых моделей и операционных систем возросла, и примером того же является то, что приоритизация и планирование запросов агента в ограниченных больших языковых моделях представляет собой серьезную проблему. Кроме того, поскольку процесс генерации больших языковых моделей становится трудоемкой задачей при работе с длинными контекстами, планировщик может приостановить результирующую генерацию, что поднимает проблему разработки механизма для моментального снимка текущего результата генерации языковой модели. . В результате этого поведение паузы/возобновления включается, когда модель большого языка не завершила генерацию ответа для текущего запроса.

Для решения упомянутых выше проблем AIOS, операционная система с большой языковой моделью, обеспечивает агрегацию и изоляцию модулей функций LLM и ОС. Платформа AIOS предлагает конструкцию ядра, специфичную для LLM, в попытке избежать потенциальных конфликтов, возникающих между задачами, связанными и не связанными с большой языковой моделью. Предлагаемое ядро разделяет операционную систему, например, обязанности, особенно те, которые контролируют агентов LLM, наборы инструментов разработки и соответствующие им ресурсы. В результате этой сегрегации ядро LLM пытается улучшить координацию и управление деятельностью, связанной с LLM.

AIOS: Методология и архитектура

Как вы можете заметить, в работе платформы AIOS задействованы шесть основных механизмов.

Планировщик агентов: задача, возложенная на планировщик агента, состоит в планировании и определении приоритетности запросов агента в попытке оптимизировать использование большой языковой модели.

Менеджер контекста: Задача, возложенная на контекстный менеджер, — поддержка снимков наряду с восстановлением статуса промежуточной генерации в большой языковой модели и управление контекстными окнами большой языковой модели.

Диспетчер памяти: Основная обязанность диспетчера памяти — обеспечить кратковременную память для журнала взаимодействия каждого агента.

Storage Manager: Менеджер хранилища отвечает за сохранение журналов взаимодействия агентов в долгосрочном хранилище для последующего извлечения.

Диспетчер инструментов: механизм менеджера инструментов управляет вызовом агентов к внешним инструментам API.

Диспетчер доступа: Менеджер доступа обеспечивает соблюдение политик конфиденциальности и контроля доступа между агентами.

В дополнение к вышеупомянутым механизмам, платформа AIOS имеет многоуровневую архитектуру и разделена на три отдельных уровня: уровень приложения, уровень ядра и аппаратный уровень. Многоуровневая архитектура, реализованная в среде AIOS, обеспечивает равномерное распределение обязанностей по системе, а более высокие уровни абстрагируют сложности нижних уровней, позволяя взаимодействовать с использованием определенных модулей или интерфейсов, повышая модульность и упрощая системное взаимодействие между слои.

Начиная с уровня приложений, этот уровень используется для разработки и развертывания агентов приложений, таких как математические или туристические агенты. На уровне приложений платформа AIOS предоставляет комплект разработки программного обеспечения AIOS (AIOS SDK) с более высокой абстракцией системных вызовов, что упрощает процесс разработки для разработчиков агентов. Комплект разработки программного обеспечения, предлагаемый AIOS, предлагает богатый набор инструментов для облегчения разработки приложений-агентов за счет абстрагирования сложностей системных функций нижнего уровня, что позволяет разработчикам сосредоточиться на функциональности и основной логике своих агентов, что приводит к более эффективной разработке. процесс.

Двигаясь дальше, уровень ядра делится на два компонента: ядро LLM и ядро ОС. И ядро ОС, и ядро LLM удовлетворяют уникальным требованиям операций, специфичных для LLM, и операций, не связанных с LLM, при этом различие позволяет ядру LLM сосредоточиться на задачах, специфичных для большой языковой модели, включая планирование агентов и управление контекстом, действия, которые необходимы для обработки действий. связанные с большими языковыми моделями. Платформа AIOS концентрируется в первую очередь на расширении ядра большой языковой модели без существенного изменения структуры существующего ядра ОС. Ядро LLM оснащено несколькими ключевыми модулями, включая планировщик агентов, менеджер памяти, менеджер контекста, менеджер хранения, менеджер доступа, менеджер инструментов и интерфейс системных вызовов LLM. Компоненты уровня ядра разработаны с учетом разнообразных потребностей выполнения. агентских приложений, обеспечивая эффективное выполнение и управление в рамках AIOS.

Наконец, у нас есть аппаратный уровень, который включает в себя физические компоненты системы, включая графический процессор, процессор, периферийные устройства, диск и память. Важно понимать, что система ядер LLM не может напрямую взаимодействовать с оборудованием, и эти вызовы взаимодействуют с системными вызовами операционной системы, которые, в свою очередь, управляют аппаратными ресурсами. Это непрямое взаимодействие между системой LLM karnel и аппаратными ресурсами создает уровень безопасности и абстракции, позволяя ядру LLM использовать возможности аппаратных ресурсов, не требуя прямого управления оборудованием, что облегчает поддержание целостности и эффективности системы. .

Реализация

Как упоминалось выше, в работе структуры AIOS задействованы шесть основных механизмов. Планировщик агента спроектирован таким образом, чтобы он мог эффективно управлять запросами агента, и имеет несколько этапов выполнения, в отличие от традиционной парадигмы последовательного выполнения, в которой агент обрабатывает задачи линейным образом с шагами из одного и того же процесса. агент обрабатывается первым, прежде чем перейти к следующему агенту, что приводит к увеличению времени ожидания для задач, появляющихся позже в последовательности выполнения. Планировщик агентов использует такие стратегии, как Round Robin, First In First Out и другие алгоритмы планирования для оптимизации процесса.

Менеджер контекста был разработан таким образом, что он отвечает за управление контекстом, предоставляемым большой языковой модели, и за процесс генерации с учетом определенного контекста. Менеджер контекста включает в себя два важнейших компонента: снимок и восстановление контекста, а также управление контекстными окнами. Механизм моментального снимка контекста и восстановления, предлагаемый платформой AIOS, помогает смягчить ситуации, когда планировщик приостанавливает запросы агента, как показано на следующем рисунке.

Как показано на следующем рисунке, диспетчер памяти несет ответственность за управление кратковременной памятью в течение жизненного цикла агента и обеспечивает сохранение и доступность данных только тогда, когда агент активен, либо во время выполнения, либо когда агент ожидает. для выполнения.

С другой стороны, менеджер хранилища отвечает за сохранение данных в долгосрочной перспективе и контролирует хранение информации, которую необходимо хранить в течение неопределенного периода времени, сверх срока службы отдельного агента. Платформа AISO обеспечивает постоянное хранение с использованием различных надежных носителей, включая облачные решения, базы данных и локальные файлы, обеспечивая доступность и целостность данных. Кроме того, в структуре AISO именно менеджер инструментов управляет разнообразным набором инструментов API, которые расширяют функциональность больших языковых моделей, а в следующей таблице показано, как менеджер инструментов интегрирует часто используемые инструменты из различных ресурсов и классифицирует их. на разные категории.

Менеджер доступа организует операции контроля доступа в рамках отдельных агенты путем администрирования выделенной группы привилегий для каждого агента и запрещает агенту доступ к его ресурсам, если они исключены из группы привилегий агента. Кроме того, менеджер доступа также отвечает за составление и ведение журналов аудита, что еще больше повышает прозрачность системы.

AIOS: эксперименты и результаты

Оценка структуры AIOS основывается на двух исследовательских вопросах: во-первых, как эффективность планирования AIOS сокращает время ожидания баланса и время обработки, и, во-вторых, является ли ответ LLM на запросы агентов последовательным после приостановки работы агента?

Чтобы ответить на вопросы согласованности, разработчики запускают каждый из трех агентов индивидуально, а затем запускают эти агенты параллельно и пытаются записать их выходные данные на каждом этапе. Как показано в следующей таблице, оценки BERT и BLEU достигают значения 1.0, что указывает на идеальное соответствие между результатами, генерируемыми в одноагентных и многоагентных конфигурациях.

Чтобы ответить на вопросы эффективности, разработчики проводят сравнительный анализ платформы AIOS, использующей планирование FIFO или «первым пришел — первым обслужен», и неплановым подходом, при котором агенты работают одновременно. В незапланированном режиме агенты выполняются в предопределенном последовательном порядке: математический агент, агент повествования и агент записи. Для оценки временной эффективности платформа AIOS использует две метрики: время ожидания и время обработки, а поскольку агенты отправляют несколько запросов к большой языковой модели, время ожидания и время обработки для отдельных агентов рассчитываются как среднее значение время ожидания и время выполнения всех запросов. Как показано в следующей таблице, неплановый подход обеспечивает удовлетворительную производительность для агентов, находящихся на ранних этапах последовательности, но страдает от длительного ожидания и времени обработки для агентов, находящихся на более поздних стадиях последовательности. С другой стороны, подход к планированию, реализованный в системе AIOS, эффективно регулирует как время ожидания, так и время обработки.

Заключение

В этой статье мы говорили об AIOS, операционной системе агента LLM, которая разработана с целью встроить в ОС большие языковые модели в качестве мозга ОС, что позволяет создать операционную систему с душой. Если быть более конкретным, платформа AIOS разработана с намерением облегчить переключение контекста между агентами, оптимизировать распределение ресурсов, предоставить инструментальные услуги для агентов, поддерживать контроль доступа для агентов и обеспечить возможность одновременного выполнения агентов. Архитектура AISO демонстрирует потенциал для облегчения разработки и развертывания автономные агенты на основе большой языковой модели, что приводит к созданию более эффективной, сплоченной и действенной экосистемы агентов AIOS.

Snowflake Arctic: передовая программа LLM для корпоративного искусственного интеллекта

Не пропустите

Может ли искусственный интеллект сделать страхование более доступным?

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.