Изкуствен интелект

AIOS: Операционна система за LLM агенти

Публикуван

Преди 1 седмица

Април 25, 2024

През последните шест десетилетия операционните системи се развиха прогресивно, преминавайки от основни системи към сложни и интерактивни операционни системи, които захранват днешните устройства. Първоначално операционните системи служеха като мост между бинарната функционалност на компютърния хардуер, като например манипулиране на порта, и задачи на ниво потребител. С течение на годините обаче те се развиха от прости системи за групова обработка на задачи до по-сложни техники за управление на процеси, включително многозадачност и споделяне на време. Тези подобрения позволиха на съвременните операционни системи да управляват широк набор от сложни задачи. Въвеждането на графични потребителски интерфейси (GUI) като Windows и MacOS направи съвременните операционни системи по-лесни за използване и интерактивни, като същевременно разшири екосистемата на OS с библиотеки за изпълнение и изчерпателен пакет от инструменти за разработчици.

Последните иновации включват интегрирането и внедряването на Големи езикови модели (LLM), които революционизираха различни индустрии, като отключиха нови възможности. Съвсем наскоро базираните на LLM интелигентни агенти показаха забележителни способности, постигайки човешка производителност при широк спектър от задачи. Въпреки това, тези агенти са все още в ранен етап на развитие и настоящите техники са изправени пред няколко предизвикателства, които влияят на тяхната ефективност и ефективност. Често срещаните проблеми включват неоптималното планиране на заявките на агенти в големия езиков модел, сложности при интегрирането на агенти с различни специализации и поддържане на контекст по време на взаимодействия между LLM и агента. Бързото развитие и нарастващата сложност на базираните на LLM агенти често водят до затруднения и неоптимално използване на ресурсите.

За да отговори на тези предизвикателства, тази статия ще обсъди AIOS, LLM агентна операционна система, предназначена да интегрира големи езикови модели като „мозък“ на операционната система, като ефективно й придава „душа“. По-конкретно, рамката AIOS има за цел да улесни превключването на контекста между агентите, да оптимизира разпределението на ресурсите, да предостави услуги с инструменти за агенти, да поддържа контрол на достъпа и да даде възможност за едновременно изпълнение на агенти. Ще навлезем дълбоко в рамката на AIOS, изследвайки нейните механизми, методология и архитектура и ще я сравним с най-съвременните рамки. Нека се потопим.

След постигането на забележителен успех в големите езикови модели, следващият фокус на AI и ML индустрията е разработването на автономни AI агенти, които могат да работят независимо, да вземат решения сами и да изпълняват задачи с минимална или никаква човешка намеса. Тези базирани на AI интелигентни агенти са проектирани да разбират човешките инструкции, да обработват информация, да вземат решения и да предприемат подходящи действия за постигане на автономно състояние, с появата и развитието на големи езикови модели, носещи нови възможности за развитието на тези автономни агенти. Настоящите LLM рамки, включително DALL-E, GPT и други, показаха забележителни способности за разбиране на човешки инструкции, способности за разсъждение и решаване на проблеми и взаимодействие с човешки потребители заедно с външни среди. Изградени върху тези мощни и способни големи езикови модели, базираните на LLM агенти имат силни способности за изпълнение на задачи в различни среди, вариращи от виртуални асистенти до по-сложни и усъвършенствани системи, включващи създаване на решаване на проблеми, разсъждения, планиране и изпълнение.

Горната фигура дава убедителен пример за това как автономен агент, базиран на LLM, може да решава задачи от реалния свят. Потребителят изисква от системата информация за пътуването, след което туристическият агент разбива задачата на изпълними стъпки. След това агентът изпълнява стъпките последователно, като резервира полети, резервира хотели, обработва плащания и др. Докато изпълняват стъпките, това, което отличава тези агенти от традиционните софтуерни приложения, е способността на агентите да покажат способности за вземане на решения и да включат разсъждения в изпълнението на стъпките. Заедно с експоненциален ръст в качеството им автономни агенти, напрежението върху функционалностите на големите езикови модели и операционните системи е свидетел на увеличение и пример за същото е, че приоритизирането и планирането на заявки на агенти в ограничени големи езикови модели представлява значително предизвикателство. Освен това, тъй като процесът на генериране на големи езикови модели се превръща в отнемаща време задача, когато се работи с дълги контексти, е възможно планировчикът да спре произтичащото генериране, което поражда проблем с разработването на механизъм за моментна снимка на текущия резултат от генериране на езиковия модел . В резултат на това поведението на пауза/възобновяване е активирано, когато големият езиков модел не е финализирал генерирането на отговор за текущата заявка.

За справяне с предизвикателствата, споменати по-горе, AIOS, операционна система с голям езиков модел, осигурява агрегиране и изолиране на модули на функционалности на LLM и OS. Рамката AIOS предлага специфичен за LLM дизайн на ядрото в опит да се избегнат потенциални конфликти, възникващи между задачи, свързани и несвързани с големия езиков модел. Предложеното ядро разделя задълженията на операционната система, особено тези, които контролират агентите на LLM, комплектите инструменти за разработка и съответните им ресурси. В резултат на това разделение ядрото на LLM се опитва да подобри координацията и управлението на дейностите, свързани с LLM.

AIOS: Методология и архитектура

Както можете да видите, има шест основни механизма, включени в работата на рамката на AIOS.

Планировчик на агенти: Задачата, възложена на планировчика на агенти, е да планира и приоритизира заявките на агенти в опит да оптимизира използването на големия езиков модел.

Мениджър на контекста: Задачата, възложена на контекстния мениджър, е да поддържа моментни снимки заедно с възстановяване на състоянието на междинно генериране в големия езиков модел и управлението на контекстния прозорец на големия езиков модел.

Мениджър на паметта: Основната отговорност на мениджъра на паметта е да осигури краткосрочна памет за регистрационния файл за взаимодействие за всеки агент.

Storage Manager: Мениджърът на хранилището е отговорен за запазването на регистрационните файлове за взаимодействие на агентите в дългосрочно хранилище за бъдещо извличане.

Мениджър на инструменти: Механизмът за управление на инструменти управлява извикването на агенти към външни API инструменти.

Мениджър на достъпа: Мениджърът на достъпа налага политики за поверителност и контрол на достъпа между агентите.

В допълнение към гореспоменатите механизми, рамката на AIOS разполага със слоеста архитектура и е разделена на три отделни слоя: приложен слой, слой на ядрото и хардуерен слой. Многослойната архитектура, реализирана от рамката AIOS, гарантира, че отговорностите са разпределени равномерно в цялата система, а по-високите слоеве абстрахират сложността на слоевете под тях, позволявайки взаимодействия с помощта на специфични модули или интерфейси, подобрявайки модулността и опростявайки системните взаимодействия между слоеве.

Започвайки с приложния слой, този слой се използва за разработване и внедряване на приложни агенти като математически или туристически агенти. В приложния слой рамката на AIOS предоставя комплекта за разработка на софтуер на AIOS (AIOS SDK) с по-висока абстракция на системни извиквания, която опростява процеса на разработка за разработчиците на агенти. Комплектът за разработка на софтуер, предлаган от AIOS, предлага богат набор от инструменти за улесняване на разработката на агентски приложения чрез абстрахиране на сложността на системните функции от по-ниско ниво, което позволява на разработчиците да се съсредоточат върху функционалностите и основната логика на техните агенти, което води до по-ефективно развитие процес.

Продължавайки напред, слоят на ядрото е допълнително разделен на два компонента: ядрото на LLM и ядрото на ОС. Както ядрото на ОС, така и ядрото на LLM обслужват уникалните изисквания на LLM-специфични и не-LLM операции, като разликата позволява на LLM ядрото да се съсредоточи върху специфични задачи за голям езиков модел, включително планиране на агенти и управление на контекста, дейности, които са от съществено значение за обработката на дейности свързани с големи езикови модели. Рамката AIOS се концентрира основно върху подобряването на ядрото на големия езиков модел, без да променя значително структурата на съществуващото ядро на ОС. Ядрото на LLM се предлага оборудвано с няколко ключови модула, включително планировчик на агенти, мениджър на паметта, мениджър на контекст, мениджър на съхранение, мениджър на достъп, мениджър на инструменти и интерфейс за системни повиквания на LLM. Компонентите в слоя на ядрото са проектирани в опит да отговорят на разнообразните нужди за изпълнение на агентски приложения, осигуряващи ефективно изпълнение и управление в рамките на AIOS.

И накрая, имаме хардуерния слой, който включва физическите компоненти на системата, включително GPU, CPU, периферни устройства, диск и памет. Важно е да се разбере, че системата на ядрата на LLM не може да взаимодейства директно с хардуера и тези повиквания взаимодействат със системните повиквания на операционната система, които от своя страна управляват хардуерните ресурси. Това непряко взаимодействие между системата на LLM karnel и хардуерните ресурси създава слой на сигурност и абстракция, позволявайки на LLM ядрото да използва възможностите на хардуерните ресурси, без да изисква директно управление на хардуера, улеснявайки поддържането на целостта и ефективността на системата .

изпълнение

Както бе споменато по-горе, има шест основни механизма, включени в работата на рамката на AIOS. Планировчикът на агенти е проектиран по такъв начин, че да може да управлява заявките на агенти по ефективен начин и има няколко стъпки за изпълнение, противоречащи на традиционната парадигма за последователно изпълнение, при която агентът обработва задачите по линеен начин със стъпките от същия агентът се обработва първо, преди да се премине към следващия агент, което води до увеличени времена на изчакване за задачи, появяващи се по-късно в последователността на изпълнение. Планировчикът на агенти използва стратегии като Round Robin, First In First Out и други алгоритми за планиране, за да оптимизира процеса.

Мениджърът на контекста е проектиран по начин, по който отговаря за управлението на контекста, предоставен на големия езиков модел, и процеса на генериране, предвид определен контекст. Контекстният мениджър включва два ключови компонента: контекстна снимка и възстановяване и управление на контекстни прозорци. Механизмът за моментна снимка и възстановяване на контекста, предлаган от рамката AIOS, помага за смекчаване на ситуации, при които планировчикът спира заявките на агента, както е показано на следващата фигура.

Както е показано на следващата фигура, отговорност на мениджъра на паметта е да управлява краткосрочната памет в рамките на жизнения цикъл на агента и гарантира, че данните се съхраняват и са достъпни само когато агентът е активен, по време на изпълнение или когато агентът чака за изпълнение.

От друга страна, мениджърът за съхранение е отговорен за запазването на данните в дългосрочен план и контролира съхранението на информация, която трябва да се съхранява за неопределен период от време, извън продължителността на дейността на отделен агент. Рамката AISO постига постоянно съхранение, като използва различни трайни носители, включително базирани на облак решения, бази данни и локални файлове, като гарантира наличност и цялост на данните. Освен това в рамките на AISO мениджърът на инструменти е този, който управлява различен набор от API инструменти, които подобряват функционалността на големите езикови модели, а следващата таблица обобщава как мениджърът на инструменти интегрира често използвани инструменти от различни ресурси и ги класифицира в различни категории.

Мениджърът на достъпа организира операциите за контрол на достъпа по различен начин агенти чрез администриране на специална група привилегии за всеки агент и отказва достъп на агент до неговите ресурси, ако те са изключени от групата привилегии на агента. Освен това мениджърът на достъпа е отговорен и за компилирането и поддържането на регистрационни файлове за одит, което допълнително подобрява прозрачността на системата.

AIOS: Експерименти и резултати

Оценката на рамката на AIOS се ръководи от два изследователски въпроса: първо, как е ефективността на планирането на AIOS за подобряване на времето за изчакване на баланса и времето за изпълнение и второ, дали отговорът на LLM на заявките на агент е последователен след спиране на агент?

За да отговорят на въпросите за последователност, разработчиците стартират всеки от трите агента поотделно и впоследствие изпълняват тези агенти паралелно и се опитват да уловят техните резултати по време на всеки етап. Както е показано в таблицата по-долу, резултатите от BERT и BLEU достигат стойност от 1.0, което показва перфектно съответствие между изходните данни, генерирани в конфигурации с един агент и много агенти.

За да отговорят на въпросите за ефективността, разработчиците провеждат сравнителен анализ между рамката на AIOS, използваща FIFO или планиране „Първо влязло, първо излязло“, и непланиран подход, при който агентите работят едновременно. В непланираната настройка агентите се изпълняват в предварително определен последователен ред: математически агент, разказващ агент и агент за запис. За да оцени времевата ефективност, рамката AIOS използва два показателя: време на изчакване и време за изпълнение, и тъй като агентите изпращат множество заявки към големия езиков модел, времето за изчакване и времето за изпълнение за отделните агенти се изчислява като средната стойност на време за изчакване и време за изпълнение на всички заявки. Както е показано в таблицата по-долу, непланираният подход показва задоволителна производителност за агентите по-рано в последователността, но страда от удължено време на изчакване и изпълнение за агенти по-късно в последователността. От друга страна, подходът за планиране, приложен от рамката AIOS, регулира ефективно както времето за изчакване, така и времето за изпълнение.

Заключителни мисли

В тази статия говорихме за AIOS, LLM агентна операционна система, която е проектирана в опит да вгради големи езикови модели в операционната система като мозък на операционната система, позволявайки операционна система с душа. За да бъдем по-конкретни, рамката на AIOS е проектирана с намерението да улесни превключването на контекста между агентите, да оптимизира разпределението на ресурсите, да предостави услуга за инструменти за агенти, да поддържа контрол на достъпа за агенти и да даде възможност за едновременно изпълнение на агенти. Архитектурата на AISO демонстрира потенциала за улесняване на разработването и внедряването на автономни агенти, базирани на голям езиков модел, което води до по-ефективна, сплотена и ефикасна екосистема на AIOS-Agent.

Следва

Snowflake Arctic: Авангардният LLM за Enterprise AI

Не пропускайте

Може ли изкуственият интелект да направи застраховката по-достъпна?

Кунал Кейривал

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.