Штучний Інтелект

AIOS: операційна система для агентів LLM

опублікований

1 тиждень тому

Квітень 25, 2024

AIOS: операційна система для агентів LLM

За останні шість десятиліть операційні системи прогресивно розвивалися, просуваючись від базових систем до складних інтерактивних операційних систем, на яких працюють сучасні пристрої. Спочатку операційні системи служили мостом між двійковими функціями комп’ютерного обладнання, такими як маніпуляції воротами, і завданнями на рівні користувача. Проте протягом багатьох років вони розвинулися від простих систем пакетної обробки завдань до більш складних методів управління процесами, включаючи багатозадачність і розподіл часу. Ці досягнення дозволили сучасним операційним системам керувати широким спектром складних завдань. Впровадження графічних інтерфейсів користувача (GUI), таких як Windows і MacOS, зробило сучасні операційні системи більш зручними та інтерактивними, а також розширило екосистему ОС за допомогою бібліотек виконання та повного набору інструментів розробника.

Останні інновації включають інтеграцію та розгортання Великі мовні моделі (LLM), які зробили революцію в різних галузях, відкривши нові можливості. Зовсім недавно інтелектуальні агенти на базі LLM продемонстрували надзвичайні здібності, досягаючи продуктивності, подібної до людської, у широкому діапазоні завдань. Однак ці агенти все ще знаходяться на ранніх стадіях розробки, і сучасні методи стикаються з кількома проблемами, які впливають на їх ефективність і ефективність. Поширені проблеми включають неоптимальне планування запитів агентів у великій мовній моделі, складності в інтеграції агентів з різними спеціалізаціями та підтримку контексту під час взаємодії між LLM та агентом. Швидкий розвиток і зростаюча складність агентів на основі LLM часто призводять до вузьких місць і неоптимального використання ресурсів.

Щоб вирішити ці проблеми, у цій статті буде розглянуто AIOS, операційну систему агента LLM, призначену для інтеграції великих мовних моделей як «мозок» операційної системи, фактично надаючи їй «душу». Зокрема, структура AIOS спрямована на полегшення перемикання контексту між агентами, оптимізацію розподілу ресурсів, надання послуг інструментів для агентів, підтримку контролю доступу та забезпечення одночасного виконання агентів. Ми глибоко заглибимося в фреймворк AIOS, досліджуючи його механізми, методологію та архітектуру, а також порівняємо його з найсучаснішими фреймворками. Давайте зануримося.

Після досягнення надзвичайного успіху у великих мовних моделях наступним напрямком індустрії штучного інтелекту та машинного навчання є розробка автономних агентів штучного інтелекту, які можуть працювати незалежно, самостійно приймати рішення та виконувати завдання з мінімальним або без втручання людини. Ці інтелектуальні агенти на основі штучного інтелекту розроблені, щоб розуміти інструкції людини, обробляти інформацію, приймати рішення та вживати відповідних дій для досягнення автономного стану, з появою та розвитком великих мовних моделей, які створюють нові можливості для розвитку цих автономних агентів. Сучасні фреймворки LLM, включаючи DALL-E, GPT тощо, продемонстрували чудові здібності до розуміння людських інструкцій, здатності міркувати та вирішувати проблеми, а також взаємодіяти з людьми-користувачами та зовнішнім середовищем. Побудовані на основі цих потужних і дієздатних великих мовних моделей, агенти на базі LLM мають сильні можливості виконання завдань у різноманітних середовищах, починаючи від віртуальних помічників і закінчуючи складнішими та складнішими системами, що включають створення проблем, міркування, планування та виконання.

Наведений вище малюнок дає переконливий приклад того, як автономний агент на базі LLM може вирішувати реальні завдання. Користувач запитує у системи інформацію про поїздку, після чого турагент розбиває завдання на кроки, які можна виконати. Потім агент послідовно виконує кроки, бронюючи авіаквитки, бронюючи готелі, обробляючи платежі тощо. Під час виконання кроків ці агенти відрізняються від традиційних програмних додатків здатністю агентів демонструвати здатність приймати рішення та включати міркування під час виконання кроків. Поряд із експоненціальним зростанням якості цих автономні агенти, навантаження на функціональні можливості великих мовних моделей і операційних систем зросло, і прикладом цього є те, що визначення пріоритетів і планування запитів агентів у обмежених великих мовних моделях створює серйозну проблему. Крім того, оскільки процес генерації великих мовних моделей стає трудомістким завданням при роботі з довгими контекстами, планувальник може призупинити результуюче генерування, що створює проблему розробки механізму для моментального знімка поточного результату генерації мовної моделі. . У результаті цього вмикається поведінка призупинення/відновлення, коли велика мовна модель не завершила створення відповіді для поточного запиту.

Щоб вирішити проблеми, згадані вище, AIOS, велика мовна модель операційної системи, забезпечує агрегації та ізоляцію модулів LLM і ОС. Фреймворк AIOS пропонує дизайн ядра, специфічний для LLM, щоб уникнути потенційних конфліктів, що виникають між завданнями, пов’язаними та не пов’язаними з великою мовною моделлю. Запропоноване ядро розділяє обов’язки операційної системи, особливо ті, які наглядають за агентами LLM, наборами інструментів розробки та їхніми відповідними ресурсами. У результаті цього відокремлення ядро LLM намагається покращити координацію та управління діяльністю, пов’язаною з LLM.

AIOS: Методологія та архітектура

Як ви бачите, існує шість основних механізмів, задіяних у роботі структури AIOS.

Планувальник агента: Завдання, призначене планувальнику агентів, полягає в тому, щоб планувати та пріоритезувати запити агентів у спробі оптимізувати використання великої мовної моделі.

Менеджер контексту: Завдання, призначене диспетчеру контексту, полягає в підтримці моментальних знімків разом із відновленням проміжного статусу генерації у великій мовній моделі та керування контекстними вікнами великої мовної моделі.

Менеджер пам'яті: Основний обов’язок диспетчера пам’яті – забезпечити короткочасну пам’ять для журналу взаємодії для кожного агента.

Storage Manager: менеджер сховища відповідає за збереження журналів взаємодії агентів у довгостроковому сховищі для майбутнього вилучення.

Менеджер інструментів: Механізм керування інструментами керує викликом агентів до зовнішніх інструментів API.

Менеджер доступу: Менеджер доступу забезпечує дотримання політики конфіденційності та контролю доступу між агентами.

На додаток до вищезазначених механізмів, структура AIOS має багатошарову архітектуру та розділена на три окремі рівні: прикладний рівень, рівень ядра та апаратний рівень. Рівнева архітектура, реалізована фреймворком AIOS, забезпечує рівномірний розподіл обов’язків у системі, а вищі рівні абстрагують складність нижчих рівнів, дозволяючи взаємодіяти за допомогою конкретних модулів або інтерфейсів, підвищуючи модульність і спрощуючи взаємодію системи між шари.

Починаючи з прикладного рівня, цей рівень використовується для розробки та розгортання прикладних агентів, таких як математичні чи туристичні агенти. На прикладному рівні структура AIOS надає комплект розробки програмного забезпечення AIOS (AIOS SDK) із вищою абстракцією системних викликів, що спрощує процес розробки для розробників агентів. Набір для розробки програмного забезпечення, запропонований AIOS, пропонує широкий набір інструментів для полегшення розробки додатків агентів шляхом абстрагування від складності системних функцій нижчого рівня, що дозволяє розробникам зосередитися на функціональних можливостях і основній логіці своїх агентів, що призводить до більш ефективної розробки. процес.

Далі рівень ядра поділяється на два компоненти: ядро LLM і ядро ОС. Як ядро ОС, так і ядро LLM задовольняють унікальні вимоги операцій LLM і не LLM, з відмінністю, що дозволяє ядру LLM зосереджуватися на конкретних завданнях великої мовної моделі, включаючи планування агентів і керування контекстом, дії, необхідні для обробки дій. пов’язані з великими мовними моделями. Інфраструктура AIOS зосереджена насамперед на вдосконаленні ядра великої мовної моделі без суттєвих змін у структурі існуючого ядра ОС. Ядро LLM оснащено декількома ключовими модулями, включаючи планувальник агента, менеджер пам’яті, менеджер контексту, менеджер зберігання, менеджер доступу, менеджер інструментів та інтерфейс системних викликів LLM. Компоненти рівня ядра розроблені з метою задоволення різноманітних потреб у виконанні агентських додатків, що забезпечує ефективне виконання та управління в рамках AIOS.

Нарешті, у нас є апаратний рівень, який складається з фізичних компонентів системи, включаючи GPU, CPU, периферійні пристрої, диск і пам’ять. Важливо розуміти, що система ядер LLM не може безпосередньо взаємодіяти з обладнанням, і ці виклики взаємодіють із системними викликами операційної системи, яка, у свою чергу, керує апаратними ресурсами. Ця непряма взаємодія між системою карнеля LLM і апаратними ресурсами створює рівень безпеки та абстракції, що дозволяє ядру LLM використовувати можливості апаратних ресурсів без необхідності безпосереднього керування апаратним забезпеченням, сприяючи підтримці цілісності та ефективності системи. .

Реалізація

Як згадувалося вище, існує шість основних механізмів, задіяних у роботі структури AIOS. Планувальник агента розроблено таким чином, щоб він міг ефективно керувати запитами агента та має кілька кроків виконання, що суперечить традиційній парадигмі послідовного виконання, у якій агент обробляє завдання лінійним чином із кроками з того самого агент обробляється спочатку перед переходом до наступного агента, що призводить до збільшення часу очікування для завдань, які з’являються пізніше в послідовності виконання. Планувальник агента використовує такі стратегії, як Round Robin, First In First Out та інші алгоритми планування для оптимізації процесу.

Менеджер контексту розроблено таким чином, що він відповідає за керування контекстом, наданим для великої мовної моделі, і за процес генерації з урахуванням певного контексту. Менеджер контексту включає два важливі компоненти: знімок і відновлення контексту та керування вікном контексту. Знімок контексту та механізм відновлення, запропонований інфраструктурою AIOS, допомагає пом’якшити ситуації, коли планувальник призупиняє запити агента, як показано на малюнку нижче.

Як показано на наступному малюнку, диспетчер пам’яті відповідає за керування короткочасною пам’яттю протягом життєвого циклу агента та гарантує, що дані зберігаються та доступні лише тоді, коли агент активний, або під час виконання, або коли агент очікує для виконання.

З іншого боку, менеджер сховища відповідає за збереження даних у довгостроковій перспективі, і він контролює зберігання інформації, яка повинна зберігатися протягом невизначеного періоду часу, що перевищує термін діяльності окремого агента. Інфраструктура AISO забезпечує постійне зберігання за допомогою різних довговічних носіїв, включаючи хмарні рішення, бази даних і локальні файли, забезпечуючи доступність і цілісність даних. Крім того, у структурі AISO саме менеджер інструментів керує різноманітним набором інструментів API, які покращують функціональність великих мовних моделей, і в наступній таблиці підсумовується, як менеджер інструментів інтегрує інструменти, що часто використовуються з різних ресурсів, і класифікує їх на різні категорії.

Менеджер доступу організовує операції контролю доступу окремо агенти шляхом адміністрування спеціальної групи привілеїв для кожного агента та забороняє агенту доступ до його ресурсів, якщо вони виключені з групи привілеїв агента. Крім того, менеджер доступу також несе відповідальність за збір і підтримку журналів аудиту, що ще більше підвищує прозорість системи.

AIOS: експерименти та результати

Оцінка структури AIOS ґрунтується на двох дослідницьких питаннях: по-перше, як ефективність планування AIOS покращує час очікування балансу та час виконання, і по-друге, чи відповіді LLM на запити агентів є послідовними після призупинення агента?

Щоб відповісти на питання узгодженості, розробники запускають кожен із трьох агентів окремо, а потім виконують ці агенти паралельно та намагаються захопити їхні результати на кожному етапі. Як показано в наведеній нижче таблиці, показники BERT і BLEU досягають значення 1.0, що вказує на ідеальне узгодження між виходами, створеними в одноагентних і багатоагентних конфігураціях.

Щоб відповісти на питання ефективності, розробники проводять порівняльний аналіз між структурою AIOS, яка використовує планування FIFO або першим прийшов, першим вийшов, і підходом без розкладу, коли агенти працюють одночасно. У незапланованих налаштуваннях агенти виконуються в попередньо визначеному послідовному порядку: математичний агент, дикторський агент і агент запису. Щоб оцінити часову ефективність, структура AIOS використовує дві метрики: час очікування та час виконання. Оскільки агенти надсилають кілька запитів до великої мовної моделі, час очікування та час виконання для окремих агентів обчислюється як середнє значення час очікування та час виконання всіх запитів. Як показано в наведеній нижче таблиці, незапланований підхід показує задовільну продуктивність для агентів на початку послідовності, але страждає від подовженого часу очікування та часу виконання для агентів пізніше в послідовності. З іншого боку, підхід до планування, реалізований структурою AIOS, ефективно регулює як час очікування, так і час виконання.

Заключні думки

У цій статті ми говорили про AIOS, агентську операційну систему LLM, яка розроблена з метою вбудувати великі мовні моделі в ОС як мозок ОС, створюючи операційну систему з душею. Точніше кажучи, інфраструктура AIOS розроблена з наміром сприяти перемиканню контексту між агентами, оптимізувати розподіл ресурсів, надавати службу інструментів для агентів, підтримувати контроль доступу для агентів і дозволяти одночасне виконання агентів. Архітектура AISO демонструє потенціал для полегшення розробки та розгортання велика мовна модель на основі автономних агентів, що призводить до більш ефективної, згуртованої та ефективної екосистеми AIOS-Agent.

Вгору Далі

Snowflake Arctic: передовий магістр права для корпоративного штучного інтелекту

Не пропустіть

Чи може штучний інтелект зробити страхування доступнішим?

Кунал Кейрівал

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.