Umělá inteligence

AIOS: Operační systém pro agenty LLM

Zveřejněno

Před 2 týdnů

25. dubna 2024

Za posledních šest desetiletí se operační systémy progresivně vyvíjely, od základních systémů ke komplexním a interaktivním operačním systémům, které pohánějí dnešní zařízení. Zpočátku sloužily operační systémy jako most mezi binárními funkcemi počítačového hardwaru, jako je manipulace s bránou, a úkoly na úrovni uživatele. V průběhu let se však vyvinuly od jednoduchých systémů pro dávkové zpracování úloh k sofistikovanějším technikám řízení procesů, včetně multitaskingu a sdílení času. Tato vylepšení umožnila moderním operačním systémům spravovat širokou škálu komplexních úloh. Zavedení grafických uživatelských rozhraní (GUI) jako Windows a MacOS učinilo moderní operační systémy uživatelsky přívětivějšími a interaktivnějšími a zároveň rozšířilo ekosystém OS o běhové knihovny a komplexní sadu vývojářských nástrojů.

Nedávné inovace zahrnují integraci a nasazení Velké jazykové modely (LLMs), které způsobily revoluci v různých průmyslových odvětvích tím, že otevřely nové možnosti. V poslední době prokázali inteligentní agenti na bázi LLM pozoruhodné schopnosti a dosahovali výkonu jako u lidí v široké škále úkolů. Tato činidla jsou však stále v raných fázích vývoje a současné techniky čelí několika výzvám, které ovlivňují jejich účinnost a efektivitu. Mezi běžné problémy patří neoptimální plánování požadavků agentů v rámci velkého jazykového modelu, složitost integrace agentů s různými specializacemi a udržování kontextu během interakcí mezi LLM a agentem. Rychlý vývoj a zvyšující se složitost agentů založených na LLM často vedou k úzkým místům a neoptimálnímu využití zdrojů.

Abychom se vypořádali s těmito výzvami, tento článek se bude zabývat AIOS, operačním systémem agentů LLM navrženým tak, aby integroval velké jazykové modely jako „mozek“ operačního systému a účinně mu dával „duši“. Rámec AIOS se konkrétně zaměřuje na usnadnění přepínání kontextu mezi agenty, optimalizaci alokace zdrojů, poskytování nástrojových služeb pro agenty, udržování řízení přístupu a umožnění souběžného provádění agentů. Ponoříme se hluboko do rámce AIOS, prozkoumáme jeho mechanismy, metodologii a architekturu a porovnáme jej s nejmodernějšími frameworky. Pojďme se ponořit.

Po dosažení pozoruhodného úspěchu ve velkých jazykových modelech je dalším zaměřením odvětví AI a ML vývoj autonomních agentů AI, kteří mohou fungovat nezávisle, samostatně se rozhodovat a provádět úkoly s minimálními nebo žádnými lidskými zásahy. Tito inteligentní agenti na bázi umělé inteligence jsou navrženi tak, aby rozuměli lidským instrukcím, zpracovávali informace, činili rozhodnutí a prováděli vhodná opatření k dosažení autonomního stavu, přičemž nástup a vývoj velkých jazykových modelů přináší nové možnosti pro vývoj těchto autonomních agentů. Současné rámce LLM včetně DALL-E, GPT a dalších prokázaly pozoruhodné schopnosti porozumět lidským pokynům, schopnostem uvažování a řešení problémů a interakci s lidskými uživateli spolu s externím prostředím. Agenti na bázi LLM, postaveni na těchto výkonných a schopných velkých jazykových modelech, mají silné schopnosti plnit úkoly v různých prostředích, od virtuálních asistentů až po složitější a sofistikovanější systémy zahrnující vytváření řešení problémů, uvažování, plánování a provádění.

Výše uvedený obrázek poskytuje přesvědčivý příklad toho, jak může autonomní agent založený na LLM řešit úkoly v reálném světě. Uživatel požádá systém o informace o cestě, načež cestovní kancelář rozdělí úkol do spustitelných kroků. Poté agent postupně provádí kroky, rezervace letů, rezervace hotelů, zpracování plateb a další. To, co tyto agenty odlišuje od tradičních softwarových aplikací při provádění kroků, je schopnost agentů prokázat rozhodovací schopnosti a začlenit do provádění kroků uvažování. Spolu s exponenciálním růstem jejich kvality autonomní agentiNapětí na funkce velkých jazykových modelů a operačních systémů bylo svědkem nárůstu a příkladem toho je, že upřednostňování a plánování požadavků agentů v omezených velkých jazykových modelech představuje významnou výzvu. Kromě toho, protože proces generování velkých jazykových modelů se stává časově náročným úkolem, když se zabýváme zdlouhavými kontexty, je možné, aby plánovač pozastavil výsledné generování, což vyvolává problém s navržením mechanismu pro zachycení aktuálního výsledku generování jazykového modelu. . V důsledku toho je povoleno chování pozastavení/obnovení, když model velkého jazyka nedokončil generování odpovědi pro aktuální požadavek.

K řešení výše uvedených problémů poskytuje AIOS, operační systém s velkým jazykovým modelem, agregace a modulovou izolaci funkcí LLM a OS. Rámec AIOS navrhuje návrh jádra specifický pro LLM ve snaze vyhnout se potenciálním konfliktům vznikajícím mezi úkoly spojenými a nesouvisejícími s velkým jazykovým modelem. Navrhované jádro odděluje povinnosti podobné operačnímu systému, zejména ty, které dohlížejí na agenty LLM, vývojové sady nástrojů a jejich odpovídající zdroje. V důsledku této segregace se jádro LLM pokouší zlepšit koordinaci a řízení činností souvisejících s LLM.

AIOS: Metodologie a architektura

Jak můžete pozorovat, do fungování rámce AIOS se podílí šest hlavních mechanismů.

Plánovač agentů: Úkolem přiřazeným plánovači agentů je plánovat a upřednostňovat požadavky agentů ve snaze optimalizovat využití velkého jazykového modelu.

Správce kontextu: Úkolem přiřazeným správci kontextu je podporovat snímky spolu s obnovením stavu přechodného generování ve velkém jazykovém modelu a správu kontextového okna velkého jazykového modelu.

Správce paměti: Primární odpovědností správce paměti je poskytnout krátkodobou paměť pro protokol interakce pro každého agenta.

Storage Manager: Správce úložiště je odpovědný za uchování protokolů interakcí agentů do dlouhodobého úložiště pro budoucí načtení.

Správce nástrojů: Mechanismus správce nástrojů spravuje volání agentů k externím nástrojům API.

Správce přístupu: Správce přístupu prosazuje zásady ochrany osobních údajů a řízení přístupu mezi agenty.

Kromě výše uvedených mechanismů se framework AIOS vyznačuje vrstvenou architekturou a je rozdělen do tří odlišných vrstev: aplikační vrstva, vrstva jádra a vrstva hardwaru. Vrstvená architektura implementovaná rámcem AIOS zajišťuje, že odpovědnosti jsou distribuovány rovnoměrně po celém systému a vyšší vrstvy abstrahují složitost vrstev pod nimi, což umožňuje interakce pomocí specifických modulů nebo rozhraní, zvyšuje modularitu a zjednodušuje systémové interakce mezi vrstvy.

Počínaje aplikační vrstvou se tato vrstva používá pro vývoj a nasazení aplikačních agentů, jako jsou matematické nebo cestovní kanceláře. V aplikační vrstvě poskytuje framework AIOS sadu pro vývoj softwaru AIOS (AIOS SDK) s vyšší abstrakcí systémových volání, která vývojářům agentů zjednodušuje proces vývoje. Sada pro vývoj softwaru nabízená společností AIOS nabízí bohatou sadu nástrojů pro usnadnění vývoje aplikací agentů tím, že odstraňuje složitosti systémových funkcí nižší úrovně, což umožňuje vývojářům soustředit se na funkce a základní logiku jejich agentů, což vede k efektivnějšímu vývoji. proces.

Vrstva jádra se dále dělí na dvě složky: jádro LLM a jádro OS. Jak jádro operačního systému, tak jádro LLM slouží jedinečným požadavkům operací specifických pro LLM i operací, které nejsou LLM, s tím rozdílem, který umožňuje jádru LLM zaměřit se na úkoly specifické pro velký jazykový model, včetně plánování agentů a správy kontextu, což jsou činnosti, které jsou nezbytné pro zpracování činností. související s velkými jazykovými modely. Rámec AIOS se soustředí především na vylepšení jádra velkého jazykového modelu, aniž by výrazně měnil strukturu stávajícího jádra OS. Jádro LLM je vybaveno několika klíčovými moduly včetně plánovače agentů, správce paměti, správce kontextu, správce úložiště, správce přístupu, správce nástrojů a rozhraní systémového volání LLM. Komponenty ve vrstvě jádra jsou navrženy ve snaze uspokojit různé potřeby provádění agentních aplikací, což zajišťuje efektivní provádění a správu v rámci AIOS.

Nakonec tu máme hardwarovou vrstvu, která obsahuje fyzické součásti systému včetně GPU, CPU, periferních zařízení, disku a paměti. Je nezbytné pochopit, že systém jader LLM nemůže přímo interagovat s hardwarem a tato volání se propojují se systémovými voláními operačního systému, který zase řídí hardwarové prostředky. Tato nepřímá interakce mezi systémem karnelu LLM a hardwarovými prostředky vytváří vrstvu zabezpečení a abstrakce, což umožňuje jádru LLM využívat schopnosti hardwarových zdrojů, aniž by vyžadovalo přímou správu hardwaru, což usnadňuje údržbu integrity a efektivity systému. .

Implementace

Jak bylo uvedeno výše, existuje šest hlavních mechanismů zapojených do fungování rámce AIOS. Plánovač agentů je navržen tak, aby byl schopen efektivně řídit požadavky agentů a má několik kroků provádění na rozdíl od tradičního paradigmatu sekvenčního provádění, ve kterém agent zpracovává úlohy lineárním způsobem s kroky ze stejného agent je zpracován jako první před přechodem na dalšího agenta, což má za následek delší čekací doby na úkoly, které se objeví později v sekvenci provádění. Plánovač agentů využívá k optimalizaci procesu strategie jako Round Robin, First In First Out a další plánovací algoritmy.

Kontextový manažer byl navržen tak, že je zodpovědný za řízení kontextu poskytovaného velkému jazykovému modelu a za proces generování daného kontextu. Správce kontextu zahrnuje dvě klíčové součásti: kontextový snímek a obnovu a správu kontextového okna. Mechanismus snímku kontextu a obnovy, který nabízí rámec AIOS, pomáhá zmírnit situace, kdy plánovač pozastaví požadavky agenta, jak ukazuje následující obrázek.

Jak ukazuje následující obrázek, je odpovědností správce paměti spravovat krátkodobou paměť v rámci životního cyklu agenta a zajišťuje, že data jsou uložena a přístupná pouze tehdy, když je agent aktivní, ať už během běhu nebo když agent čeká. k provedení.

Na druhé straně je správce úložiště odpovědný za uchování dat v dlouhodobém horizontu a dohlíží na ukládání informací, které je třeba uchovávat po neomezenou dobu, mimo dobu životnosti jednotlivého agenta. Rámec AISO dosahuje trvalého úložiště pomocí různých odolných médií včetně cloudových řešení, databází a místních souborů, což zajišťuje dostupnost a integritu dat. Navíc v rámci AISO je to správce nástrojů, který spravuje různou řadu nástrojů API, které vylepšují funkčnost velkých jazykových modelů, a následující tabulka shrnuje, jak správce nástrojů integruje běžně používané nástroje z různých zdrojů a klasifikuje je. do různých kategorií.

Správce přístupu organizuje operace řízení přístupu v rámci různých agentů správou vyhrazené skupiny oprávnění pro každého agenta a odepře agentovi přístup k jeho prostředkům, pokud jsou vyloučeni ze skupiny oprávnění agenta. Kromě toho je správce přístupu také zodpovědný za sestavení a údržbu protokolů auditu, které dále zvyšují transparentnost systému.

AIOS: Experimenty a výsledky

Hodnocení rámce AIOS se řídí dvěma výzkumnými otázkami: zaprvé, jak je výkonnost plánování AIOS při zlepšování čekací doby a doby obratu, a zadruhé, zda jsou reakce LLM na požadavky agentů konzistentní po pozastavení agenta?

Aby vývojáři odpověděli na otázky týkající se konzistence, spouštějí každého ze tří agentů samostatně a následně tyto agenty spouštějí paralelně a pokoušejí se zachytit jejich výstupy během každé fáze. Jak ukazuje následující tabulka, skóre BERT a BLEU dosahují hodnoty 1.0, což ukazuje na dokonalé sladění mezi výstupy generovanými v konfiguracích s jedním a více agenty.

Aby vývojáři odpověděli na otázky účinnosti, provádějí srovnávací analýzu mezi rámcem AIOS využívajícím plánování FIFO nebo First In First Out a neplánovaným přístupem, kdy agenti běží souběžně. V neplánovaném nastavení jsou agenti spouštěni v předem definovaném sekvenčním pořadí: Math agent, Narrating agent a rec agent. K posouzení časové efektivity využívá rámec AIOS dvě metriky: čekací dobu a dobu obratu, a protože agenti odesílají více požadavků na velký jazykový model, čekací doba a doba obratu pro jednotlivé agenty se vypočítávají jako průměr čekací doba a doba vyřízení všech požadavků. Jak je ukázáno v následující tabulce, neplánovaný přístup vykazuje uspokojivý výkon pro agenty dříve v sekvenci, ale trpí delším čekáním a dobou obratu pro agenty později v sekvenci. Na druhou stranu, plánovací přístup implementovaný rámcem AIOS efektivně reguluje jak čekací dobu, tak dobu obratu.

Závěrečné myšlenky

V tomto článku jsme hovořili o AIOS, operačním systému agenta LLM, který je navržen ve snaze začlenit velké jazykové modely do operačního systému jako mozku operačního systému, což umožňuje operační systém s duší. Přesněji řečeno, rámec AIOS je navržen se záměrem usnadnit přepínání kontextu mezi agenty, optimalizovat alokaci zdrojů, poskytovat nástrojové služby pro agenty, udržovat řízení přístupu pro agenty a umožnit souběžné provádění agentů. Architektura AISO demonstruje potenciál usnadnit vývoj a nasazení autonomní agenti na základě velkého jazykového modeluvýsledkem je efektivnější, soudržnější a efektivnější ekosystém AIOS-Agent.

Nahoru Další

Snowflake Arctic: Nejmodernější LLM pro podnikovou umělou inteligenci

Nenechte si ujít

Může umělá inteligence učinit pojištění cenově dostupnějším?

Kunal Kejriwal

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.