Artificiell intelligens

AIOS: Operativsystem för LLM-agenter

publicerade

2 veckor sedan

25 april 2024

Under de senaste sex decennierna har operativsystemen utvecklats successivt, från grundläggande system till de komplexa och interaktiva operativsystem som driver dagens enheter. Inledningsvis fungerade operativsystem som en brygga mellan den binära funktionaliteten hos datorhårdvara, såsom grindmanipulation, och uppgifter på användarnivå. Under årens lopp har de dock utvecklats från enkla system för batch-jobbbearbetning till mer sofistikerade processhanteringstekniker, inklusive multitasking och tidsdelning. Dessa framsteg har gjort det möjligt för moderna operativsystem att hantera ett brett spektrum av komplexa uppgifter. Införandet av grafiska användargränssnitt (GUI) som Windows och MacOS har gjort moderna operativsystem mer användarvänliga och interaktiva, samtidigt som OS-ekosystemet har utökats med runtime-bibliotek och en omfattande svit av utvecklarverktyg.

Nya innovationer inkluderar integration och implementering av Stora språkmodeller (LLMs), som har revolutionerat olika branscher genom att låsa upp nya möjligheter. På senare tid har LLM-baserade intelligenta agenter visat anmärkningsvärda kapaciteter och uppnått mänskliga prestanda på ett brett spektrum av uppgifter. Dessa medel är dock fortfarande i de tidiga utvecklingsstadierna och nuvarande tekniker står inför flera utmaningar som påverkar deras effektivitet och effektivitet. Vanliga problem inkluderar den suboptimala schemaläggningen av agentförfrågningar över den stora språkmodellen, komplexiteten i att integrera agenter med olika specialiseringar och upprätthålla sammanhang under interaktioner mellan LLM och agenten. Den snabba utvecklingen och ökande komplexiteten hos LLM-baserade agenter leder ofta till flaskhalsar och suboptimal resursanvändning.

För att ta itu med dessa utmaningar kommer den här artikeln att diskutera AIOS, ett LLM-agentoperativsystem utformat för att integrera stora språkmodeller som "hjärnan" i operativsystemet, vilket effektivt ger det en "själ". Specifikt syftar AIOS-ramverket till att underlätta kontextväxling mellan agenter, optimera resursallokering, tillhandahålla verktygstjänster för agenter, upprätthålla åtkomstkontroll och möjliggöra samtidig exekvering av agenter. Vi kommer att fördjupa oss i AIOS-ramverket, utforska dess mekanismer, metodik och arkitektur, och jämföra det med toppmoderna ramverk. Låt oss dyka in.

Efter att ha uppnått anmärkningsvärd framgång i stora språkmodeller är nästa fokus för AI- och ML-industrin att utveckla autonoma AI-agenter som kan arbeta självständigt, fatta beslut på egen hand och utföra uppgifter med minimala eller inga mänskliga ingrepp. Dessa AI-baserade intelligenta agenter är designade för att förstå mänskliga instruktioner, bearbeta information, fatta beslut och vidta lämpliga åtgärder för att uppnå ett autonomt tillstånd, med tillkomsten och utvecklingen av stora språkmodeller som ger nya möjligheter till utvecklingen av dessa autonoma agenter. Aktuella LLM-ramverk inklusive DALL-E, GPT och fler har visat anmärkningsvärda förmågor att förstå mänskliga instruktioner, resonemang och problemlösningsförmåga, och interagera med mänskliga användare tillsammans med externa miljöer. Byggd ovanpå dessa kraftfulla och kapabla stora språkmodeller, har LLM-baserade agenter en stark uppgiftsuppfyllande förmåga i olika miljöer, från virtuella assistenter till mer komplexa och sofistikerade system som involverar att skapa problemlösning, resonemang, planering och utförande.

Ovanstående figur ger ett övertygande exempel på hur en LLM-baserad autonom agent kan lösa verkliga uppgifter. Användaren ber systemet om en reseinformation, varefter resebyrån delar upp uppgiften i exekverbara steg. Sedan utför agenten stegen sekventiellt, boka flyg, boka hotell, behandla betalningar och mer. När de utför stegen är det som skiljer dessa agenter från traditionella mjukvaruapplikationer agenternas förmåga att visa beslutsfattande förmåga och inkorporera resonemang i utförandet av stegen. Tillsammans med en exponentiell tillväxt i kvaliteten på dessa autonoma ombud, påfrestningen på funktionaliteten hos stora språkmodeller och operativsystem har sett en ökning, och ett exempel på detsamma är att prioritering och schemaläggning av agentförfrågningar i begränsade stora språkmodeller utgör en betydande utmaning. Dessutom, eftersom genereringsprocessen av stora språkmodeller blir en tidskrävande uppgift när man hanterar långa sammanhang, är det möjligt för schemaläggaren att avbryta den resulterande genereringen, vilket ger upphov till ett problem med att utforma en mekanism för att ögonblicksbilda det nuvarande genereringsresultatet av språkmodellen . Som ett resultat av detta aktiveras paus/återuppta beteende när den stora språkmodellen inte har slutfört svarsgenereringen för den aktuella begäran.

För att möta de utmaningar som nämns ovan tillhandahåller AIOS, ett operativsystem med stor språkmodell, aggregering och modulisolering av LLM- och OS-funktioner. AIOS-ramverket föreslår en LLM-specifik kärndesign i ett försök att undvika potentiella konflikter som uppstår mellan uppgifter associerade och inte associerade med den stora språkmodellen. Den föreslagna kärnan separerar operativsystemet liknande uppgifter, särskilt de som övervakar LLM-agenterna, utvecklingsverktygssatser och deras motsvarande resurser. Som ett resultat av denna segregering försöker LLM-kärnan att förbättra samordningen och hanteringen av aktiviteter relaterade till LLM.

AIOS : Metodik och arkitektur

Som du kan observera är det sex viktiga mekanismer involverade i arbetet med AIOS-ramverket.

Agent Scheduler: Uppgiften som tilldelas agentschemaläggaren är att schemalägga och prioritera agentförfrågningar i ett försök att optimera användningen av den stora språkmodellen.

Kontexthanterare: Uppgiften som tilldelats kontexthanteraren är att stödja ögonblicksbilder tillsammans med att återställa mellangenereringsstatusen i den stora språkmodellen och kontextfönsterhanteringen för den stora språkmodellen.

Minneshanterare: Minneshanterarens primära ansvar är att tillhandahålla korttidsminne för interaktionsloggen för varje agent.

Storage manager: Lagringshanteraren är ansvarig för att bevara interaktionsloggarna för agenter till långtidslagring för framtida hämtning.

Verktygshanterare: Verktygshanterarens mekanism hanterar anrop av agenter till externa API-verktyg.

Access Manager: Åtkomsthanteraren upprätthåller integritets- och åtkomstkontrollpolicyer mellan agenter.

Utöver de ovan nämnda mekanismerna har AIOS-ramverket en skiktad arkitektur och är uppdelad i tre distinkta lager: applikationslagret, kärnlagret och hårdvarulagret. Den skiktade arkitekturen som implementeras av AIOS-ramverket säkerställer att ansvaret fördelas jämnt över systemet, och de högre skikten abstraherar komplexiteten i skikten under dem, vilket möjliggör interaktioner med specifika moduler eller gränssnitt, förbättrar modulariteten och förenklar systeminteraktioner mellan skikten.

Från och med applikationslagret används detta lager för att utveckla och distribuera applikationsagenter som matematik eller resebyråer. I applikationslagret förser AIOS-ramverket AIOS-programvaruutvecklingssatsen (AIOS SDK) med en högre abstraktion av systemanrop som förenklar utvecklingsprocessen för agentutvecklare. Mjukvaruutvecklingssatsen som erbjuds av AIOS erbjuder en rik verktygslåda för att underlätta utvecklingen av agentapplikationer genom att abstrahera bort komplexiteten i systemfunktionerna på lägre nivå, vilket gör det möjligt för utvecklare att fokusera på funktioner och väsentlig logik hos sina agenter, vilket resulterar i en mer effektiv utveckling bearbeta.

När vi går vidare är kärnlagret ytterligare uppdelat i två komponenter: LLM-kärnan och OS-kärnan. Både OS-kärnan och LLM-kärnan uppfyller de unika kraven för LLM-specifika och icke LLM-operationer, med skillnaden att LLM-kärnan kan fokusera på specifika uppgifter för stora språkmodeller inklusive agentschemaläggning och kontexthantering, aktiviteter som är väsentliga för att hantera aktiviteter relaterade till stora språkmodeller. AIOS-ramverket koncentrerar sig främst på att förbättra den stora språkmodellens kärna utan att växelvis strukturen hos den befintliga OS-kärnan väsentligt. LLM-kärnan är utrustad med flera nyckelmoduler inklusive agentschemaläggaren, minneshanteraren, kontexthanteraren, lagringshanteraren, åtkomsthanteraren, verktygshanteraren och LLM-systemanropsgränssnittet. Komponenterna i kärnlagret är designade i ett försök att tillgodose de olika exekveringsbehoven av agentapplikationer, vilket säkerställer effektiv exekvering och hantering inom AIOS-ramverket.

Slutligen har vi hårdvaruskiktet som omfattar de fysiska komponenterna i systemet inklusive GPU, CPU, kringutrustning, disk och minne. Det är viktigt att förstå att systemet med LLM-kärnorna inte kan interagera med hårdvaran direkt, och dessa anrop gränssnitt med systemanropen i operativsystemet som i sin tur hanterar hårdvaruresurserna. Denna indirekta interaktion mellan LLM-karnelens system och hårdvaruresurserna skapar ett lager av säkerhet och abstraktion, vilket gör att LLM-kärnan kan dra nytta av hårdvaruresursernas kapacitet utan att behöva hantera hårdvara direkt, vilket underlättar underhållet av systemets integritet och effektivitet. .

Genomförande

Som nämnts ovan finns det sex viktiga mekanismer som är involverade i arbetet med AIOS-ramverket. Agentschemaläggaren är utformad på ett sätt att den kan hantera agentförfrågningar på ett effektivt sätt och har flera exekveringssteg i motsats till ett traditionellt sekventiellt exekveringsparadigm där agenten bearbetar uppgifterna på ett linjärt sätt med stegen från samma agenten bearbetas först innan den går vidare till nästa agent, vilket resulterar i ökade väntetider för uppgifter som dyker upp senare i exekveringssekvensen. Agentschemaläggaren använder strategier som Round Robin, First In First Out och andra schemaläggningsalgoritmer för att optimera processen.

Kontexthanteraren har utformats på ett sätt som är ansvarig för att hantera det sammanhang som den stora språkmodellen tillhandahåller, och genereringsprocessen givet det specifika sammanhanget. Kontexthanteraren involverar två avgörande komponenter: ögonblicksbild och återställning av sammanhang samt hantering av kontextfönster. Den sammanhangsberoende ögonblicksbilden och återställningsmekanismen som erbjuds av AIOS-ramverket hjälper till att mildra situationer där schemaläggaren avbryter agentförfrågningarna som visas i följande figur.

Som visas i följande figur är det minneshanterarens ansvar att hantera korttidsminnet inom en agents livscykel och säkerställer att data lagras och är tillgänglig endast när agenten är aktiv, antingen under körning eller när agenten väntar för utförande.

Å andra sidan är lagringschefen ansvarig för att bevara data på lång sikt, och den övervakar lagringen av information som behöver lagras på obestämd tid, bortom aktivitetens livslängd för en enskild agent. AISO-ramverket uppnår permanent lagring med en mängd olika hållbara medier inklusive molnbaserade lösningar, databaser och lokala filer, vilket säkerställer datatillgänglighet och integritet. I AISO-ramverket är det dessutom verktygshanteraren som hanterar ett varierande utbud av API-verktyg som förbättrar funktionaliteten hos de stora språkmodellerna, och följande tabell sammanfattar hur verktygshanteraren integrerar vanliga verktyg från olika resurser och klassificerar dem i olika kategorier.

Åtkomsthanteraren organiserar åtkomstkontrolloperationer inom distinkt medel genom att administrera en dedikerad behörighetsgrupp för varje agent, och nekar en agent åtkomst till dess resurser om de utesluts från agentens behörighetsgrupp. Dessutom är åtkomsthanteraren också ansvarig för att kompilera och underhålla revisionsloggar som ytterligare förbättrar insynen i systemet.

AIOS: Experiment och resultat

Utvärderingen av AIOS-ramverket styrs av två forskningsfrågor: för det första, hur är prestandan för AIOS-schemaläggning för att förbättra balansens vänte- och handläggningstid, och för det andra, om svaret från LLM på agentförfrågningar är konsekvent efter agentavstängning?

För att svara på konsistensfrågorna kör utvecklare var och en av de tre agenterna individuellt och exekverar sedan dessa agenter parallellt och försöker fånga deras utdata under varje steg. Som visas i följande tabell uppnår BERT- och BLEU-poängen värdet 1.0, vilket indikerar en perfekt anpassning mellan utsignalerna som genereras i en-agent- och multi-agent-konfigurationer.

För att svara på effektivitetsfrågorna genomför utvecklarna en jämförande analys mellan AIOS-ramverket som använder FIFO- eller First In First Out-schemaläggning, och ett icke-schemalagt tillvägagångssätt, där agenterna körs samtidigt. I den icke-schemalagda inställningen exekveras agenterna i en fördefinierad sekventiell ordning: Math-agent, Berättaragent och rec-agent. För att bedöma den tidsmässiga effektiviteten använder AIOS-ramverket två mätvärden: väntetid och handläggningstid, och eftersom agenterna skickar flera förfrågningar till den stora språkmodellen, beräknas väntetiden och handläggningstiden för enskilda agenter som genomsnittet av väntetid och handläggningstid för alla förfrågningar. Som visas i följande tabell visar det icke-schemalagda tillvägagångssättet tillfredsställande prestanda för agenter tidigare i sekvensen, men lider av förlängda vänte- och handläggningstider för agenter senare i sekvensen. Å andra sidan reglerar schemaläggningsmetoden som implementeras av AIOS-ramverket både vänte- och handläggningstiderna effektivt.

Avslutande tankar

I den här artikeln har vi pratat om AIOS, ett LLM-agentoperativsystem som är designat i ett försök att bädda in stora språkmodeller i operativsystemet som OS:s hjärna, vilket möjliggör ett operativsystem med en själ. För att vara mer specifik är AIOS-ramverket utformat med avsikten att underlätta kontextväxling mellan agenter, optimera resursallokering, tillhandahålla verktygsservice för agenter, upprätthålla åtkomstkontroll för agenter och möjliggöra samtidig exekvering av agenter. AISO-arkitekturen visar potentialen att underlätta utveckling och driftsättning av stora språkmodellbaserade autonoma agenter, vilket resulterar i ett mer effektivt, sammanhållet och effektivt AIOS-Agent-ekosystem.

Strax

Snowflake Arctic: The Cutting-Edge LLM för Enterprise AI

Missa inte

Kan artificiell intelligens göra försäkringar mer överkomliga?

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.