Kunstig intelligens

AIOS: Operativsystem for LLM-agenter

Publisert

2 uker siden

April 25, 2024

I løpet av de siste seks tiårene har operativsystemene utviklet seg gradvis, fra grunnleggende systemer til de komplekse og interaktive operativsystemene som driver dagens enheter. Opprinnelig fungerte operativsystemer som en bro mellom den binære funksjonaliteten til maskinvare, for eksempel portmanipulasjon, og oppgaver på brukernivå. Gjennom årene har de imidlertid utviklet seg fra enkle batch-jobbbehandlingssystemer til mer sofistikerte prosesshåndteringsteknikker, inkludert multitasking og tidsdeling. Disse fremskrittene har gjort det mulig for moderne operativsystemer å håndtere et bredt spekter av komplekse oppgaver. Introduksjonen av grafiske brukergrensesnitt (GUI) som Windows og MacOS har gjort moderne operativsystemer mer brukervennlige og interaktive, samtidig som OS-økosystemet utvidet med runtime-biblioteker og en omfattende pakke med utviklerverktøy.

Nylige innovasjoner inkluderer integrering og distribusjon av Store språkmodeller (LLMs), som har revolusjonert ulike bransjer ved å låse opp nye muligheter. Nylig har LLM-baserte intelligente agenter vist bemerkelsesverdige evner, og oppnådd menneskelignende ytelse på et bredt spekter av oppgaver. Imidlertid er disse midlene fortsatt i de tidlige utviklingsstadiene, og nåværende teknikker står overfor flere utfordringer som påvirker deres effektivitet og effektivitet. Vanlige problemer inkluderer suboptimal planlegging av agentforespørsler over den store språkmodellen, kompleksiteten i å integrere agenter med forskjellige spesialiseringer og opprettholde kontekst under interaksjoner mellom LLM og agenten. Den raske utviklingen og økende kompleksiteten til LLM-baserte agenter fører ofte til flaskehalser og suboptimal ressursbruk.

For å løse disse utfordringene vil denne artikkelen diskutere AIOS, et LLM-agentoperativsystem designet for å integrere store språkmodeller som 'hjernen' til operativsystemet, og effektivt gi det en 'sjel'. Spesifikt har AIOS-rammeverket som mål å lette kontekstbytte på tvers av agenter, optimalisere ressursallokering, tilby verktøytjenester for agenter, opprettholde tilgangskontroll og muliggjøre samtidig kjøring av agenter. Vi vil dykke dypt inn i AIOS-rammeverket, utforske dets mekanismer, metodikk og arkitektur, og sammenligne det med state-of-the-art rammeverk. La oss dykke inn.

Etter å ha oppnådd bemerkelsesverdig suksess i store språkmodeller, er neste fokus for AI- og ML-industrien å utvikle autonome AI-agenter som kan operere uavhengig, ta beslutninger på egenhånd og utføre oppgaver med minimale eller ingen menneskelige inngrep. Disse AI-baserte intelligente agentene er designet for å forstå menneskelige instruksjoner, behandle informasjon, ta beslutninger og iverksette passende handlinger for å oppnå en autonom tilstand, med fremkomsten og utviklingen av store språkmodeller som gir nye muligheter for utviklingen av disse autonome agentene. Nåværende LLM-rammeverk inkludert DALL-E, GPT og flere har vist bemerkelsesverdige evner til å forstå menneskelige instruksjoner, resonnement og problemløsningsevner, og samhandle med menneskelige brukere sammen med eksterne miljøer. Bygget på toppen av disse kraftige og dyktige store språkmodellene, har LLM-baserte agenter sterke oppgaveoppfyllingsevner i forskjellige miljøer som spenner fra virtuelle assistenter til mer komplekse og sofistikerte systemer som involverer å skape problemløsning, resonnement, planlegging og utførelse.

Figuren ovenfor gir et overbevisende eksempel på hvordan en LLM-basert autonom agent kan løse reelle oppgaver. Brukeren ber systemet om en reiseinformasjon, hvoretter reisebyrået bryter ned oppgaven i kjørbare trinn. Deretter utfører agenten trinnene sekvensielt, bestiller flyreiser, reserverer hotell, behandler betalinger og mer. Mens de utfører trinnene, er det som skiller disse agentene fra tradisjonelle programvareapplikasjoner agentenes evne til å vise beslutningstakingsevner, og inkludere resonnement i utførelsen av trinnene. Sammen med en eksponentiell vekst i kvaliteten på disse autonome agenter, belastningen på funksjonaliteten til store språkmodeller og operativsystemer har vært vitne til en økning, og et eksempel på det samme er at prioritering og planlegging av agentforespørsler i begrensede store språkmodeller utgjør en betydelig utfordring. Videre, siden genereringsprosessen av store språkmodeller blir en tidkrevende oppgave når man håndterer lange sammenhenger, er det mulig for planleggeren å suspendere den resulterende generasjonen, noe som reiser et problem med å utforme en mekanisme for å øyeblikksbilde det nåværende generasjonsresultatet av språkmodellen . Som et resultat av dette aktiveres pause/gjenoppta atferd når den store språkmodellen ikke har fullført svargenereringen for gjeldende forespørsel.

For å møte utfordringene nevnt ovenfor, gir AIOS, et operativsystem med stor språkmodell, aggregering og modulisolering av LLM- og OS-funksjoner. AIOS-rammeverket foreslår en LLM-spesifikk kjernedesign i et forsøk på å unngå potensielle konflikter som oppstår mellom oppgaver assosiert med og ikke assosiert med den store språkmodellen. Den foreslåtte kjernen skiller operativsystemet som plikter, spesielt de som fører tilsyn med LLM-agentene, utviklingsverktøysettene og deres tilsvarende ressurser. Som et resultat av denne segregeringen forsøker LLM-kjernen å forbedre koordineringen og styringen av aktiviteter knyttet til LLM-er.

AIOS: Metodikk og arkitektur

Som du kan observere, er det seks hovedmekanismer involvert i arbeidet med AIOS-rammeverket.

Agentplanlegger: Oppgaven som er tildelt agentplanleggeren er å planlegge og prioritere agentforespørsler i et forsøk på å optimalisere bruken av den store språkmodellen.

Kontekstbehandling: Oppgaven som er tildelt kontekstbehandlingen er å støtte øyeblikksbilder sammen med å gjenopprette mellomgenerasjonsstatusen i den store språkmodellen, og kontekstvindusadministrasjonen til den store språkmodellen.

Minnebehandling: Minneadministratorens primære ansvar er å sørge for korttidsminne for interaksjonsloggen for hver agent.

Lagringsansvarlig: Lagringslederen er ansvarlig for å opprettholde interaksjonsloggene til agenter til langtidslagring for fremtidig gjenfinning.

Verktøybehandler: Verktøybehandlingsmekanismen administrerer oppkallingen av agenter til eksterne API-verktøy.

Access Manager: Tilgangsadministratoren håndhever retningslinjer for personvern og tilgangskontroll mellom agenter.

I tillegg til de ovennevnte mekanismene har AIOS-rammeverket en lagdelt arkitektur, og er delt inn i tre forskjellige lag: applikasjonslaget, kjernelaget og maskinvarelaget. Den lagdelte arkitekturen implementert av AIOS-rammeverket sikrer at ansvaret fordeles jevnt over systemet, og de høyere lagene abstraherer kompleksiteten til lagene under dem, noe som gir mulighet for interaksjoner ved bruk av spesifikke moduler eller grensesnitt, forbedrer modulariteten og forenkler systeminteraksjoner mellom lag.

Fra og med applikasjonslaget, brukes dette laget til å utvikle og distribuere applikasjonsagenter som matematikk eller reisebyråer. I applikasjonslaget gir AIOS-rammeverket AIOS-programvareutviklingssettet (AIOS SDK) med en høyere abstraksjon av systemkall som forenkler utviklingsprosessen for agentutviklere. Programvareutviklingssettet som tilbys av AIOS tilbyr et rikt verktøysett for å lette utviklingen av agentapplikasjoner ved å abstrahere bort kompleksiteten til systemfunksjonene på lavere nivå, slik at utviklere kan fokusere på funksjonalitet og essensiell logikk til agentene deres, noe som resulterer i en mer effektiv utvikling prosess.

Når du går videre, er kjernelaget videre delt inn i to komponenter: LLM-kjernen og OS-kjernen. Både OS-kjernen og LLM-kjernen tjener de unike kravene til LLM-spesifikke og ikke LLM-operasjoner, med forskjellen som lar LLM-kjernen fokusere på store språkmodellspesifikke oppgaver, inkludert agentplanlegging og kontekstadministrasjon, aktiviteter som er avgjørende for å håndtere aktiviteter knyttet til store språkmodeller. AIOS-rammeverket konsentrerer seg først og fremst om å forbedre den store språkmodellkjernen uten å endre strukturen til den eksisterende OS-kjernen vesentlig. LLM-kjernen er utstyrt med flere nøkkelmoduler, inkludert agentplanleggeren, minnebehandleren, kontekstbehandleren, lagringsbehandleren, tilgangsbehandleren, verktøybehandleren og LLM-systemanropsgrensesnittet. Komponentene i kjernelaget er utformet i et forsøk på å møte de forskjellige utførelsesbehovene av agentapplikasjoner, som sikrer effektiv utførelse og administrasjon innenfor AIOS-rammeverket.

Til slutt har vi maskinvarelaget som omfatter de fysiske komponentene i systemet, inkludert GPU, CPU, perifere enheter, disk og minne. Det er viktig å forstå at systemet til LLM-kjernene ikke kan samhandle med maskinvaren direkte, og disse samtalene har grensesnitt med systemkallene til operativsystemet som igjen administrerer maskinvareressursene. Denne indirekte interaksjonen mellom LLM-karnelens system og maskinvareressursene skaper et lag med sikkerhet og abstraksjon, slik at LLM-kjernen kan utnytte egenskapene til maskinvareressurser uten å kreve administrasjon av maskinvare direkte, noe som letter vedlikeholdet av integriteten og effektiviteten til systemet. .

Gjennomføring

Som nevnt ovenfor er det seks hovedmekanismer involvert i arbeidet med AIOS-rammeverket. Agentplanleggeren er utformet på en måte som er i stand til å administrere agentforespørsler på en effektiv måte, og har flere utførelsestrinn i motsetning til et tradisjonelt sekvensielt utførelsesparadigme der agenten behandler oppgavene på en lineær måte med trinnene fra samme. agent behandles først før han går videre til neste agent, noe som resulterer i økte ventetider for oppgaver som vises senere i utførelsessekvensen. Agentplanleggeren bruker strategier som Round Robin, First In First Out og andre planleggingsalgoritmer for å optimalisere prosessen.

Kontekstmanageren er utformet på en måte at den er ansvarlig for å administrere konteksten gitt til den store språkmodellen, og generasjonsprosessen gitt den bestemte konteksten. Kontekstbehandlingen involverer to viktige komponenter: kontekstbilde og gjenoppretting, og kontekstvinduadministrasjon. Kontekstbildet og gjenopprettingsmekanismen som tilbys av AIOS-rammeverket hjelper til med å redusere situasjoner der planleggeren suspenderer agentforespørslene som vist i følgende figur.

Som vist i den følgende figuren er det minneadministratorens ansvar å administrere korttidsminnet innenfor en agents livssyklus, og sørger for at dataene lagres og er tilgjengelige bare når agenten er aktiv, enten under kjøretid eller når agenten venter for utførelse.

På den annen side er lagringssjefen ansvarlig for å bevare dataene i det lange løp, og den fører tilsyn med lagringen av informasjon som må oppbevares på ubestemt tid, utover aktivitetslevetiden til en individuell agent. AISO-rammeverket oppnår permanent lagring ved å bruke en rekke holdbare medier, inkludert skybaserte løsninger, databaser og lokale filer, og sikrer datatilgjengelighet og integritet. Videre, i AISO-rammeverket, er det verktøybehandleren som administrerer et varierende utvalg av API-verktøy som forbedrer funksjonaliteten til de store språkmodellene, og følgende tabell oppsummerer hvordan verktøybehandleren integrerer vanlige verktøy fra ulike ressurser, og klassifiserer dem. i ulike kategorier.

Tilgangsadministratoren organiserer tilgangskontrolloperasjoner innenfor distinkt agenter ved å administrere en dedikert rettighetsgruppe for hver agent, og nekter en agent tilgang til ressursene hvis de er ekskludert fra agentens rettighetsgruppe. I tillegg er tilgangsbehandleren også ansvarlig for å kompilere og vedlikeholde revisjonslogger som forbedrer gjennomsiktigheten til systemet ytterligere.

AIOS: Eksperimenter og resultater

Evalueringen av AIOS-rammeverket styres av to forskningsspørsmål: For det første, hvordan er ytelsen til AIOS-planlegging for å forbedre balansevente- og behandlingstid, og for det andre, om svaret fra LLM på agentforespørsler er konsistent etter agentsuspensjon?

For å svare på konsistensspørsmålene kjører utviklere hver av de tre agentene individuelt, og deretter kjører disse agentene parallelt, og prøver å fange opp utdataene deres under hvert trinn. Som vist i tabellen nedenfor, oppnår BERT- og BLEU-skårene verdien 1.0, noe som indikerer en perfekt justering mellom utgangene generert i enkeltagent- og multiagentkonfigurasjoner.

For å svare på effektivitetsspørsmålene gjennomfører utviklerne en sammenlignende analyse mellom AIOS-rammeverket som bruker FIFO eller First In First Out-planlegging, og en ikke-planlagt tilnærming, der agentene kjører samtidig. I den ikke-planlagte innstillingen kjøres agentene i en forhåndsdefinert sekvensiell rekkefølge: Math-agent, Narrating-agent og rec-agent. For å vurdere den tidsmessige effektiviteten bruker AIOS-rammeverket to beregninger: ventetid og behandlingstid, og siden agentene sender flere forespørsler til den store språkmodellen, beregnes ventetiden og behandlingstiden for individuelle agenter som gjennomsnittet av ventetid og behandlingstid for alle forespørslene. Som vist i følgende tabell viser den ikke-planlagte tilnærmingen tilfredsstillende ytelse for agenter tidligere i sekvensen, men lider av lengre vente- og behandlingstider for agenter senere i sekvensen. På den annen side regulerer planleggingstilnærmingen implementert av AIOS-rammeverket både ventetiden og behandlingstiden effektivt.

Final Thoughts

I denne artikkelen har vi snakket om AIOS, et LLM-agentoperativsystem som er designet i et forsøk på å bygge inn store språkmodeller i OS som hjernen til OS, noe som muliggjør et operativsystem med en sjel. For å være mer spesifikk er AIOS-rammeverket designet med den hensikt å lette kontekstbytte på tvers av agenter, optimalisere ressursallokering, tilby verktøytjenester for agenter, opprettholde tilgangskontroll for agenter og muliggjøre samtidig utførelse av agenter. AISO-arkitekturen viser potensialet for å lette utviklingen og distribusjonen av store språkmodellbaserte autonome agenter, noe som resulterer i et mer effektivt, sammenhengende og effektivt AIOS-Agent-økosystem.

Neste

Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Ikke gå glipp av

Kan kunstig intelligens gjøre forsikring rimeligere?

Kunal Kejriwal

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.