Kunstig intelligens
OpenAgents: En åpen plattform for språkagenter i villmarken

Nylige utviklinger har vist at språkagenter, særlig de som er bygget på store språkmodeller (LLM), har potensialet til å utføre en rekke komplekse oppgaver i ulike miljøer ved hjelp av naturlig språk. Imidlertid er hovedfokuset for de fleste språkagent-rammeverk for tiden på å fasilitere konstruksjonen av proof-of-concept-språkagenter. Dette fokuset kommer ofte med liten eller ingen oppmerksomhet på applikasjonsnivå-design og neglisjerer ofte tilgjengeligheten av disse agentene for ikke-ekspertbrukere.
For å overvinne de nåværende begrensningene for språkagenter, har utviklere kommet opp med OpenAgents-rammeverket, en åpen plattform for vert og distribusjon av språkagenter i villmarken, og på tvers av en rekke hverdagsoppgaver. OpenAgents-rammeverket er bygget rundt tre agenter:
- Data Agent : hjelper med dataanalyse ved hjelp av dataverktøy og spørringsspråk som SQL, eller programmeringsspråk som Python.
- Plugin Agents : hjelper ved å gi tilgang til over 200+ API-verktøy som er nyttige for daglige oppgaver.
- Web Agents : hjelper med å bla gjennom nettet mens du beholder din anonymitet.
OpenAgents-rammeverket bruker et web-basert brukergrensesnitt som er optimalisert for vanlige feil og raske responser i et forsøk på å la generelle brukere samhandle med agentfunksjonaliteten, samtidig som det tilbyr forskere og utviklere en sømløs distribusjonsopplevelse på deres lokale oppsett. Det ville være trygt å si at OpenAgents-rammeverket er et forsøk på å gi en solid grunn for å fasilitere realverdens evalueringer og skape innovative, effektive og avanserte språkagenter.
I dagens artikkel vil vi gå dypere inn i OpenAgents-rammeverket og snakke om rammeverket i større detalj. Vi vil snakke om funksjonen og arkitekturen til rammeverket, samt diskutere de vanlige utfordringene og resultater. Så la oss komme i gang.
OpenAgents og språkagenter : En introduksjon
Språkagenter, i deres kjerneste, er avledet fra intelligente agenter. Disse intelligente agentene er konseptualisert for å ha autonomt problemløsende evner, samt evnen til å sanse deres omgivelser, ta beslutninger og handle deretter. Med fremgangen i store språkmodeller har den globale utviklingsfellesskapet utnyttet konseptet om intelligente agenter og LLM til å skape språkagenter. Disse agentene bruker naturlig språkprogrammering (NLP) til å utføre en rekke komplekse oppgaver i ulike miljøer, og de har nylig vist bemerkelsesverdig potensiale.
Nåværende språkagent-rammeverk, som Gravitas og Chase, tilbyr primært en konsollgrensesnitt tilpasset utviklere, samt proof-of-concept-implementeringer. Imidlertid begrenser de ofte tilgjengeligheten til en bredere publikum, særlig de som ikke er dyktige i kode. I tillegg begrenser nåværende agent-benchmark konstrueres av utviklere med bestemte krav til deterministisk evaluering, særlig i scenarier som krever nettlesing, kode, verktøybruk eller en kombinasjon av disse.
I et forsøk på å utvikle LLM-drevne intelligente og språkagenter for en bredere brukerbase, har etablerte spillere som OpenAI og Microsoft distribuert en rekke godt designede produkter, inkludert avansert dataanalyse, også kjent som kodefortolker, og nettleser-utvidelser. Selv om disse agentene er effektive i deres funksjoner, tilbyr de begrenset hjelp til utviklingsfellesskapet. Denne begrensningen oppstår fordi forretningslogikk-koden og modellimplementeringene ikke er åpnet, og hindrer mulighetene for utviklere og forskere til å ytterligere utforske dem, samt begrenser gratis tilgang for brukere.
For å takle dette problemet, har utviklere kommet opp med OpenAgents, en åpen plattform for vert og bruk av agenter, og det er for tiden bygget på en grunn av tre interne agenter:
- Data Agent : hjelper med dataanalyse ved hjelp av dataverktøy og spørringsspråk som SQL, eller programmeringsspråk som Python.
- Plugin Agents : hjelper ved å gi tilgang til over 200+ API-verktøy som er nyttige for daglige oppgaver.
- Web Agents : hjelper med å bla gjennom nettet mens du beholder din anonymitet.
Følgende figur demonstrerer OpenAgents-plattformen for generelle brukere, utviklere og forskere.

- I stedet for å bruke et programmeringsorientert pakke eller konsoller, kan generelle brukere samhandle med de tre agentene i OpenAgents-rammeverket ved hjelp av et nettbasert grensesnitt.
- Utviklere kan bruke forretningslogikk- og forskningskodene som tilbys av OpenAgents-rammeverket til å sømløst distribuere backend og frontend for videre utvikling.
- Forskere har muligheten til å enten bygge nye språkagenter fra bunnen av, eller implementere agent-relaterte metoder ved hjelp av de delte komponentene og eksemplene, og evaluere deres ytelse ved hjelp av nettgrensesnittet.
For å summere det opp, er OpenAgents-rammeverket opprinnelig ment å være en helhetlig og realistisk plattform for menneske-i-løkken språkagent-evaluering som lar brukere samhandle med disse agentene for å fullføre en rekke oppgaver, og disse menneske-agent-interaksjonene samt bruker-tilbakemeldingene lagres og analyseres for videre utvikling og evaluering.
For de som ikke er klar over det, er LLM-prompting en prosess som lar utviklere skape instruksjoner som beskytter mot motstridende eller feilaktige inndata, forbedrer utgangsæstetikken og tilpasser seg backend-logikken. Under utviklingsfasen bruker utviklerne av OpenAgents-rammeverket LLM-prompting-teknikken til å understreke betydningen av å spesifisere applikasjonskrav effektivt. Imidlertid observerte utviklerne snart at oppbyggingen av disse instruksjonene eller LLM-promptene kan være betydelig noen ganger, og kan påvirke kontekstbehandlings-evnene til LLM-rammeverkene samt token-begrensninger. Utviklerne observerte også at for å distribuere disse agentene effektivt i den virkelige verden, må agentmodellene ikke bare vise eksepsjonell ytelse, men de må også kunne takle en rekke interaktive scenarier i sanntid. Selv om nåværende agent-rammeverk har dekning av ytelse, ignorerer de ofte realverdens-overveielser, særlig i sanntid, og dette kan ofte skjule det virkelige potensialet til LLM-rammeverkene ved å bytte av respons eller nøyaktighet.
I følgende figur sammenligner vi OpenAgents-rammeverket direkte med eksisterende arbeid på benchmark på agent-konsept og bygging av prototyper.

OpenAgents : Plattform-design og implementering
Den systematiske designen eller arkitekturen til OpenAgents-plattformen kan deles inn i to primære komponenter: Brukergrensesnitt, inkludert både backend og frontend, og Språkagent, som består av verktøy, språkmodeller og miljøer. OpenAgents-rammeverket tilbyr et grensesnitt for kommunikasjon mellom brukerne og agentene. Interaksjonsflyten i rammeverket er som følger.
Agentene bruker verktøyene som er tilgjengelige for dem til å planlegge og utføre de nødvendige handlingene i miljøene når de har mottatt inndata fra brukerne. Arkitekturen eller systematiske designet til rammeverket er demonstrert i følgende bilde.

Brukergrensesnitt
Utviklerne av OpenAgents-rammeverket har lagt ned mye tanker og arbeid i å utvikle ikke bare et høyt funksjonelt, men også et brukervennlig grensesnitt etter å ha taklet en mengde vert-agenter og gjenbrukbar forretningslogikk. Som et resultat tilbyr OpenAgents-rammeverket støtte for en rekke tekniske oppgaver, inkludert feilhåndtering, backend-serveroperasjoner, datastrømming og mye mer, med det primære målet å gjøre OpenAgents-rammeverket brukervennlig, men høyt effektivt og brukbart samtidig.
Språkagent
Innenfor OpenAgents-rammeverket har språkagenten tre essensielle komponenter: et verktøygrensesnitt, en språkmodell og miljøet selv. Prompt-metoden implementert i OpenAgents-rammeverket skaper en sekvensiell prosess for agentene å følge som starter med Observasjon -> Overveielse -> Handling. Rammeverket prompter også LLM til å generere parsbar tekst med forbedret effektivitet, og verktøygrensesnittet består av parsere som kan oversette disse parsbare tekstene generert av LLM til utførbare handlinger som å lage API-kall eller generere kode. Disse handlingene utføres deretter av rammeverket innenfor grensene av det tilsvarende miljøet.










