Kunstig intelligens

OpenAgents: En åpen plattform for språkagenter i villmarken

Publisert 22. november 2023

Oppdatert 22. mai 2026

Kunal Kejriwal

De siste utviklingene har vist at språkagenter, spesielt de som er bygget på store språkmodeller (LLM), har potensialet til å utføre en rekke komplekse oppgaver i ulike miljøer ved hjelp av naturlig språk. Imidlertid har de fleste språkagent-rammeverk i dag fokus på å muliggjøre byggingen av proof-of-concept-språkagenter. Dette fokus kommer ofte med liten eller ingen oppmerksomhet på applikasjonsnivå-design og ignorerer ofte tilgjengeligheten av disse agentene for ikke-ekspertbrukere.

For å overvinne de nåværende begrensningene for språkagenter, har utviklere kommet med OpenAgents-rammeverket, en åpen plattform for vert og distribusjon av språkagenter i villmarken og over en rekke hverdagsoppgaver. OpenAgents-rammeverket er bygget rundt tre agenter

Data Agent: Hjelper med dataanalyse ved hjelp av dataverktøy og spørringsspråk som SQL eller programmeringsspråk som Python.

Plugin-agenter: Hjelper ved å gi tilgang til over 200+ API-verktøy som er nyttige for daglige oppgaver.

Web-agenter: Hjelper med å bla gjennom nettet mens du beholder din anonymitet.

OpenAgents-rammeverket bruker en webbasert brukergrensesnitt som er optimalisert for vanlige feil og raske svar i et forsøk på å tillate generelle brukere å interagere med agentfunksjoner, samtidig som det tilbyr forskere og utviklere en sømløs distribusjonsopplevelse på lokale oppsett. Det ville være trygt å si at OpenAgents-rammeverket er et forsøk på å gi en solid grunn for å muliggjøre virkelige vurderinger og å lage innovative, effektive og avanserte språkagenter.

I dagens artikkel vil vi dykke dyptere inn i OpenAgents-rammeverket og snakke om rammeverket i større detalj. Vi vil snakke om arbeid og arkitektur av rammeverket, samt diskutere de vanlige utfordringene og resultater. Så la oss komme i gang.

OpenAgents og språkagenter: En introduksjon

Språkagenter, i sin kjerne, er avledet fra intelligente agenter. Disse intelligente agentene er konseptualisert for å ha autonome problemløsningsevner, samt evnen til å sanse deres omgivelser, ta beslutninger og handle deretter. Med fremgangen i store språkmodeller, har den globale utviklingsmiljøet utnyttet konseptet om intelligente agenter og LLM til å skape språkagenter. Disse agentene bruker naturlig språkprogrammering (NLP) til å utføre en rekke komplekse oppgaver i ulike miljøer, og de har nylig vist bemerkelsesverdig potensiale.

De nåværende språkagent-rammeverkene, som Gravitas og Chase, tilbyr primært en konsollgrensesnitt tilpasset utviklere, samt proof-of-concept-implementeringer. Imidlertid begrenser de ofte tilgjengeligheten til en bredere publikum, spesielt de som ikke er kjent med kode. I tillegg er de nåværende agent-benchmarkene konstruert av utviklere med bestemte krav til deterministisk vurdering, spesielt i scenarier som krever nettlesing, kode, verktøybruk eller en kombinasjon av disse.

I et forsøk på å utvikle LLM-drevne intelligente og språkagenter for en bredere brukerbase, har etablerte spillere som OpenAI og Microsoft deployert en rekke godt designede produkter, inkludert avansert dataanalyse, også kjent som kodefortolker, og nettleser-utvidelser. Selv om disse agentene er effektive i deres funksjoner, tilbyr de begrenset hjelp til utviklingsmiljøet. Denne begrensningen oppstår fordi forretningslogikken og modellimplementeringene ikke er åpnet, hvilket hindrer mulighetene for utviklere og forskere til å utforske dem videre, samt begrenser gratis tilgang for brukere.

I et forsøk på å takle dette problemet, har utviklere kommet med OpenAgents, en åpen kildekode-plattform for vert og bruk av agenter, og det er for tiden bygget på en grunn av tre interne agenter

Data Agent: Hjelper med dataanalyse ved hjelp av dataverktøy og spørringsspråk som SQL eller programmeringsspråk som Python.

Plugin-agenter: Hjelper ved å gi tilgang til over 200+ API-verktøy som er nyttige for daglige oppgaver.

Web-agenter: Hjelper med å bla gjennom nettet mens du beholder din anonymitet.

Følgende figur demonstrerer OpenAgents-plattformen for generelle brukere, utviklere og forskere.

I stedet for å bruke et programmeringsorientert pakke eller konsoller, kan generelle brukere interagere med de tre agentene i OpenAgents-rammeverket ved hjelp av et nettbasert grensesnitt.
Utviklere kan bruke forretningslogikken og forskningskodene som er gitt av OpenAgents-rammeverket til å sømløst distribuere backend og frontend for videre utvikling.
Forskere har muligheten til å bygge nye språkagenter fra scratch eller implementere agent-relaterte metoder ved hjelp av de delte komponentene og eksemplene, og evaluere deres ytelse ved hjelp av nettgrensesnittet.

For å sammentre, er OpenAgents-rammeverket opprinnelig ment å være en helhetlig og realistisk plattform for menneske-i-løkken språkagent-vurdering som tillater brukere å interagere med disse agentene for å fullføre en rekke oppgaver, og disse menneske-agent-interaksjonene samt bruker-tilbakemeldinger lagres og analyseres for videre utvikling og vurdering.

For de som ikke er kjent med, er LLM-prompting en prosess som tillater utviklere å lage instruksjoner som beskytter mot adversarial eller feilaktige innputt, forbedrer utgangsæstetikken og tilpasser backend-logikken. Under utviklingsfasen bruker utviklerne av OpenAgents-rammeverket LLM-prompt-teknikken til å understreke betydningen av å spesifisere applikasjonskrav effektivt.

I følgende figur sammenligner vi OpenAgents-rammeverket direkte med eksisterende arbeid på benchmark på agent-konsept og bygging av prototyper.

OpenAgents: Plattform-design og implementering

Den systematiske designen eller arkitekturen av OpenAgents-plattformen kan deles inn i to primære komponenter: Bruker-grensesnitt, inkludert både backend og frontend, og Språkagent, bestående av verktøy, språkmodeller og miljøer. OpenAgents-rammeverket tilbyr et grensesnitt for kommunikasjon mellom brukere og agenter.

Agentene bruker verktøyene som er tilgjengelige for dem til å planlegge og utføre de nødvendige handlingene i miljøene når de har mottatt innputt fra brukerne. Arkitekturen eller den systematiske designen av rammeverket er demonstrert i følgende bilde.

Bruker-grensesnitt

Utviklerne av OpenAgents-rammeverket har lagt mye tanke og innsats i å utvikle ikke bare et høyt funksjonelt, men også et brukervennlig grensesnitt etter å ha tatt hånd om en mengde vert-agenter og gjenbrukbar forretningslogikk. Som et resultat har OpenAgents-rammeverket støtte for en rekke tekniske oppgaver, inkludert feilhåndtering, backend-server-operasjoner, datastrømming og mye mer, med det primære målet å gjøre OpenAgents-rammeverket brukervennlig, men høyt effektivt og brukbart samtidig.

Språkagent

Innenfor OpenAgents-rammeverket har språkagenten tre essensielle komponenter: et verktøy-grensesnitt, en språkmodell og miljøet selv. Prompt-metoden som er implementert i OpenAgents-rammeverket skaper en sekvensiell prosess for agentene å følge som starter med Observasjon -> Deliberasjon -> Handling. Rammeverket prompter også LLM til å generere parsbar tekst med forbedret effektivitet, og verktøy-grensesnittet består av parsere som kan oversette disse parsbare tekstene generert av LLM til eksekverbare handlinger som å lage API-kall eller generere kode.

OpenAgents: Praktiske anvendelser og virkelige verdens-deployering

I denne seksjonen vil vi snakke om banen til OpenAgents-rammeverket fra teoriserende til deployering i virkeligheten, samt de utfordringene som ble møtt og læringene som ble tilegnet, samt vurderingskompleksitetene utviklerne håndterte.

Bruke promptr til å transformere store språkmodeller til virkelige verdens-applikasjoner

Når man bruker LLM-promptr for å bygge virkelige verdens-applikasjoner for sluttbrukere, bruker OpenAgents-rammeverket prompt-instruksjoner til å spesifisere bestemte krav. Målet med noen av instruksjonene er å sikre at utgangen er i samsvar med en bestemt format, slik at backend-logikken kan prosessere, mens målet med andre instruksjoner er å forbedre utgangsæstetikken, mens resten beskytter rammeverket mot potensielle angrep.

Ukontrollerte virkelige verdens-faktorer

Når utviklerne deployerte OpenAgents-rammeverket i virkeligheten, ble de møtt av en rekke ukontrollerte virkelige verdens-faktorer utløst av internett-infrastruktur, brukere, forretningslogikk og mer. Disse ukontrollerte faktorene tvang utviklerne til å reevaluere og overtune noen antagelser basert på tidligere forskning, og de kunne ultimate føre til situasjoner hvor sluttbrukerne ikke var tilfreds med svaret som rammeverket genererte.

Vurderingskompleksitet

Selv om konstruerte agenter rettet direkte mot applikasjoner kan ha en bredere anvendelse og muliggjøre bedre vurdering, legger det til kompleksiteten av å bygge LLM-drevne applikasjoner, noe som gjør det vanskelig å analysere ytelsen til applikasjonene. Dette tilnærmingen legger også til ustabiliteten og utvider systemkjeden til LLM-ene, noe som gjør det vanskelig for rammeverket å tilpasse seg ulike komponenter.

Slutt-tanker

I denne artikkelen har vi snakket om OpenAgents-rammeverket, en åpen plattform for vert og deployering av språkagenter i villmarken og over en rekke hverdagsoppgaver. OpenAgents-rammeverket er bygget rundt tre agenter: Data Agent, som hjelper med dataanalyse ved hjelp av dataverktøy og spørringsspråk som SQL eller programmeringsspråk som Python, Plugin-agenter som hjelper ved å gi tilgang til over 200+ API-verktøy som er nyttige for daglige oppgaver, og Web-agenter som hjelper med å bla gjennom nettet mens du beholder din anonymitet. OpenAgents-rammeverket bruker et nettbasert brukergrensesnitt som er optimalisert for vanlige feil og raske svar i et forsøk på å tillate generelle brukere å interagere med agentfunksjoner, samtidig som det tilbyr forskere og utviklere en sømløs distribusjonsopplevelse på lokale oppsett. Ved å tilby en transparent, helhetlig og deploybar plattform, sikter OpenAgents på å gjøre potensialet til LLM-er tilgjengelig for en bredere rekke brukere, ikke bare forskere og utviklere, men også sluttbrukere med begrenset teknisk ekspertise.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.