stub Utover ChatGPT; AI Agent: A New World of Workers - Unite.AI
Kontakt med oss

AI-verktøy 101

Utover ChatGPT; AI Agent: A New World of Workers

mm

Publisert

 on

Med fremskritt innen dyp læring, naturlig språkbehandling (NLP) og AI, er vi inne i en tidsperiode hvor AI-agenter kan utgjøre en betydelig del av den globale arbeidsstyrken. Disse AI-agentene, som overskrider chatboter og stemmeassistenter, former et nytt paradigme for både bransjer og våre daglige liv. Men hva betyr det egentlig å leve i en verden forsterket av disse «arbeiderne»? Denne artikkelen dykker dypt inn i dette landskapet i utvikling, og vurderer implikasjonene, potensialet og utfordringene som ligger foran oss.

En kort oppsummering: utviklingen av AI-arbeidere

Før du forstår den forestående revolusjonen, er det avgjørende å gjenkjenne den AI-drevne utviklingen som allerede har skjedd.

  • Tradisjonelle datasystemer: Fra grunnleggende dataalgoritmer begynte reisen. Disse systemene kan løse forhåndsdefinerte oppgaver ved å bruke et fast sett med regler.
  • Chatbots og Early Voice Assistants: Etter hvert som teknologien utviklet seg, gjorde grensesnittene våre det også. Verktøy som Siri, Cortana og tidlige chatbots forenklet bruker-AI-interaksjon, men hadde begrenset forståelse og kapasitet.
  • Nevrale nettverk og dyp læring: Nevrale nettverk markerte et vendepunkt, etterlignet menneskelige hjernefunksjoner og utviklet seg gjennom erfaring. Dyplæringsteknikker forbedret dette ytterligere, og muliggjorde sofistikert bilde- og talegjenkjenning.
  • Transformatorer og avanserte NLP-modeller: Introduksjonen av transformatorarkitekturer revolusjonerte NLP-landskapet. Systemer som ChatGPT av OpenAI, BERT og T5 har aktivert gjennombrudd innen menneskelig-AI-kommunikasjon. Med sitt dype grep om språk og kontekst kan disse modellene holde meningsfulle samtaler, skrive innhold og svare på komplekse spørsmål med enestående nøyaktighet.

Gå inn i AI-agenten: Mer enn bare en samtale

dagens AI-landskap antyder noe mer omfattende enn samtaleverktøy. AI-agenter, utover bare chat-funksjoner, kan nå utføre oppgaver, lære av miljøene sine, ta beslutninger og til og med utvise kreativitet. De svarer ikke bare på spørsmål; de løser problemer.

Tradisjonelle programvaremodeller fungerte på en klar vei. Interessenter uttrykte et mål til programvareledere, som deretter utformet en spesifikk plan. Ingeniører ville utføre denne planen gjennom kodelinjer. Dette 'legacy-paradigmet' av programvarefunksjonalitet var tydelig, og involverte en mengde menneskelige inngrep.

AI-agenter fungerer imidlertid annerledes. En agent:

  1. Har mål den søker å oppnå.
  2. Kan samhandle med dens miljø.
  3. Formulerer a fly basert på disse observasjonene for å nå målet.
  4. Tar nødvendig handlinger, justere sin tilnærming basert på miljøets skiftende tilstand.

Det som virkelig skiller AI-agenter fra tradisjonelle modeller er deres evne til autonomt å lage en trinn-for-trinn-plan for å realisere et mål. I hovedsak, mens programmereren tidligere ga planen, kartlegger dagens AI-agenter kursen sin.

Tenk på et hverdagslig eksempel. I tradisjonell programvaredesign vil et program varsle brukere om forfalte oppgaver basert på forhåndsbestemte forhold. Utviklerne ville sette disse betingelsene basert på spesifikasjoner gitt av produktsjefen.

I AI-agentparadigmet bestemmer agenten selv når og hvordan han skal varsle brukeren. Den måler miljøet (brukerens vaner, applikasjonstilstand) og bestemmer den beste handlingen. Prosessen blir dermed mer dynamisk, mer i øyeblikket.

ChatGPT markerte en avvik fra sin tradisjonelle bruk med integrering av plugins, og dermed tillot den å utnytte eksterne verktøy for å utføre flere forespørsler. Det ble en tidlig manifestasjon av agentkonseptet. Hvis vi tar for oss et enkelt eksempel: en bruker som spør om New York Citys vær, kan ChatGPT, ved å bruke plugins, samhandle med en ekstern vær-API, tolke dataene og til og med kurskorrigere basert på svarene mottatt.

Nåværende landskap av AI-agenter

Nåværende landskap av AI-agenter

AI-agenter, inkludert Auto-GPT, AgentGPT og BabyAGI, varsler en ny æra i det ekspansive AI-universet. Mens ChatGPT ble populært Generativ AI ved å kreve menneskelig input, er visjonen bak AI-agenter å gjøre AI-er i stand til å fungere uavhengig, styre mot mål med liten eller ingen menneskelig innblanding. Dette transformative potensialet har blitt understreket av Auto-GPTs meteoriske oppgang, og innhentet over 107,000 XNUMX stjerner på GitHub innen bare seks uker etter starten, en enestående vekst sammenlignet med etablerte prosjekter som datavitenskapspakken 'pandas'.

AI-agenter vs. ChatGPT

Mange avanserte AI-agenter, som Auto-GPT og BabyAGI, bruker GPT-arkitekturen. Deres primære fokus er å minimere behovet for menneskelig intervensjon i fullføring av AI-oppgaver. Beskrivende termer som "GPT on a loop" karakteriserer driften av modeller som AgentGPT og BabyAGI. De opererer i iterative sykluser for å bedre forstå brukerforespørsler og avgrense utdataene deres. I mellomtiden flytter Auto-GPT grensene ytterligere ved å inkorporere internettilgang og kodeutførelsesmuligheter, noe som utvider problemløsningsrekkevidden betydelig.

Innovasjoner i AI-agenter

  1. Langtidsminne: Tradisjonelle LLM-er har et begrenset minne, og beholder bare de siste segmentene av interaksjoner. For omfattende oppgaver blir det avgjørende å huske hele samtalen eller til og med tidligere. For å overkomme dette har AI-agenter tatt i bruk innebygde arbeidsflyter, konvertert tekstsamtaler til numeriske arrays, og tilbyr en løsning på minnebegrensninger.
  2. Web-surfing evner: For å holde deg oppdatert med nylige hendelser, har Auto-GPT blitt bevæpnet med nettleserfunksjoner ved å bruke Google Search API. Dette har skapt debatter i AI-fellesskapet angående omfanget av en AIs kunnskap.
  3. Kjører kode: Utover å generere kode, kan Auto-GPT kjøre både shell- og Python-koder. Denne enestående evnen gjør at den kan kommunisere med annen programvare, og dermed utvide sitt operative domene.

AI AGENTS ARCHITECTURE AUTOGPT, AGENTGPT, LLM, MEMORY OG mer

Diagrammet visualiserer arkitekturen til et AI-system drevet av en stor språkmodell og agenter.

  • Innganger: Systemet mottar data fra forskjellige kilder: direkte brukerkommandoer, strukturerte databaser, webinnhold og sanntids miljøsensorer.
  • LLM og agenter: I kjernen behandler LLM disse inputene, og samarbeider med spesialiserte agenter som Auto-GPT for tankelenking, AgentGPT for nettspesifikke oppgaver, BabyAGI for oppgavespesifikke handlinger, og HuggingGPT for teambasert behandling.
  • Utganger: Når informasjonen er behandlet, transformeres den til et brukervennlig format og deretter videresendes til enheter som kan virke på eller påvirke de ytre omgivelsene.
  • Minnekomponenter: Systemet beholder informasjon, både på midlertidig og permanent basis, gjennom kortsiktige cacher og langsiktige databaser.
  • Miljø: Dette er det ytre området, som påvirker sensorene og påvirkes av systemets handlinger.

Avanserte AI-agenter: Auto-GPT, BabyAGI og mer

AutoGPT og AgentGPT

AutoGPT, et brainchild utgitt på GitHub i mars 2023, er en genial Python-basert applikasjon som utnytter kraften til GPT, OpenAIs transformative generative modell. Det som skiller Auto-GPT fra sine forgjengere er dens autonomi – den er designet for å utføre oppgaver med minimal menneskelig veiledning og har den unike evnen til selv å starte spørsmål. Brukere trenger ganske enkelt å definere et overordnet mål, og Auto-GPT lager de nødvendige instruksjonene for å oppnå dette, noe som gjør det til et potensielt revolusjonerende sprang mot ekte kunstig generell intelligens (AGI).

Med funksjoner som spenner over internett-tilkobling, minneadministrasjon og fillagringsmuligheter ved hjelp av GPT-3.5, er dette verktøyet dyktig til å håndtere et bredt spekter av oppgaver, fra konvensjonelle oppgaver som e-postsammensetning til intrikate oppgaver som typisk vil kreve mye mer menneskelig involvering.

På den annen side, AgentGPT, også bygget på GPT-rammeverket, er et brukersentrisk grensesnitt som ikke krever omfattende kodeekspertise for å sette opp og bruke. AgentGPT lar brukere definere AI-mål, som den deretter dissekerer til håndterbare oppgaver.

AgentGPT AI AGENT LLM

AgentGPT UI

Videre skiller AgentGPT seg ut for sin allsidighet. Det er ikke begrenset til å lage chatbots. Plattformen utvider sine evner til å lage forskjellige applikasjoner som Discord-roboter og integreres til og med sømløst med Auto-GPT. Denne tilnærmingen sikrer at selv de uten omfattende kodebakgrunn kan utføre oppgaver som fullstendig autonom koding, tekstgenerering, språkoversettelse og problemløsning.

Langkjede er et rammeverk som bygger bro mellom store språkmodeller (LLMs) med ulike verktøy og bruker agenter, ofte oppfattet som 'bots', for å bestemme og utføre spesifikke oppgaver ved å velge riktig verktøy. Disse agentene integreres sømløst med eksterne ressurser, mens en vektordatabase i LangChain lagrer ustrukturerte data, noe som muliggjør rask informasjonshenting for LLM-er.

BabyAGI

Så er det BabyAGI, en forenklet, men kraftig agent. For å forstå BabyAGIs evner, se for deg en digital prosjektleder som selvstendig skaper, organiserer og utfører oppgaver med skarpt fokus på gitte mål. Mens de fleste AI-drevne plattformer er begrenset av deres forhåndstrente kunnskap, skiller BabyAGI seg ut for sin evne til å tilpasse seg og lære av erfaringer. Den har en dyp evne til å skjelne tilbakemeldinger og, som mennesker, basere beslutninger på prøving og feiling.

Spesielt er den underliggende styrken til BabyAGI ikke bare dens tilpasningsevne, men også dens ferdigheter i å kjøre kode for spesifikke mål. Det skinner i komplekse domener, som handel med kryptovaluta, robotikk og autonom kjøring, noe som gjør det til et allsidig verktøy i en mengde applikasjoner.

BABYAGI oppgavedrevet autonom agent

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Prosessen kan kategoriseres i tre agenter:

  1. Henrettelsesagent: Hjertet av systemet, denne agenten utnytter OpenAIs API for oppgavebehandling. Gitt et mål og en oppgave, spør den OpenAIs API og henter oppgaveutfall.
  2. Agent for oppgaveoppretting: Denne funksjonen lager nye oppgaver basert på tidligere resultater og nåværende mål. En melding sendes til OpenAIs API, som deretter returnerer potensielle oppgaver, organisert som en liste over ordbøker.
  3. Oppgaveprioriteringsagent: Den siste fasen innebærer rekkefølge av oppgavene basert på prioritering. Denne agenten bruker OpenAIs API for å omorganisere oppgaver for å sikre at de mest kritiske blir utført først.

I samarbeid med OpenAIs språkmodell utnytter BabyAGI egenskapene til Pinecone for lagring og gjenfinning av kontekstsentriske oppgaveresultater.

Nedenfor er en demonstrasjon av BabyAGI ved hjelp av denne koblingen.

For å begynne trenger du en gyldig OpenAPI-nøkkel. For enkel tilgang har brukergrensesnittet en innstillingsdel der OpenAPI-nøkkelen kan legges inn. I tillegg, hvis du ønsker å administrere kostnader, husk å sette en grense for antall iterasjoner.

Når jeg hadde konfigurert applikasjonen, gjorde jeg et lite eksperiment. Jeg la ut en melding til BabyAGI: "Lag en kortfattet tweet-tråd med fokus på reisen til personlig vekst, berør milepæler, utfordringer og den transformative kraften til kontinuerlig læring."

BabyAGI svarte med en gjennomtenkt plan. Det var ikke bare en generisk mal, men et omfattende veikart som indikerte at den underliggende AI virkelig hadde forstått nyansene i forespørselen.

BABYAGI oppgavedrevet autonom agent

Deepnote AI Copilot

Deepnote AI Copilot omformer dynamikken i datautforskning i bærbare datamaskiner. Men hva skiller det?

I kjernen har Deepnote AI som mål å øke arbeidsflyten til dataforskere. I det øyeblikket du gir en rudimentær instruksjon, springer AI til handling, utarbeider strategier, utfører SQL-spørringer, visualiserer data ved hjelp av Python og presenterer funnene på en artikulert måte.

En av Deepnote AIs styrker er dens omfattende forståelse av arbeidsområdet ditt. Ved å forstå integrasjonsskjemaer og filsystemer, tilpasser den sine utførelsesplaner perfekt med den organisatoriske konteksten, og sikrer at innsikten alltid er relevant.

AIs integrasjon med bærbare medier skaper en unik tilbakemeldingssløyfe. Den vurderer aktivt kodeutganger, noe som gjør den dyktig til selvkorrigering og sikrer at resultatene stemmer overens med fastsatte mål.

Deepnote AI skiller seg ut for sine transparente operasjoner, og gir klar innsikt i prosessene. Sammenvevingen av kode og utdata sikrer at handlingene alltid er ansvarlige og reproduserbare.

CAMEL

CAMEL er et rammeverk som søker å fremme samarbeid mellom AI-agenter, med sikte på effektiv oppgavefullføring med minimal menneskelig tilsyn.

CAMEL AI AGENT

https://github.com/camel-ai/camel

Den deler sin virksomhet i to hovedagenttyper:

  • AI-brukeragenten legger ut instruksjoner.
  • AI Assistant Agent utfører oppgaver basert på de oppgitte direktivene.

En av CAMELs ambisjoner er å avdekke vanskelighetene ved AI-tankeprosesser, med sikte på å optimalisere synergiene mellom flere agenter. Med funksjoner som rollespill og startspørring, sikrer den AI-oppgaver sømløst på linje med menneskelige mål.

Westworld Simulation: Life into AI

Avledet fra inspirasjoner som Unity-programvare og tilpasset i Python Westworld-simulering er et sprang inn i simulering og optimalisering av miljøer der flere AI-agenter samhandler, nesten som et digitalt samfunn.

Generative agenter

Generative agenter

Disse agentene er ikke bare digitale enheter. De simulerer troverdig menneskelig atferd, fra daglige rutiner til komplekse sosiale interaksjoner. Arkitekturen deres utvider en stor språkmodell for å lagre opplevelser, reflektere over dem og bruke dem til dynamisk atferdsplanlegging.

Westworlds interaktive sandkassemiljø, som minner om The Sims, vekker liv til en by befolket av generative agenter. Her kan brukere samhandle, se og veilede disse agentene gjennom dagen, observere fremvoksende atferd og kompleks sosial dynamikk.

Westworld-simulering eksemplifiserer den harmoniske blandingen av beregningsdyktighet og menneskelignende forviklinger. Ved å kombinere enorme språkmodeller med dynamiske agentsimuleringer, kartlegger den en vei mot å lage AI-opplevelser som påfallende ikke kan skilles fra virkeligheten.

konklusjonen

AI-agenter kan være utrolig allsidige, og de former bransjer, endrer arbeidsflyter og muliggjør bragder som en gang virket umulige. Men som alle banebrytende innovasjoner, er de ikke uten sine ufullkommenheter.

Selv om de har makten til å omforme selve stoffet i vår digitale eksistens, sliter disse agentene fortsatt med visse utfordringer, hvorav noen er medfødt menneskelige, for eksempel å forstå kontekst i nyanserte scenarier eller takle problemer som ligger utenfor deres trente datasett.

I den neste artikkelen vil vi gå dypere inn i AutoGPT og GPT Engineer, og undersøke hvordan du setter opp og bruker dem. I tillegg vil vi utforske årsakene til at disse AI-agentene av og til vakler, for eksempel å bli fanget i løkker, blant andre problemer. Så følg med!

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.