AI-værktøjer 101

Ud over ChatGPT; AI Agent: En ny verden af arbejdere

Udgivet den 28. august 2023

Opdateret den 23. maj 2026

Aayush Mittal Mittal

Med fremskridt i dyb læring, naturlig sprogbehandling (NLP) og AI, er vi i en periode, hvor AI-agenter kan udgøre en betydelig del af den globale arbejdsstyrke. Disse AI-agenter, der transcenderer chatbots og taleassistenter, former en ny paradigm for både industrier og vores daglige liv. Men hvad betyder det egentlig at leve i en verden, der er forstærket af disse “arbejdere”? Denne artikel dykker dybt ind i dette udviklende landskab, vurderer implikationerne, potentialet og udfordringerne, der ligger forude.

En kort gennemgang: Evolutionen af AI-arbejdere

Før vi forstår den forestående revolution, er det afgørende at erkende den AI-drevne evolution, der allerede har fundet sted.

Traditionelle computeringssystemer: Fra grundlæggende computeralgoritmer begyndte rejsen. Disse systemer kunne løse foruddefinerede opgaver ved hjælp af en fast sat af regler.
Chatbots og tidlige taleassistenter: Da teknologien udviklede sig, udviklede vores grænseflader sig også. Værktøjer som Siri, Cortana og tidlige chatbots forenklet bruger-AI-interaktion, men havde begrænsede forståelsesevne og kapacitet.
Neurale netværk og dyb læring: Neurale netværk markerede et vendepunkt, idet de efterlignede menneskelige hjernefunktioner og udviklede sig gennem erfaring. Dyb læringsteknikker forbedrede dette yderligere, hvilket muliggjorde sofistikerede billed- og talegenkendelse.
Transformatorer og avancerede NLP-modeller: Introduktionen af transformatorarkitekturer revolutionerede NLP-landskabet. Systemer som ChatGPT fra OpenAI, BERT og T5 har muliggjort gennembrud i menneske-AI-kommunikation. Med deres dybe forståelse af sprog og kontekst kan disse modeller føre meningsfulde samtaler, skrive indhold og besvare komplekse spørgsmål med hidtil uset nøjagtighed.

Indtastning af AI-agenten: Mere end bare en samtale

I dag er AI-landskabet under forandring og antyder noget mere omfattende end samtaleværktøjer. AI-agenter, ud over blot samtalefunktioner, kan nu udføre opgaver, lære af deres omgivelser, træffe beslutninger og endda udvise kreativitet. De besvarer ikke blot spørgsmål; de løser problemer.

Traditionelle softwaremodeller arbejdede på en klar vej. Interessenter udtrykte et mål til softwarechefer, som derefter designede en specifik plan. Ingeniører ville udføre denne plan gennem kodelinjer. Denne “arv” fra softwarefunktionalitet var klar, involverende en mængde menneskelig indgriben.

AI-agenter opererer dog anderledes. En agent:

Har mål, det søger at opnå.
Kan interagere med sin omgivelse.
Formulerer en plan baseret på disse observationer for at opnå sit mål.
Tager nødvendige handling, tilpasning baseret på omgivelsens skiftende tilstand.

Hvad virkelig adskiller AI-agenter fra traditionelle modeller er deres evne til selvstændigt at oprette en trin-for-trin-plan for at realisere et mål. I essensen, hvor tidligere programmøren leverede planen, chartre AI-agenter i dag deres egen kurs.

Betragt et hverdags eksempel. I traditionel software-design ville et program underrette brugere om forfaldne opgaver baseret på foruddefinerede betingelser. Udviklerne ville indstille disse betingelser baseret på specifikationer leveret af produktchefen.

I AI-agent-paradigmet bestemmer agenten selv, hvornår og hvordan at underrette brugeren. Det vurderer omgivelsen (brugers vaner, applikations tilstand) og beslutter den bedste kurs. Processen bliver således mere dynamisk, mere i øjeblikket.

ChatGPT markerede et afbræk fra sin traditionelle brug med integrationen af plugins, hvilket muliggjorde det at udnytte eksterne værktøjer til at udføre multiple anmodninger. Det blev en tidlig manifestering af agentkonceptet. Hvis vi betragter et simpelt eksempel: en bruger, der spørger om New York Citys vejr, ChatGPT, der udnytter plugins, kunne interagere med en ekstern vejr-API, fortolke data og endda korrigere kursen baseret på svarene modtaget.

Nuværende landskab af AI-agenter

AI-agenter, herunder Auto-GPT, AgentGPT og BabyAGI, er begyndelsen på en ny æra i det omfattende AI-univers. Mens ChatGPT populariserede Generativ AI ved at kræve menneskelig input, er visionen bag AI-agenter at enable AI’er til at fungere uafhængigt, styrende mod mål med minimal menneskelig indgriben. Denne transformative potentiale er blevet understreget af Auto-GPT’s meteoriske stigning, der har opnået over 107.000 stjerner på GitHub inden for blot seks uger efter sin oprettelse, en uhørt vækst i forhold til etablerede projekter som data science-pakken ‘pandas’.

AI-agenter vs. ChatGPT

Mange avancerede AI-agenter, såsom Auto-GPT og BabyAGI, udnytter GPT-arkitekturen. Deres primære fokus er at minimere behovet for menneskelig indgriben i AI-opgaveafslutning. Beskrivende termer som “GPT på en løkke” karakteriserer driften af modeller som AgentGPT og BabyAGI. De opererer i iterative cyklusser for bedre at forstå brugeranmodninger og forfine deres output. Imens udvider Auto-GPT grænserne yderligere ved at inkorporere internetadgang og kodekørselsfunktioner, hvilket betydeligt udvider dens problemløsningsrækkevidde.

Innovationer i AI-agenter

Langtids-hukommelse: Traditionelle LLM’er har en begrænsnet hukommelse, der kun holder de seneste segmenter af interaktioner. Til omfattende opgaver bliver det afgørende at huske hele samtalen eller endda tidligere samtaler. For at overvinde dette har AI-agenter adopteret indlejring af arbejdsgange, der konverterer tekstbaserede samtaler til numeriske arrays, og tilbyder en løsning på hukommelsesbegrænsninger.
Web-browsing-evner: For at holde sig opdateret med nyheder har Auto-GPT været udstyret med browsing-kapaciteter, der anvender Google Search API. Dette har ført til debatter inden for AI-fællesskabet om omfanget af en AI’s viden.
Kørsel af kode: Ud over at generere kode kan Auto-GPT også køre både shell- og Python-kode. Denne hidtil usete kapacitet tillader det at interface med andre software, og udvider dets operationelle domæne.

Diagrammet visualiserer arkitekturen af et AI-system drevet af en Large Language Model og agenter.

Input: Systemet modtager data fra diverse kilder: direkte brugerkommandoer, strukturerede databaser, webindhold og realtids-miljøsensorer.
LLM & Agenter: I kernen behandler LLM disse input, samarbejdende med specialiserede agenter som Auto-GPT til tanke-kæder, AgentGPT til web-specifikke opgaver, BabyAGI til opgave-specifikke handlinger og HuggingGPT til team-baseret behandling.
Output: Når informationen er behandlet, omformes den til en brugervenlig format og derefter videregivet til enheder, der kan handle eller påvirke den ydre omgivelse.
Hukommelseskomponenter: Systemet beholder information, både på en midlertidig og permanent basis, gennem kortvarige cacher og langtidsdatabaser.
Miljø: Dette er den ydre verden, der påvirker sensorerne og påvirkes af systemets handlinger.

Avancerede AI-agenter: Auto-GPT, BabyAGI og mere

AutoGPT og AgentGPT

AutoGPT, en intelligentskab frigivet på GitHub i marts 2023, er en genial Python-baseret applikation, der udnytter kraften af GPT, OpenAI’s transformative generative model. Hvad adskiller Auto-GPT fra sine forgængere er dets autonomi – det er designet til at påtage opgaver med minimal menneskelig vejledning og har den unikke evne til selv at initiere prompts. Brugere behøver kun at definere en overordnet mål, og Auto-GPT konstruerer de nødvendige prompts for at opnå dette mål, hvilket gør det til et potentielt revolutionerende skridt mod sand artificial general intelligence (AGI).

Med funktioner, der spænder over internettilkobling, hukommelsesstyring og fil-lagringsfunktioner ved hjælp af GPT-3.5, er dette værktøj dygtigt til at håndtere en bred vifte af opgaver, fra konventionelle som e-mail-komposition til komplekse opgaver, der normalt ville kræve langt mere menneskelig indgriben.

På den anden side er AgentGPT, også bygget på GPT-rammen, en brugercentreret interface, der ikke kræver omfattende kodningskompetence til at konfigurere og bruge. AgentGPT tillader brugere at definere AI-mål, som derefter deles op i håndterbare opgaver.

AgentGPT UI

Desuden adskiller AgentGPT sig ved sin fleksibilitet. Det er ikke begrænset til at skabe chatbots. Platformen udvider sine funktioner til at skabe diverse applikationer som Discord-bots og integrerer endda sammen med Auto-GPT. Denne tilgang sikrer, at selv de uden omfattende kodningsbaggrund kan udføre opgaver som fuldt autonome kodning, tekstgenerering, sprogoversættelse og problemløsning.

LangChain er en ramme, der forbinder Large Language Models (LLM’er) med diverse værktøjer og udnytter agenter, ofte betragtet som ‘Bots’, til at bestemme og udføre specifikke opgaver ved at vælge det passende værktøj. Disse agenter integrerer sammen med eksterne ressourcer, mens en vektor-database i LangChain gemmer ustruktureret data, hvilket muliggør hurtig informationshenting for LLM’er.

BabyAGI

Så er der BabyAGI, en simplificeret, men kraftfuld agent. For at forstå BabyAGI’s evner, forestil dig en digital projektleder, der autonomt skaber, organiserer og udfører opgaver med fokus på givne mål. Mens de fleste AI-drevne platforme er begrænsede af deres foruddefinerede viden, adskiller BabyAGI sig ved sin evne til at tilpasse sig og lære af erfaringer. Det har en dyb evne til at fornemme feedback og, ligesom mennesker, træffe beslutninger baseret på prøvning og fejl.

Det, der virkelig adskiller BabyAGI, er ikke blot dets tilpasningsevne, men også dets dygtighed i at køre kode for specifikke mål. Det skinner i komplekse domæner som kryptohandel, robotteknik og autonome køretøjer, hvilket gør det til et alsidigt værktøj i en mangfoldighed af applikationer.

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Processen kan kategoriseres i tre agenter:

Udførelse-agent: Hjertet af systemet, denne agent udnytter OpenAI’s API til opgavebehandling. Givet et mål og en opgave, henter den OpenAI’s API og returnerer opgave-resultater.
Opgave-creation-agent: Denne funktion skaber nye opgaver baseret på tidligere resultater og nuværende mål. En prompt sendes til OpenAI’s API, som derefter returnerer potentielle opgaver, organiseret som en liste af dictionaries.
Opgave-prioritering-agent: Den endelige fase indebærer sekvensering af opgaver baseret på prioritet. Denne agent udnytter OpenAI’s API til at omordne opgaver, så de mest kritiske opgaver udføres først.

I samarbejde med OpenAI’s sprogmodel udnytter BabyAGI Pinecones evner til kontekst-centreret opgave-resultat-lagring og -henting.

Under følger en demonstration af BabyAGI ved hjælp af dette link.

For at begynde skal du have en gyldig OpenAPI-nøgle. For let adgang har UI’en en indstilling, hvor OpenAPI-nøglen kan indtastes. Hvis du søger at styre omkostningerne, husk at indstille en begrænsning for antallet af iterationer.

Da jeg havde konfigureret applikationen, udførte jeg et lille eksperiment. Jeg indsendte en prompt til BabyAGI: “Skab en koncis tweet-tråd fokuseret på personlig vækst, berørende milepæle, udfordringer og den transformative kraft af kontinuerlig læring.”

BabyAGI svarede med en velgennemtænkt plan. Det var ikke blot en generisk skabelon, men en omfattende vejviser, der indikerede, at den underliggende AI havde virkelig forstået nuancerne i anmodningen.

Deepnote AI Copilot

Deepnote AI Copilot omdefinerer dynamikken i data-eksploration i notebooks. Men hvad adskiller det?

I dens kerne sigter Deepnote AI til at forstærke data-scientistens arbejdsgang. Øjeblikket du giver en grundlæggende instruks, springer AI’en i aktion, udvikler strategier, udfører SQL-forespørgsler, visualiserer data ved hjælp af Python og præsenterer sine fund i en velartikuleret måde.

En af Deepnote AI’s styrker er dens omfattende forståelse af arbejdsrummet. Ved at forstå integrations-schemas og filsystemer, tilpasser den sine udførelsesplaner perfekt til den organisatoriske kontekst, sikrer, at dens indsigt altid er relevant.

AI’ens integration med notebook-medier skaber en unik feedback-løkke. Den vurderer aktivt kode-outputs, hvilket gør den dygtig til selv-korrektion og sikrer, at resultaterne er konsistente med fastlagte mål.

Deepnote AI adskiller sig ved sin gennemsigtige drift, tilbyder klare indsigt i sine processer. Sammenfletningen af kode og output sikrer, at dens handlinger altid er ansvarlige og reproducerbare.

CAMEL

CAMEL er en ramme, der søger at fremme samarbejde mellem AI-agenter, sigtende mod effektiv opgave-afslutning med minimal menneskelig indsigt.

https://github.com/camel-ai/camel

Det deler sine operationer i to hoved-agenter:

AI-bruger-agenten lægger ud instruktioner.
AI-assistent-agenten udfører opgaver baseret på de givne direktiver.

En af CAMEL’s aspirationer er at afklare kompleksiteterne i AI-tankeprocesser, sigtende mod at optimere synergierne mellem multiple agenter. Med funktioner som rolle-spil og inception-prompting sikrer det, at AI-opgaver harmonerer med menneskelige mål.

Westworld Simulation: Liv i AI

Afvlet fra inspirationer som Unity-software og tilpasset i Python, er Westworld-simulationen et spring ind i at simulere og optimere miljøer, hvor multiple AI-agenter interagerer, næsten som en digital samfund.

Generative Agenter

Disse agenter er ikke blot digitale enheder. De simulerer overbevisende menneskelige adfærd, fra daglige rutiner til komplekse sociale interaktioner. Deres arkitektur udvider en stor sprogmodel til at gemme erfaringer, reflektere over dem og anvende dem til dynamisk adfærdsplanlægning.

Westworlds interaktive sandkasse-miljø, der minder om The Sims, bringer en by til live, befolket af generative agenter. Her kan brugere interagere, observere og guide disse agenter gennem deres dag, observere emergente adfærd og komplekse sociale dynamikker.

Westworld-simulationen eksemplificerer den harmoniske fusion af beregningskraft og menneskelige nuancer. Ved at sammenflette store sprogmodeller med dynamisk agent-simulation, tegner det en vej mod at skabe AI-oplevelser, der er slående uløselige fra virkeligheden.

Konklusion

AI-agenter kan være utroligt alsidige og er med til at forme industrier, ændre arbejdsgange og muliggøre bedrifter, der tidligere syntes umulige. Men som alle banebrydende innovationer er de ikke uden deres fejl.

mens de har magten til at omforme den meget grundlæggende struktur af vores digitale eksistens, kæmper disse agenter stadig med visse udfordringer, nogle af dem essentielt menneskelige, såsom at forstå kontekst i nuancerede situationer eller at tackle problemer, der ligger uden for deres træningsdata.

I den næste artikel vil vi dykke dybere ind i AutoGPT og GPT Engineer, og undersøge, hvordan man kan konfigurere og bruge dem. Derudover vil vi udforske årsagerne til, at disse AI-agenter af og til fejler, såsom at blive fanget i løkker, blandt andre problemer. Så hold øje med os!

Aayush Mittal, Mittal

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software-ingeniørprojekter, med en særlig fokus på AI/ML. Min fortsatte nysgerrighed har også ført mig mod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.

Unite.AI