Tanke ledere

Afkodning af muligheder og udfordringer for LLM-agenter i generativ AI

Udgivet

9 måneder siden

September 7, 2023

Vi ser en progression af Generative AI-applikationer drevet af store sprogmodeller (LLM) fra prompter til retrieval augmented generation (RAG) til agenter. Der bliver talt meget om agenter i industri- og forskningskredse, hovedsageligt for den kraft, denne teknologi giver til at transformere Enterprise-applikationer og give overlegne kundeoplevelser. Der er fælles mønstre for byggemidler, der muliggør de første skridt mod kunstig generel intelligens (AGI).

I min tidligere artikel, så vi en stige af intelligens af mønstre til at bygge LLM-drevne applikationer. Startende med prompter, der fanger problemdomæne og bruger LLM intern hukommelse til at generere output. Med RAG udvider vi prompten med ekstern viden søgt fra en vektordatabase for at kontrollere output. Dernæst kan vi ved at kæde LLM-opkald opbygge arbejdsgange til at realisere komplekse applikationer. Agenter tager dette til et næste niveau ved automatisk at bestemme, hvordan disse LLM-kæder skal dannes. Lad os se i detaljer.

Agenter – under hætten

Et centralt mønster hos agenter er, at de bruger sprogforståelseskraften i LLM til at lave en plan for, hvordan et givent problem skal løses. LLM forstår problemet og giver os en række trin til at løse problemet. Det stopper dog ikke der. Agenter er ikke et rent støttesystem, der giver dig anbefalinger til at løse problemet og derefter giver dig stafetten til at tage de anbefalede skridt. Agenter er bemyndiget med værktøj til at gå videre og tage handlingen. Skræmmende vel!?

Hvis vi stiller en agent et grundlæggende spørgsmål som dette:

Human: Hvilket firma startede opfinderen af telefonen?

Følgende er et eksempel på tanketrin, som en agent kan tage.

Agent (tænker):

Tanke: Jeg skal søge efter telefonens opfinder.
Handling: Søg [opfinder af telefonen]
Observation: Alexander Graham Bell
Tanke: Jeg skal søge efter et firma, der blev grundlagt af Alexander Graham Bell
Handling: Søg [virksomhed grundlagt af Alexander Graham Bell]
Observation: Alexander Graham Bell var med til at stifte American Telephone and Telegraph Company (AT&T) i 1885
Tanke: Jeg har fundet svaret. Jeg vil vende tilbage.

Agent (RESPONS): Alexander Graham Bell var med til at stifte AT&T i 1885

Du kan se, at agenten følger en metodisk måde at nedbryde problemet i delproblemer, som kan løses ved at udføre specifikke handlinger. Handlingerne her er anbefalet af LLM, og vi kan kortlægge disse til specifikke værktøjer til at implementere disse handlinger. Vi kunne aktivere et søgeværktøj for agenten, så når den indser, at LLM har leveret søgning som en handling, vil den kalde dette værktøj med de parametre, der er angivet af LLM. Søgningen her er på internettet, men kan lige så godt omdirigeres til at søge i en intern vidensbase som en vektordatabase. Systemet bliver nu selvforsynende og kan finde ud af at løse komplekse problemer efter en række trin. Rammer som Langkæde og LLaMAIndex giver dig en nem måde at bygge disse agenter på og oprette forbindelse til værktøjer og API. Amazon lancerede for nylig deres Bedrock Agents-ramme, der giver en visuel grænseflade til at designe agenter.

Under motorhjelmen følger agenter en særlig stil med at sende prompter til LLM, som får dem til at generere en handlingsplan. Ovenstående tanke-handling-observationsmønster er populært i en type agent kaldet ReAct (Reasoning and Acting). Andre typer agenter omfatter MRKL og Plan & Execute, som hovedsageligt adskiller sig i deres promptingstil.

For mere komplekse agenter kan handlingerne være knyttet til værktøjer, der forårsager ændringer i kildesystemer. For eksempel kunne vi koble agenten til et værktøj, der kontrollerer feriesaldo og ansøger om orlov i et ERP-system for en medarbejder. Nu kunne vi bygge en fin chatbot, der ville interagere med brugerne og via en chatkommando ansøge om orlov i systemet. Ikke flere komplekse skærmbilleder til at ansøge om blade, en simpel samlet chatgrænseflade. Lyder det spændende!?

Forbehold og behov for ansvarlig AI

Hvad nu hvis vi har et værktøj, der påberåber sig transaktioner på aktiehandel ved hjælp af en forhåndsautoriseret API. Du bygger en applikation, hvor agenten studerer aktieændringer (ved hjælp af værktøjer) og træffer beslutninger for dig om køb og salg af aktier. Hvad hvis agenten sælger den forkerte aktie, fordi den hallucinerede og traf en forkert beslutning? Da LLM er enorme modeller, er det svært at finde ud af, hvorfor de træffer nogle beslutninger, og hallucinationer er derfor almindelige i mangel af ordentlige autoværn.

Selvom agenter alle er fascinerende, ville du sandsynligvis have gættet, hvor farlige de kan være. Hvis de hallucinerer og foretager en forkert handling, kan det forårsage store økonomiske tab eller store problemer i Enterprise-systemer. Derfor er ansvarlig AI ved at blive af største betydning i en tidsalder med LLM-drevne applikationer. Principperne for ansvarlig kunstig intelligens omkring reproducerbarhed, gennemsigtighed og ansvarlighed forsøger at sætte rækværk på beslutninger truffet af agenter og foreslår risikoanalyse for at afgøre, hvilke handlinger der kræver et menneske-i-løkken. Efterhånden som mere komplekse agenter bliver designet, har de brug for mere kontrol, gennemsigtighed og ansvarlighed for at sikre, at vi ved, hvad de laver.

Afsluttende tanker

Agenters evne til at generere en sti af logiske trin med handlinger får dem virkelig tæt på menneskelig ræsonnement. At styrke dem med mere kraftfulde værktøjer kan give dem superkræfter. Mønstre som ReAct forsøger at efterligne, hvordan mennesker løser problemet, og vi vil se bedre agentmønstre, der vil være relevante for specifikke kontekster og domæner (bank, forsikring, sundhedsvæsen, industri osv.). Fremtiden er her, og teknologien bag agenter er klar til brug. Samtidig skal vi være meget opmærksomme på ansvarlige AI-værn for at sikre, at vi ikke bygger Skynet!

Relaterede emner:generativ ai Langkæde Store sprogmodeller LLM KLUD genfinding augmented generation tanke ledere

Næste

Revolution af klasseværelset: Den nye æra af AI-forbedret læring

Gå ikke glip af

Navigering i AI Gold Rush: Afsløring af de skjulte omkostninger ved teknisk gæld i Enterprise Ventures

Dattaraj Rao

Dattaraj Rao, Chief Data Scientist ved Vedvarende systemer, er forfatteren til bogen "Keras to Kubernetes: The Journey of a Machine Learning Model to Production." Hos Persistent Systems leder Dattaraj AI Research Lab, der udforsker avancerede algoritmer inden for computersyn, naturlig sprogforståelse, probabilistisk programmering, Reinforcement Learning, Explainable AI osv. og demonstrerer anvendelighed inden for sundheds-, bank- og industridomæner. Dattaraj har 11 patenter inden for Machine Learning og Computer Vision.

Unite.AI

Afkodning af muligheder og udfordringer for LLM-agenter i generativ AI

Tanke ledere

Afkodning af muligheder og udfordringer for LLM-agenter i generativ AI

Indholdsfortegnelse

Agenter – under hætten

Forbehold og behov for ansvarlig AI

Afsluttende tanker

Seneste indlæg

Unite.AI

Afkodning af muligheder og udfordringer for LLM-agenter i generativ AI

Indholdsfortegnelse

Agenter – under hætten

Forbehold og behov for ansvarlig AI

Afsluttende tanker

Du kan godt lide

Seneste indlæg