výhonek Možnosti dekódování a výzvy pro agenty LLM v generativní umělé inteligenci – Unite.AI
Spojte se s námi

Myšlenkové vůdce

Možnosti dekódování a výzvy pro agenty LLM v generativní umělé inteligenci

mm

Zveřejněno

 on

Jsme svědky progrese aplikací generativní umělé inteligence poháněných velkými jazykovými modely (LLM) od výzev přes rozšířené generování načítání (RAG) až po agenty. V průmyslových a výzkumných kruzích se o agentech intenzivně mluví, hlavně kvůli síle, kterou tato technologie poskytuje při transformaci podnikových aplikací a poskytování vynikajících zákaznických zkušeností. Existují běžné vzory pro stavební agenty, které umožňují první kroky k umělé obecné inteligenci (AGI).

V mém předchozím článek, viděli jsme žebříček inteligence vzorů pro vytváření aplikací poháněných LLM. Počínaje výzvami, které zachycují problémovou doménu a používají vnitřní paměť LLM pro generování výstupu. Pomocí RAG rozšiřujeme výzvu o externí znalosti vyhledané z vektorové databáze, abychom mohli ovládat výstupy. Dalším zřetězením volání LLM můžeme vytvářet pracovní postupy pro realizaci složitých aplikací. Agenti to posouvají na další úroveň tím, že automaticky určují, jak se tyto řetězce LLM mají vytvořit. Podívejme se podrobně.

Agenti – pod pokličkou

Klíčovým vzorem pro agenty je, že využívají schopnost LLM rozumět jazyku k vytvoření plánu, jak daný problém vyřešit. LLM rozumí problému a dává nám sekvenci kroků k vyřešení problému. Tím to však nekončí. Agenti nejsou čistým podpůrným systémem, který vám poskytne doporučení k řešení problému a následně vám předá štafetu k provedení doporučených kroků. Agenti jsou vybaveni nástroji, aby mohli pokračovat a podniknout akci. Strašidelné že!?

Pokud se agenta zeptáme na základní otázku, jako je tato:

Člověk: Kterou společnost založil vynálezce telefonu?

Následuje ukázka kroků myšlení, které může agent podniknout.

Agent (MYSLENÍ):

  • Myšlenka: Musím hledat vynálezce telefonu.
  • Akce: Hledat [vynálezce telefonu]
  • Pozorování: Alexander Graham Bell
  • Myšlenka: Potřebuji vyhledat společnost, kterou založil Alexander Graham Bell
  • Akce: Hledat [společnost založená Alexanderem Grahamem Bellem]
  • Pozorování: Alexander Graham Bell spoluzaložil v roce 1885 American Telephone and Telegraph Company (AT&T)
  • Myšlenka: Našel jsem odpověď. Vrátím.

Agent (ODPOVĚĎ): Alexander Graham Bell spoluzaložil AT&T v roce 1885

Můžete vidět, že agent postupuje metodickým způsobem, jak rozdělit problém na dílčí problémy, které lze vyřešit provedením konkrétních akcí. Zde uvedené akce doporučuje LLM a můžeme je namapovat na konkrétní nástroje k implementaci těchto akcí. Pro agenta bychom mohli aktivovat vyhledávací nástroj tak, že když si uvědomí, že LLM poskytlo vyhledávání jako akci, zavolá tento nástroj s parametry poskytnutými LLM. Vyhledávání zde probíhá na internetu, ale může být také přesměrováno na prohledávání interní znalostní báze, jako je vektorová databáze. Systém se nyní stává soběstačným a může přijít na to, jak vyřešit složité problémy pomocí řady kroků. Rámce jako LangChain a LLaMAIndex vám poskytují snadný způsob, jak tyto agenty sestavit a připojit se k nástrojům a API. Amazon nedávno spustil svůj rámec Bedrock Agents, který poskytuje vizuální rozhraní pro navrhování agentů.

Agenti pod pokličkou dodržují zvláštní styl zasílání výzev do LLM, které je nutí vytvářet akční plán. Výše uvedený vzorec myšlenky-akce-pozorování je oblíbený u typu agenta zvaného ReAct (uvažování a jednání). Mezi další typy agentů patří MRKL a Plan & Execute, které se liší především stylem výzvy.

U složitějších agentů mohou být akce spojeny s nástroji, které způsobují změny ve zdrojových systémech. Agenta bychom mohli například propojit s nástrojem, který kontroluje zůstatek dovolené a žádá o dovolenou v ERP systému pro zaměstnance. Nyní bychom mohli postavit pěkného chatbota, který by komunikoval s uživateli a prostřednictvím příkazu chatu požádal o volno v systému. Už žádné složité obrazovky pro podávání žádostí o dovolenou, jednoduché jednotné rozhraní chatu. Zní to vzrušující!?

Upozornění a potřeba zodpovědné umělé inteligence

Co když máme nástroj, který vyvolá transakce při obchodování s akciemi pomocí předem autorizovaného API. Vytvoříte aplikaci, kde agent studuje změny akcií (pomocí nástrojů) a rozhoduje za vás o nákupu a prodeji akcií. Co když agent prodá špatné akcie, protože měl halucinace a udělal špatné rozhodnutí? Vzhledem k tomu, že LLM jsou obrovské modely, je obtížné přesně určit, proč dělají některá rozhodnutí, a proto jsou halucinace běžné, když chybí řádné zábradlí.

Zatímco agenti jsou všichni fascinující, pravděpodobně byste uhodli, jak nebezpeční mohou být. Pokud mají halucinace a udělají špatnou akci, může to způsobit obrovské finanční ztráty nebo velké problémy v podnikových systémech. Odpovědná umělá inteligence se proto ve věku aplikací poháněných LLM stává nanejvýš důležitou. Principy odpovědné umělé inteligence týkající se reprodukovatelnosti, transparentnosti a odpovědnosti se snaží zamezit rozhodnutím přijatým agenty a navrhnout analýzu rizik, aby se rozhodlo, které akce potřebují člověka ve smyčce. Jak jsou navrhováni složitější agenti, potřebují větší kontrolu, transparentnost a odpovědnost, abychom se ujistili, že víme, co dělají.

Závěrečné myšlenky

Schopnost agentů generovat cestu logických kroků s akcemi je skutečně přibližuje lidskému uvažování. Posílení jejich pravomocí pomocí výkonnějších nástrojů jim může poskytnout superschopnosti. Vzory jako ReAct se snaží napodobit, jak lidé řeší problém, a uvidíme lepší vzory agentů, které budou relevantní pro konkrétní kontexty a domény (bankovnictví, pojišťovnictví, zdravotnictví, průmysl atd.). Budoucnost je tady a technologie za agenty je připravena k použití. Zároveň musíme dávat velký pozor na zábradlí odpovědné umělé inteligence, abychom se ujistili, že nestavíme Skynet!

Dattaraj Rao, hlavní datový vědec ve společnosti Perzistentní systémy, je autorem knihy „Keras to Kubernetes: Cesta modelu strojového učení do výroby“. Ve společnosti Persistent Systems vede Dattaraj výzkumnou laboratoř AI, která zkoumá nejmodernější algoritmy v oblasti počítačového vidění, porozumění přirozenému jazyku, pravděpodobnostního programování, posilování učení, vysvětlitelné umělé inteligence atd. a demonstruje použitelnost v oblastech zdravotnictví, bankovnictví a průmyslu. Dattaraj má 11 patentů v oblasti strojového učení a počítačového vidění.