Connect with us

Slíbili nám agenti, ale dostali jsme pouze statické řetězce

Myslitelé

Slíbili nám agenti, ale dostali jsme pouze statické řetězce

mm

Na jaře roku 2023 se celý svět nadchl z vývoje LLM-based AI agentů. Silné demo verze jako AutoGPT a BabyAGI demonstrovaly potenciál LLM, které běží v smyčce, volí další akci, pozorují její výsledky a volí další akci, jeden krok za druhým (také známé jako ReACT framework). Tato nová metoda měla umožnit agentům autonomně a obecně provádět vícekrokové úkoly. Dejte jim cíl a sadu nástrojů a oni se o zbytek postarají. Do konce roku 2024 bude krajina plná AI agentů a frameworků pro stavbu AI agentů. Ale jak se měří proti slibu?

Je bezpečné říci, že agenti poháněni naivní ReACT framework trpí závažnými omezeními. Dejte jim úkol, který vyžaduje více než několik kroků, pomocí více než několika nástrojů a oni budou zoufale selhat. Kromě jejich zjevných problémů s latencí ztratí stopu, selžou při dodržování pokynů, zastaví se příliš brzy nebo příliš pozdě a produkují divoce odlišné výsledky při každém pokusu. A není divu. ReACT framework bere omezení nepředvídatelných LLM a zesiluje je podle počtu kroků. Avšak stavitelé agentů, kteří se snaží vyřešit reálné použití, zejména v podnikovém prostředí, nemohou mít takovou úroveň výkonu. Potřebují spolehlivé, předvídatelné a vysvětlitelné výsledky pro komplexní vícekrokové pracovní postupy. A potřebují AI systémy, které zmírní, spíše než zhorší, nepředvídatelnou povahu LLM.

Tak jak jsou agenti postaveni v podnikovém prostředí dnes? Pro použití, které vyžaduje více než několik nástrojů a několik kroků (například konverzační RAG), dnes stavitelé agentů téměř opustili dynamický a autonomní slib ReACT pro metody, které silně závisí na statickém řetězení – vytváření předem definovaných řetězců navržených pro řešení konkrétního použití. Tento přístup připomíná tradiční softwarové inženýrství a je daleko od agentic slibu ReACT. Dosahuje vyšší úrovně kontroly a spolehlivosti, ale postrádá autonomii a flexibilitu. Řešení jsou proto náročná na vývoj, úzká v aplikaci a příliš rigidní, aby řešila vysokou úroveň variability ve vstupním prostoru a prostředí.

Abyste byli jistí, statické řetězení praktiky mohou variovat v tom, jak „statické“ jsou. Některé řetězce používají LLM pouze pro provedení atomických kroků (například pro extrakci informací, souhrn textu nebo návrh zprávy), zatímco jiné také používají LLM pro dynamické rozhodování během běhu (například LLM směrování mezi alternativními toky v řetězci nebo LLM ověřování výsledku kroku, zda by měl být spuštěn znovu). V každém případě, pokud LLM jsou zodpovědné za dynamické rozhodování v řešení – jsme nevyhnutelně chyceni v obchodním prostoru mezi spolehlivostí a autonomií. Čím více je řešení statické, je spolehlivější a předvídatelnější, ale také méně autonomní a proto úžeji aplikovatelné a náročnější na vývoj. Čím více je řešení dynamické a autonomní, je obecnější a jednodušší na sestavení, ale také méně spolehlivé a předvídatelnější.

Tento obchodní prostor lze reprezentovat v následujícím grafu:

 

To vede k otázce, proč jsme dosud neviděli agentic framework, který by se mohl umístit do horního pravého kvadrantu? Jsme odsouzeni k tomu, abychom navždy obchodovali spolehlivost za autonomii? Nemůžeme dostat framework, který poskytuje jednoduché rozhraní ReACT agenta (dejte cíl a sadu nástrojů a vyřeší zbytek) bez obětování spolehlivosti?

Odpověď je – můžeme a budeme! Ale pro to musíme uvědomit, že jsme to dělali všechno špatně. Všechny současné frameworky pro stavbu agentů sdílejí společnou vadu: spoléhají se na LLM jako dynamické, autonomní komponenty. Avšak klíčový prvek, který nám chybí – co potřebujeme k vytvoření agentů, kteří jsou oba autonomní a spolehliví – je plánovací technologie. A LLM nejsou skvělé plánovače.

Ale nejdříve, co je „plánování“? Pod „plánováním“ rozumíme schopnost explicitně modelovat alternativní kurzy akcí, které vedou k požadovanému výsledku, a efektivně prozkoumat a využít tyto alternativy pod rozpočtovými omezeními. Plánování by mělo být provedeno na obou makro a mikro úrovních. Makro-plán rozdělí úkol na závislé a nezávislé kroky, které musí být provedeny k dosažení požadovaného výsledku. Často přehlížená je potřeba mikro-plánování zaměřeného na zajištění požadovaných výsledků na úrovni kroku. Existuje mnoho dostupných strategií pro zvýšení spolehlivosti a dosažení záruk na úrovni jednotlivého kroku pomocí více výpočetního času. Například můžete parafrázovat semantické vyhledávací dotazy několikrát, můžete získat více kontextu pro daný dotaz, můžete použít větší model a můžete získat více inferencí z LLM – vše vedoucí k více výsledkům, které splňují požadavky, z nichž můžete vybrat ten nejlepší. Dobrý mikro-plánovač může efektivně využívat výpočetní čas k dosažení nejlepších výsledků pod daným rozpočtem a latencí. Takže plánovitý AI systém může zmírnit probabilistickou povahu LLM a dosáhnout zárukovaných výsledků na úrovni kroku. Bez těchto záruk se vrátíme k problému komponovaného chyby, který podkopá i nejlepší makro-úroveň plánu.

Ale proč nemohou LLM sloužit jako plánovače? Přece jsou schopné překládat vysoké úrovně pokynů do rozumných řetězců myšlenek nebo plánů definovaných v přirozeném jazyce nebo kódu. Důvod je, že plánování vyžaduje více než to. Plánování vyžaduje schopnost modelovat alternativní kurzy akcí, které mohou rozumně vést k požadovanému výsledku, a uvažovat o očekávaném užitku a očekávaných nákladech (ve výpočetním nebo latenci) každé alternativy. Zatímco LLM mohou potenciálně generovat reprezentace dostupných kurzů akcí, nemohou předpovědět jejich odpovídající očekávaný užitku a náklady. Například, co jsou očekávaný užitku a náklady použití modelu X vs. modelu Y pro generování odpovědi pro konkrétní kontext? Co je očekávaný užitku hledání konkrétního kusu informací v indexovaných dokumentech vs. API volání do CRM? Vaše LLM ani nezačne mít tušení. A za dobrý důvod – historické stopy těchto probabilistických vlastností se zřídka nacházejí v divočině a nejsou zahrnuty do tréninkových dat LLM. Také tendují být specifické pro konkrétní nástroj a datový prostředí, ve kterém bude AI systém fungovat, na rozdíl od obecných znalostí, které LLM mohou získat. A i kdyby LLM mohly předpovědět očekávaný užitku a náklady, uvažování o nich pro výběr nejúčinnějšího kurzu akcí je logickým deduktivním rozhodnutím, které nelze spolehlivě provést předpověďmi LLM.

Tak co jsou chybějící ingredience pro AI plánovací technologii? Potřebujeme modely plánovačů, které mohou se učit z experiencia a simulace explicitně modelovat alternativní kurzy akcí a odpovídající užitku a nákladů pravděpodobností pro konkrétní úkol v konkrétním nástroji a datovém prostředí. Potřebujeme Plan Definition Language (PDL), který může být použit pro reprezentaci a uvažování o těchto kurzech akcí a pravděpodobnostech. Potřebujeme engine pro provádění, který může deterministicky a efektivně provést daný plán definovaný v PDL.

Někteří lidé již tvrdě pracují na dodání tohoto slibu. Dokud nebude hotovo, pokračujte ve stavbě statických řetězců. Jen prosím, nezvažujte je „agenti“.

Amnon se připojil k AI21 v roce 2017 a zastával různé produktové vedení role ve společnosti. Předtím, než se připojil k AI21, pracoval jako mezinárodní manažer aktivit pro The Israeli Regional Initiative NGO. Amnon studoval právo, ekonomii, historii a filozofii na Tel Aviv University (Lautman Interdisciplinary Program for Outstanding Students). Sloužil jako velitel sekce v izraelské národní jednotce signální inteligence (8200) a má dvě tituly Master of Laws (LLM degrees, z Tel Aviv University a Harvard Law School.