Spojte se s námi

Prompt Engineering

Beyond Chain-of-Thought: Jak optimalizace preferencí myšlení posouvá LLMs

aktualizováno on

Převratná nová technika, kterou vyvinul tým výzkumníků z Meta, UC Berkeley a NYU, slibuje zlepšit způsob, jakým systémy AI přistupují k obecným úkolům. Známý jako „Optimalizace preferencí myšlení“ (TPO), cílem této metody je vytvořit velké jazykové modely (LLM) ve svých odpovědích přemýšlivější a rozvážnější.

Společné úsilí za TPO spojuje odborné znalosti z některých předních institucí ve výzkumu AI. 

Mechanika optimalizace preferencí myšlení

Ve svém jádru TPO funguje tak, že podporuje modely AI, aby generovaly „myšlenkové kroky“ před vytvořením konečné odpovědi. Tento proces napodobuje lidské kognitivní procesy, kdy často přemýšlíme o problému nebo otázce, než formulujeme svou odpověď. 

Technika zahrnuje několik klíčových kroků:

  1. Před odpovědí na dotaz je model vyzván, aby vygeneroval myšlenkové kroky.
  2. Je vytvořeno více výstupů, každý s vlastní sadou myšlenkových kroků a konečnou odpovědí.
  3. Hodnotící model hodnotí pouze konečné odpovědi, nikoli samotné myšlenkové kroky.
  4. Model je pak trénován pomocí optimalizace preferencí na základě těchto hodnocení.

Tento přístup se výrazně liší od předchozích technik, jako např Nabádání k řetězci myšlení (CoT).. Zatímco CoT byl primárně používán pro matematické a logické úlohy, TPO je navržen tak, aby měl širší využitelnost pro různé typy dotazů a instrukcí. Kromě toho TPO nevyžaduje explicitní dohled nad myšlenkovým procesem, což umožňuje modelu vyvinout vlastní efektivní strategie myšlení.

Dalším klíčovým rozdílem je, že TPO překonává problém omezených tréninkových dat obsahujících lidské myšlenkové procesy. Tím, že se hodnocení zaměří spíše na konečný výstup než na mezikroky, umožňuje TPO, aby se objevily flexibilnější a rozmanitější vzorce myšlení.

Experimentální nastavení a výsledky

Aby vědci otestovali účinnost TPO, provedli experimenty s použitím dvou prominentních benchmarků v oblasti jazykových modelů AI: AlpacaEval a Arena-Hard. Tyto benchmarky jsou navrženy tak, aby vyhodnotily obecné schopnosti modelů umělé instruktáže v rámci široké škály úkolů.

Experimenty používaly Llama-3-8B-Instruct jako semenný model, přičemž pro hodnocení byly použity různé posuzovací modely. Toto nastavení umožnilo výzkumníkům porovnat výkon TPO se základními modely a posoudit jeho dopad na různé typy úkolů.

Výsledky těchto experimentů byly slibné a vykazovaly zlepšení v několika kategoriích:

  1. Zdůvodnění a řešení problémů: Jak se očekávalo, TPO vykázala zisky v úkolech vyžadujících logické myšlení a analýzu. 
  2. Obecné znalosti: Je zajímavé, že tato technika také zlepšila výkon u dotazů týkajících se širokých faktických informací. 
  3. Marketing: Možná překvapivě TPO prokázalo vylepšené schopnosti v úkolech souvisejících s marketingem a prodejem. 
  4. Kreativní úkoly: Výzkumníci zaznamenali potenciální výhody v oblastech, jako je kreativní psaní, což naznačuje, že „myšlení“ může pomoci při plánování a strukturování tvůrčích výstupů.

Tato vylepšení se neomezovala na tradiční úlohy náročné na uvažování, což naznačuje, že TPO má potenciál zvýšit výkon AI v širokém spektru aplikací. Míra výher v benchmarcích AlpacaEval a Arena-Hard ukázala významná zlepšení oproti základním modelům, přičemž TPO dosahovalo konkurenceschopných výsledků i ve srovnání s mnohem většími jazykovými modely.

Je však důležité poznamenat, že současná implementace TPO vykazovala určitá omezení, zejména v matematických úlohách. Výzkumníci pozorovali, že výkon v matematických problémech se ve srovnání se základním modelem skutečně snížil, což naznačuje, že k řešení konkrétních domén může být nutné další upřesnění.

Důsledky pro vývoj AI

Úspěch TPO při zlepšování výkonu napříč různými kategoriemi otevírá vzrušující možnosti pro aplikace AI. Kromě tradičních úloh uvažování a řešení problémů by tato technika mohla vylepšit schopnosti umělé inteligence v kreativním psaní, jazykovém překladu a generování obsahu. Tím, že jsme umožnili umělé inteligenci „promyslet“ složité procesy před generováním výstupu, mohli bychom v těchto oblastech vidět výsledky s více nuancemi a kontextově uvědomělejšími.

V zákaznických službách by TPO mohlo vést k promyšlenějším a komplexnějším reakcím od chatbotů a virtuálních asistentů, což by mohlo zlepšit spokojenost uživatelů a snížit potřebu lidského zásahu. Navíc v oblasti analýzy dat může tento přístup umožnit AI zvážit různé perspektivy a potenciální korelace, než vyvodí závěry z komplexních datových sad, což povede k pronikavějším a spolehlivějším analýzám.

Navzdory slibným výsledkům čelí TPO ve své současné podobě několika výzvám. Pozorovaný pokles úkolů souvisejících s matematikou naznačuje, že tato technika nemusí být univerzálně prospěšná ve všech oblastech. Toto omezení zdůrazňuje potřebu doménově specifických upřesnění přístupu TPO.

Další významnou výzvou je potenciální zvýšení výpočtové režie. Proces generování a vyhodnocování více myšlenkových cest by mohl potenciálně zvýšit dobu zpracování a požadavky na zdroje, což může omezit použitelnost TPO ve scénářích, kde jsou rychlé reakce zásadní.

Kromě toho se současná studie zaměřila na konkrétní velikost modelu a vyvolala otázky, jak dobře se TPO přizpůsobí větším nebo menším jazykovým modelům. Existuje také riziko „přemýšlení“ – nadměrné „přemýšlení“ by mohlo vést ke spletitým nebo příliš složitým reakcím na jednoduché úkoly. 

Klíčovou oblastí pro budoucí výzkum a vývoj bude vyvážení hloubky myšlení se složitostí daného úkolu.

Budoucí pokyny

Jednou z klíčových oblastí pro budoucí výzkum je vývoj metod kontroly délky a hloubky myšlenkových procesů AI. To by mohlo zahrnovat dynamické přizpůsobení, které modelu umožní přizpůsobit hloubku myšlení na základě složitosti daného úkolu. Výzkumníci mohou také zkoumat uživatelem definované parametry, které uživatelům umožňují specifikovat požadovanou úroveň myšlení pro různé aplikace.

V této oblasti bude rozhodující optimalizace účinnosti. Vývoj algoritmů k nalezení sladkého místa mezi důkladným zvážením a rychlou dobou odezvy by mohl významně zlepšit praktickou použitelnost TPO v různých doménách a případech použití.

Vzhledem k tomu, že modely s umělou inteligencí stále rostou ve velikosti a schopnostech, bude zásadní prozkoumat, jak se TPO mění s velikostí modelu. Budoucí směry výzkumu mohou zahrnovat:

  • Testování TPO na nejmodernějších velkých jazykových modelech s cílem posoudit jeho dopad na pokročilejší systémy umělé inteligence 
  • Zkoumání, zda větší modely vyžadují různé přístupy ke generování a hodnocení myšlenek 
  • Zkoumání potenciálu TPO k překlenutí mezery ve výkonu mezi menšími a většími modely, potenciálně efektivnější využití výpočetních zdrojů

Tento výzkum by mohl vést k propracovanějším systémům umělé inteligence, které zvládnou stále složitější úkoly při zachování efektivity a přesnosti.

Bottom Line

Thought Preference Optimization představuje významný krok vpřed ve zlepšování schopností velkých jazykových modelů. Povzbuzením systémů AI, aby „přemýšlely, než promluví“, TPO prokázala zlepšení v celé řadě úkolů, což může způsobit revoluci v tom, jak přistupujeme k vývoji AI. 

Jak výzkum v této oblasti pokračuje, můžeme očekávat další zdokonalování techniky, řešení současných omezení a rozšiřování jejích aplikací. Budoucnost umělé inteligence může dobře zahrnovat systémy, které nejen zpracovávají informace, ale také se zapojují do kognitivních procesů, které se více podobají lidským, což vede k jemnější, kontextově orientované a nakonec užitečnější umělé inteligenci.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.