Spojte se s námi

DIAMANT: Vizuální detaily jsou v Atari a Diffusion pro světové modelování důležité

Umělá inteligence

DIAMANT: Vizuální detaily jsou v Atari a Diffusion pro světové modelování důležité

mm
aktualizováno on

Bylo to v roce 2018, kdy vznikla myšlenka o posilování učení v kontextu neuronové sítě byl poprvé představen světový model a brzy byl tento základní princip aplikován na světové modely. Některé z prominentních modelů, které implementují učení se zesílením, byl rámec Dreamer, který zavedl učení zesílení z latentního prostoru modelu rekurentního stavového prostoru. DreamerV2 demonstroval, že použití diskrétních latentů může vést ke snížení chyb při skládání, a framework DreamerV3 byl schopen dosáhnout výkonu podobného lidskému u řady úkolů napříč různými doménami s pevnými hyperparametry. 

Kromě toho lze vyvodit paralely mezi modely generování obrazu a světovými modely, což naznačuje, že pokrok dosažený v modelech generativního vidění by mohl být replikován ve prospěch světových modelů. Již od použití transformátorů v zpracování přirozeného jazyka rámce získaly na popularitě, objevily se rámce DALL-E a VQGAN. Tyto rámce implementovaly diskrétní autokodéry pro převod obrázků na diskrétní tokeny a byly schopny vytvořit vysoce výkonné a efektivní modely generování textu na obrázek využitím schopností autoregresivního modelování sekvencí. Ve stejné době získaly difúzní modely trakci a dnes se difúzní modely etablovaly jako dominantní paradigma pro generování obrazu s vysokým rozlišením. Vzhledem ke schopnostem, které nabízejí modely difúze a učení se zesílením, jsou činěny pokusy zkombinovat tyto dva přístupy s cílem využít flexibilitu modelů difúze jako modelů trajektorie, modelů odměn, plánovačů a jako zásady pro rozšiřování dat v offline posilovací učení. 

Světové modely nabízejí slibnou metodu pro bezpečný a efektivní výcvik posilovacích výukových agentů. Tyto modely tradičně používají sekvence diskrétních latentních proměnných k simulaci dynamiky prostředí. Tato komprese však může přehlédnout vizuální detaily klíčové pro učení se posilování. Ve stejné době, difúzní modely vzrostly v popularitě pro generování obrazu, zpochybňují tradiční metody, které používají diskrétní latenty. Inspirováni tímto posunem, budeme v tomto článku hovořit o DIAMONDU (DIffusion As a Model Of eNvironment Dreams), posilujícím vzdělávacím agentovi vyškoleném v rámci modelu světa šíření. Prozkoumáme nezbytné možnosti návrhu, aby byla difúze vhodná pro modelování světa a ukážeme, že vylepšené vizuální detaily vedou k lepšímu výkonu agentů. DIAMOND nastavuje nové měřítko v konkurenčním testu Atari 100k a dosahuje průměrného lidského normalizovaného skóre 1.46, což je nejvyšší hodnota pro agenty vyškolené výhradně v rámci světového modelu. 

DIAMANT: DIFfusion jako model snů o životním prostředí

Světové modely nebo generativní modely prostředí se objevují jako jedna z důležitějších součástí pro generativní agenty pro plánování a uvažování o jejich prostředích. Ačkoli použití posilovacího učení dosáhlo v posledních letech značného úspěchu, modely implementující posilovací učení jsou známé tím, že jsou vzorově neefektivní, což výrazně omezuje jejich aplikace v reálném světě. Na druhou stranu světové modely prokázaly svou schopnost efektivně trénovat posilovací výukové agenty v různých prostředích s výrazně vylepšenou účinností vzorků, což modelu umožňuje učit se ze zkušeností v reálném světě. Současné rámce modelování světa obvykle modelují dynamiku prostředí jako posloupnost diskrétních latentních proměnných, přičemž model diskretizuje latentní prostor, aby se zabránilo skládání chyb během vícekrokových časových horizontů. Ačkoli tento přístup může přinést podstatné výsledky, je také spojen se ztrátou informací, což vede ke ztrátě kvality rekonstrukce a ztrátě obecnosti. Ztráta informací se může stát významnou překážkou pro scénáře v reálném světě, které vyžadují, aby informace byly dobře definovány, jako je výcvik autonomních vozidel. V takových úkolech mohou malé změny nebo detaily ve vizuálním vstupu, jako je barva semaforu nebo ukazatel směru vozidla vpředu, změnit politiku agenta. Ačkoli zvýšení počtu diskrétních latentů může pomoci zabránit ztrátě informací, výrazně zvyšuje náklady na výpočet. 

Kromě toho se v posledních letech objevily difúzní modely jako dominantní přístup pro vysoce kvalitní rámce generování obrazu, protože rámce postavené na difúzních modelech se učí zvrátit proces šumu a přímo konkurují některým zavedenějším přístupům modelujícím diskrétní tokeny. , a proto nabízí slibnou alternativu k odstranění nutnosti diskretizace ve světovém modelování. Difúzní modely jsou známé svou schopností snadno se upravovat a flexibilně modelovat komplexní, multimodální distribuce bez kolapsu režimu. Tyto atributy jsou klíčové pro modelování světa, protože kondicionování umožňuje modelu světa přesně odrážet jednání agenta, což vede ke spolehlivějšímu přiřazení kreditu. Modelování multimodálních distribucí navíc nabízí větší rozmanitost tréninkových scénářů pro agenta, což zvyšuje jeho celkový výkon. 

Na základě těchto vlastností DIAMOND (Diffusion As a Model Of eNvironment Dreams), posilující učební agent trénovaný v rámci modelu světa šíření. Rámec DIAMOND dělá pečlivý výběr návrhů, aby zajistil, že jeho model difúzního světa zůstane efektivní a stabilní po dlouhé časové horizonty. Rámec poskytuje kvalitativní analýzu, která demonstruje důležitost těchto návrhových voleb. DIAMOND nastavuje nový stav techniky s průměrným lidským normalizovaným skóre 1.46 na osvědčeném benchmarku Atari 100k, což je nejvyšší hodnota pro agenty vyškolené výhradně v rámci světového modelu. Provoz v obrazovém prostoru umožňuje modelu difúzního světa společnosti DIAMOND plynule nahradit prostředí a nabídnout lepší pohled na model světa a chování agentů. Zlepšený výkon v určitých hrách je připisován lepšímu modelování kritických vizuálních detailů. Rámec DIAMOND modeluje prostředí jako standardní POMDP nebo částečně pozorovatelný Markovův rozhodovací proces se sadou stavů, sadou diskrétních akcí a sadou pozorování obrazu. Přechodové funkce popisují dynamiku prostředí a funkce odměn mapuje přechody ke skalárním odměnám. Funkce pozorování popisuje pravděpodobnosti pozorování a vysílá obrazová pozorování, která pak agenti používají k vidění prostředí, protože nemohou přímo přistupovat ke stavům. Primárním cílem přístupu bylo získat politiku, která mapuje pozorování k akcím se snahou maximalizovat očekávaný diskontní výnos pomocí diskontního faktoru. Světové modely jsou generativní modely prostředí a světové modely lze použít k vytvoření simulovaných prostředí pro trénování posilovacích výukových agentů v reálném prostředí a trénování posilovacích výukových agentů v prostředí světového modelu. Obrázek 1 ukazuje rozvíjející se představivost rámce DIAMOND v průběhu času. 

DIAMANT: Metodologie a architektura

Ve svém jádru jsou difúzní modely třídou generativních modelů, které generují vzorek obrácením procesu šumu a čerpají silnou inspiraci z nerovnovážné termodynamiky. Rámec DIAMOND bere v úvahu proces difúze indexovaný spojitou časovou proměnnou s odpovídajícími mezními a okrajovými podmínkami s ovladatelnou nestrukturovanou předchozí distribucí. Kromě toho, aby bylo možné získat generativní model, který mapuje od šumu k datům, musí rámec DIAMOND proces obrátit, přičemž proces reverze je také procesem difúze, který běží pozpátku v čase. Navíc v jakémkoliv daném okamžiku není triviální odhadovat funkci skóre, protože rámec DIAMOND nemá přístup k funkci skutečného skóre a model překonává tuto překážku implementací cíle porovnávání skóre, což je přístup, který usnadňuje rámec pro trénovat model skóre bez znalosti základní funkce skóre. Difúzní model založený na skóre poskytuje bezpodmínečný generativní model. Podmíněný generativní model dynamiky prostředí je však vyžadován, aby sloužil jako světový model, a pro tento účel se rámec DIAMOND dívá na obecný případ přístupu POMDP, ve kterém může rámec využívat minulá pozorování a akce k přiblížit neznámému markovskému stavu. Jak je ukázáno na obrázku 1., rámec DIAMOND využívá tuto historii k úpravě modelu difúze, k odhadu a přímému generování dalšího pozorování. Ačkoli se rámec DIAMOND může teoreticky uchýlit k libovolnému řešiči SDE nebo ODE, existuje kompromis mezi hodnocením NFE nebo Number of Function Evaluation a kvalitou vzorku, který významně ovlivňuje odvozené náklady modelů difúze. 

Na základě výše uvedených poznatků se nyní podívejme na praktickou realizaci rámce DIAMOND modelu světa založeného na difúzi včetně koeficientů driftu a difúze odpovídajících konkrétní volbě difúzního přístupu. Místo toho, aby se rozhodl pro DDPM, přirozeně vhodného kandidáta pro daný úkol, staví framework DIAMOND na formulaci EDM a bere v úvahu poruchové jádro s reálně ceněnou funkcí doby difúze nazývanou plán hluku. Rámec vybere předběžné úpravy, aby zachovaly vstupní a výstupní odchylky pro jakoukoli hlasovou úroveň. Trénink sítě adaptivně míchá signál a šum v závislosti na úrovni degradace, a když je šum nízký, cílem se stává rozdíl mezi čistým a narušeným signálem, tj. přidaný Gaussův šum. Intuitivně to zabraňuje tomu, aby se tréninkový cíl stal triviálním v režimu s nízkou hlučností. V praxi je tímto cílem vysoká variabilita v extrémech hlukového plánu, takže model vzorkuje hladinu hluku z logaritmicko-normálního rozdělení empiricky zvoleného za účelem zřetězení trénování kolem oblastí středního hluku. Rámec DIAMOND využívá standardní 2D komponentu U-Net pro vektorové pole a uchovává vyrovnávací paměť minulých pozorování a akcí, které rámec používá ke kondicionování. Rámec DIAMOND pak zřetězí tato minulá pozorování do dalšího hlučného pozorování a zadává akce prostřednictvím adaptivních skupin normalizace vrstev ve zbytkových blocích U-Net. 

DIAMANT: Experimenty a výsledky

Pro komplexní hodnocení se rámec DIAMOND rozhodl pro benchmark Atari 100k. Benchmark Atari 100k se skládá z 26 her navržených k testování široké škály schopností agentů. V každé hře je agent omezen na 100 2 akcí v prostředí, což zhruba odpovídá 50 hodinám lidské hry, aby se naučil hru před vyhodnocením. Pro srovnání, neomezení agenti Atari obvykle trénují 500 milionů kroků, což představuje 5násobný nárůst zkušeností. Trénovali jsme DIAMOND od nuly pomocí 12 náhodných semen pro každou hru. Každé školení vyžadovalo přibližně 2.9 GB paměti VRAM a trvalo přibližně 4090 dne na jediném Nvidia RTX 1.03, celkem tedy XNUMX GPU roku. Následující tabulka uvádí skóre pro všechny hry, průměr a IQM neboli mezikvartilní průměr skóre normalizovaných člověkem. 

V souladu s omezeními bodových odhadů poskytuje rámec DIAMOND stratifikovanou spolehlivost bootstrapu v průměru a IQM neboli mezikvartilní průměr skóre normalizovaných člověkem spolu s profily výkonu a dalšími metrikami, jak je shrnuto na následujícím obrázku. 

Výsledky ukazují, že DIAMOND si vede výjimečně dobře napříč benchmarkem, překonává lidské hráče v 11 hrách a dosahuje nadlidské střední hodnoty HNS 1.46, což představuje nový rekord pro agenty vyškolené výhradně v rámci světového modelu. Navíc IQM společnosti DIAMOND je srovnatelný se STORM a převyšuje všechny ostatní základní linie. DIAMOND vyniká v prostředích, kde je zásadní zachytit malé detaily, jako jsou Asterix, Breakout a RoadRunner. Kromě toho, jak bylo diskutováno dříve, rámec DIAMOND má flexibilitu při implementaci jakéhokoli modelu difúze ve svém potrubí, i když se rozhodl pro přístup EDM, bylo by přirozenou volbou zvolit model DDPM, protože je již implementován v mnoha aplikace pro generování obrázků. Aby bylo možné porovnat přístup EDM s implementací DDPM, trénuje framework DIAMOND obě varianty se stejnou síťovou architekturou na stejném sdíleném statickém datovém souboru s více než 100 16 rámců shromážděných pomocí expertní politiky. Počet kroků odšumování přímo souvisí s inferenčními náklady světového modelu, a tak méně kroků sníží náklady na školení agenta na imaginárních trajektoriích. Abychom zajistili, že náš světový model zůstane výpočetně srovnatelný s jinými základními liniemi, jako je IRIS, který vyžaduje 1000 NFE na časový krok, snažíme se použít maximálně desítky kroků odšumování, pokud možno méně. Nastavení příliš nízkého počtu odšumovacích kroků však může zhoršit vizuální kvalitu, což vede k chybám ve složení. Pro posouzení stability různých variant difúze zobrazujeme na následujícím obrázku imaginární trajektorie generované autoregresně až do t = 10 časových kroků s použitím různého počtu kroků odšumování n ≤ XNUMX. 

Pozorujeme, že použití DDPM (a) v tomto režimu vede k závažným chybám při skládání, což způsobí, že světový model rychle vypadne z distribuce. Naproti tomu model světa difúze založený na EDM (b) zůstává mnohem stabilnější v dlouhých časových horizontech, a to i s jediným krokem odšumování. Vymyšlené trajektorie s modely světa šíření na základě DDPM (vlevo) a EDM (vpravo). Počáteční pozorování v t = 0 je pro oba stejné a každý řádek odpovídá klesajícímu počtu kroků n odšumování. Pozorujeme, že generování založené na DDPM trpí složenými chybami, přičemž menší počet kroků odstranění šumu vede k rychlejší akumulaci chyb. Naproti tomu světový model založený na EDM DIAMOND zůstává mnohem stabilnější, dokonce i pro n = 1. Optimální jednokroková predikce je očekávání možných rekonstrukcí pro daný hlučný vstup, který může být mimo distribuci, pokud je zadní distribuce multimodální . Zatímco některé hry, jako Breakout, mají deterministické přechody, které lze přesně modelovat jediným krokem odšumování, jiné hry vykazují částečnou pozorovatelnost, což vede k multimodálním distribucím pozorování. V těchto případech je nutný iterativní řešitel, který navede proceduru vzorkování směrem ke specifickému režimu, jak je znázorněno ve hře Boxing na následujícím obrázku. V důsledku toho rámec DIAMOND ve všech našich experimentech nastavil n = 3.

Výše uvedený obrázek porovnává jednokrokové (horní řada) a vícekrokové (spodní řada) vzorkování v boxu. Pohyby černého hráče jsou nepředvídatelné, což způsobuje interpolaci jednokrokového odšumování mezi možnými výsledky, což má za následek rozmazané předpovědi. Naproti tomu vícekrokové vzorkování vytváří jasný obraz tím, že vede generování ke specifickému režimu. Zajímavé je, že od té doby, co politika ovládá bílého hráče, jsou jeho akce známé světovému modelu, což eliminuje nejednoznačnost. Jednokrokové i vícekrokové vzorkování tedy správně predikuje pozici bílého hráče.

Na obrázku výše trajektorie představované DIAMONDEM obecně vykazují vyšší vizuální kvalitu a jsou věrnější skutečnému prostředí ve srovnání s trajektoriemi představovanými IRIS. Trajektorie generované IRIS obsahují vizuální nekonzistence mezi snímky (zvýrazněné bílými rámečky), jako například zobrazení nepřátel jako odměny a naopak. I když tyto nekonzistence mohou ovlivnit pouze několik pixelů, mohou významně ovlivnit učení se zesílením. Například agent obvykle cílí na odměny a vyhýbá se nepřátelům, takže tyto malé vizuální nesrovnalosti mohou ztížit naučení se optimální politiky. Obrázek ukazuje po sobě jdoucí snímky představované IRIS (vlevo) a DIAMOND (vpravo). Bílá políčka zvýrazňují nekonzistence mezi snímky, které se objevují pouze v trajektoriích generovaných pomocí IRIS. V Asterix (horní řada) se nepřítel (oranžový) stane odměnou (červená) ve druhém snímku, poté se vrátí na nepřítele ve třetím a znovu na odměnu ve čtvrtém. V Breakout (střední řada) jsou kostky a skóre mezi snímky nekonzistentní. V Road Runner (spodní řádek) jsou odměny (malé modré tečky na silnici) mezi snímky vykresleny nekonzistentně. Tyto nekonzistence se u DIAMONDU nevyskytují. V Breakout se skóre spolehlivě aktualizuje o +7, když se rozbije červená cihla. 

Proč investovat do čističky vzduchu?

V tomto článku jsme mluvili o DIAMONDU, posilovacím vzdělávacím agentovi vyškoleném v rámci modelu difúzního světa. Rámec DIAMOND dělá pečlivý výběr návrhů, aby zajistil, že jeho model difúzního světa zůstane efektivní a stabilní po dlouhé časové horizonty. Rámec poskytuje kvalitativní analýzu, která demonstruje důležitost těchto návrhových voleb. DIAMOND nastavuje nový stav techniky s průměrným lidským normalizovaným skóre 1.46 na osvědčeném benchmarku Atari 100k, což je nejvyšší hodnota pro agenty vyškolené výhradně v rámci světového modelu. Provoz v obrazovém prostoru umožňuje modelu difúzního světa společnosti DIAMOND plynule nahradit prostředí a nabídnout lepší pohled na model světa a chování agentů. Zlepšený výkon v určitých hrách je připisován lepšímu modelování kritických vizuálních detailů. Rámec DIAMOND modeluje prostředí jako standardní POMDP nebo částečně pozorovatelný Markovův rozhodovací proces se sadou stavů, sadou diskrétních akcí a sadou pozorování obrazu. Přechodové funkce popisují dynamiku prostředí a funkce odměn mapuje přechody ke skalárním odměnám.

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.