Umělá inteligence

DIAMOND: Visual Details Matter in Atari and Diffusion for World Modeling

Published July 16, 2024

Updated April 4, 2026

Kunal Kejriwal

To było v roce 2018, kdy byla poprvé představena myšlenka učení s posilováním v kontextu neuronové sítě world modelu a brzy byla tato základní princip aplikován na world modely. Některé z prominentních modelů, které implementují učení s posilováním, byly framework Dreamer, který zavedl učení s posilováním z latentního prostoru rekurentního stavu modelu. DreamerV2 prokázal, že použití diskrétních latentů může vést ke snížení chyby sčítání a framework DreamerV3 byl schopen dosáhnout lidské úrovni výkonu v řadě úkolů napříč různými doménami s pevnými hyperparametry.

Dále lze vyvodit paralely mezi modely generování obrazů a world modely, které naznačují, že pokrok učiněný v generativních modelech vidění by mohl být replikován pro výhodu world modelů. Od té doby, co se použití transformátorů v přirozeném jazykovém zpracování stalo populárním, vznikly frameworky DALL-E a VQGAN. Tyto frameworky implementovaly diskrétní autoenkodéry pro převod obrazů na diskrétní tokeny a byly schopny vytvořit vysoce výkonné a efektivní text-to-obrázek generativní modely využívající sekvencování schopností autoregresivních transformátorů. Ve stejnou dobu získaly difúzní modely popularitu a dnes se difúzní modely etablovaly jako dominantní paradigmata pro generování vysokého rozlišení obrazů. Díky schopnostem nabízeným difúzními modely a učení s posilováním se podnikají pokusy o kombinaci těchto dvou přístupů s cílem využít flexibilitu difúzních modelů jako trajektorií modelů, odměňovacího modelu, plánovačů a jako zásady pro datovou augmentaci v offline učení s posilováním.

World modely nabízejí slibný metod pro školení agentů učení s posilováním bezpečně a efektivně. Tradičně tyto modely používají sekvence diskrétních latentních proměnných pro simulaci dynamiky prostředí. Nicméně, tato komprese může přehlédnout vizuální detaily kritické pro učení s posilováním. Ve stejnou dobu získaly difúzní modely popularitu pro generování obrazů, které zpochybňují tradiční metody, které používají diskrétní latenty. Inspirováni touto změnou, v tomto článku budeme mluvit o DIAMOND (DIffusion As a Model Of eNvironment Dreams), agentu učení s posilováním školeném v difúzním world modelu. Prozkoumáme nezbytné designové volby pro provedení difúze vhodné pro world modeling a ukážeme, že vylepšené vizuální detaily vedou k lepšímu výkonu agenta. DIAMOND stanovuje nový benchmark na soutěžním Atari 100k testu, dosahující průměrného lidského normalizovaného skóre 1,46, nejvyššího pro agenty školené zcela v rámci world modelu.

DIAMOND : DIffusion As a Model Of eNvironment Dreams

World modely nebo generativní modely prostředí se objevují jako jeden z důležitějších komponent pro generativní agenty, aby mohli plánovat a uvažovat o svých prostředích. Ačkoli použití učení s posilováním dosáhlo značného úspěchu v posledních letech, modely implementující učení s posilováním jsou známé tím, že jsou vzorkově neefektivní, což výrazně omezuje jejich reálné aplikace. Na druhé straně world modely prokázaly svou schopnost efektivně školoit agenty učení s posilováním napříč různými prostředími se značně zlepšenou vzorkovou efektivitou, umožňující modelu učit se z reálných zkušeností. Nedávné frameworky world modelingu obvykle modelují dynamiku prostředí jako sekvenci diskrétních latentních proměnných, přičemž model diskrétní latenty, aby se zabránilo chyby sčítání nad multi-krokovými časovými horizonty. Ačkoli tento přístup může přinést podstatné výsledky, je také spojen se ztrátou informací, vedoucí ke ztrátě kvality rekonstrukce a ztrátě obecnosti. Ztráta informací se může stát významnou překážkou pro reálné scénáře, které vyžadují, aby informace byly dobře definovány, jako je školení autonomních vozidel. V takových úkolech mohou malé změny nebo detaily ve vizuálním vstupu, jako je barva semaforu nebo směrovací ukazatel vozidla vpředu, změnit politiku agenta. Ačkoli zvýšení počtu diskrétních latentů může pomoci zabránit ztrátě informací, výrazně zvyšuje výpočetní náklady.

DIAMOND : Metodologie a Architektura

V jádru jsou difúzní modely třídou generativních modelů, které generují vzorek reverzováním procesu šumu a čerpají inspiraci z nerovnovážné termodynamiky. Framework DIAMOND zvažuje difúzní proces indexovaný kontinuální časovou proměnnou s odpovídajícími marginály a okrajovými podmínkami s traktovatelnou nestrukturovanou předchozí distribucí. Dále, aby se získal generativní model, který mapuje z šumu na data, framework DIAMOND musí reverzovat proces, přičemž reverzní proces je také difúzním procesem, běžícím pozpátku v čase. Dále, v libovolném bodě času, není triviální odhadnout skórovací funkci, protože framework DIAMOND nemá přístup k skutečné skórovací funkci a model překonává tuto překážku implementací cíle skórování, přístupu, který umožňuje frameworku školoit skórovací model bez znalosti podkladové skórovací funkce. Skórovací difúzní model poskytuje nezávislý generativní model. Nicméně, podmíněný generativní model dynamiky prostředí je vyžadován, aby sloužil jako world model a k tomuto účelu framework DIAMOND zkoumá obecný případ přístupu POMDP, ve kterém framework může využít předchozích pozorování a akcí, aby aproximoval neznámý markovský stav. Jak je ukázáno na obrázku 1, framework DIAMOND využívá této historie k podmínění difúzního modelu, aby odhadoval a generoval následující pozorování přímo. Ačkoli framework DIAMOND může teoreticky využít jakýkoli řešič SDE nebo ODE, existuje kompromis mezi NFE nebo počtem funkčních vyhodnocení a kvalitou vzorku, která významně ovlivňuje náklady na inferenci difúzních modelů.

DIAMOND: Experimenty a Výsledky

Pro komplexní vyhodnocení framework DIAMOND volí benchmark Atari 100k. Benchmark Atari 100k se skládá z 26 her, které jsou navrženy tak, aby otestovaly širokou škálu schopností agenta. V každé hře je agent omezen na 100k akcí v prostředí, což je přibližně ekvivalentní 2 hodinám lidské hry, aby se naučil hru před vyhodnocením. Pro srovnání, neomezené agenty Atari typicky trénují 50 milionů kroků, což představuje 500násobné zvýšení zkušeností. Školovali jsme DIAMOND od začátku pomocí 5 náhodných semen pro každou hru. Každý tréninkový běh vyžadoval přibližně 12GB VRAM a trval přibližně 2,9 dny na jediném Nvidia RTX 4090, což představuje 1,03 GPU roky celkem. Následující tabulka poskytuje skóre pro všechny hry, průměr a IQM nebo interkvartilní střední hodnotu lidských normalizovaných skóre.

Závěr

V tomto článku jsme mluvili o DIAMOND, agentu učení s posilováním školeném v difúzním world modelu. Framework DIAMOND dělá pečlivé designové volby, aby zajistil, že jeho difúzní world model zůstane efektivní a stabilní nad dlouhými časovými horizonty. Framework poskytuje kvalitativní analýzu, aby prokázal důležitost těchto designových voleb. DIAMOND stanovuje nový benchmark s průměrným lidským normalizovaným skóre 1,46 na dobře zavedeném benchmarku Atari 100k, nejvyšší pro agenty školené zcela v rámci world modelu. Provoz v obrazovém prostoru umožňuje difúznímu world modelu DIAMOND nahradit prostředí, nabízející větší vhled do chování world modelu a agenta. Značně, zlepšený výkon v určitých hrách je připsán lepšímu modelování kritických vizuálních detailů. Framework DIAMOND modeluje prostředí jako standardní POMDP nebo částečně pozorovatelný markovský rozhodovací proces se sadou stavů, sadou diskrétních akcí a sadou obrazových pozorování. Přechodové funkce popisují dynamiku prostředí a odměňovací funkce mapuje přechody na skalární odměny.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.