Spojte se s námi

Umělá inteligence

Vedení sebepozornosti: Zlepšení kvality vzorků modelů difúze

mm
Vedení sebepozornosti: Zlepšení kvality vzorků modelů difúze

Modely difúze odšumování jsou generativní rámce umělé inteligence, které syntetizují obrázky ze šumu pomocí iterativního procesu odšumování. Jsou oslavováni pro své výjimečné schopnosti generování obrazu a rozmanitost, kterou z velké části připisují metodám navádění podmíněným textem nebo třídou, včetně navádění klasifikátorem a navádění bez klasifikátoru. Tyto modely byly pozoruhodně úspěšné při vytváření různorodých, vysoce kvalitních snímků. Nedávné studie ukázaly, že poradenské techniky, jako jsou popisky a štítky třídy, hrají zásadní roli při zvyšování kvality obrázků, které tyto modely vytvářejí.

Difúzní modely a metody vedení však za určitých vnějších podmínek čelí omezením. Metoda Classifier-Free Guidance (CFG), která využívá vypouštění štítků, zvyšuje složitost tréninkového procesu, zatímco metoda Classifier Guidance (CG) vyžaduje další trénink klasifikátorů. Obě metody jsou poněkud omezeny tím, že spoléhají na těžce získané vnější podmínky, což omezuje jejich potenciál a omezuje je na podmíněná nastavení.

Aby se vývojáři vypořádali s těmito omezeními, formulovali obecnější přístup k difúznímu vedení, známý jako Self-Attention Guidance (SAG). Tato metoda využívá informace z mezilehlých vzorků difúzních modelů ke generování obrázků. V tomto článku prozkoumáme SAG a prodiskutujeme jeho fungování, metodologii a výsledky v porovnání se současnými nejmodernějšími rámci a kanály.

Vedení sebepozornosti: Zlepšení kvality vzorků modelů difúze

Denoising Diffusion Models (DDM) si získaly oblibu pro svou schopnost vytvářet obrazy ze šumu pomocí iterativního procesu odšumování. Schopnost syntézy obrazu těchto modelů je z velké části způsobena použitými metodami difúzního vedení. Navzdory svým silným stránkám čelí modely difúze a metody založené na poradenství výzvám, jako je zvýšená složitost a zvýšené výpočetní náklady.

Aby vývojáři překonali současná omezení, zavedli metodu Self-Attention Guidance, obecnější formulaci difúzního navádění, která se nespoléhá na externí informace z difuzního navádění, čímž usnadňuje flexibilní přístup k vedení bez podmínek. difúzní rámce. Přístup, který zvolila Self-Attention Guidance, nakonec pomáhá zlepšit použitelnost tradičních metod difuzního navádění na případy s nebo bez externích požadavků. 

Navádění sebepozornosti je založeno na jednoduchém principu zobecněné formulace a předpokladu, že interní informace obsažené v mezivzorcích mohou sloužit také jako vodítko. Na základě tohoto principu metoda SAG nejprve zavádí Blur Guidance, jednoduché a přímočaré řešení pro zlepšení kvality vzorku. Navádění rozostření má za cíl využít benigních vlastností gaussovského rozostření k přirozenému odstranění jemných detailů pomocí vedení mezilehlých vzorků pomocí eliminovaných informací v důsledku gaussovského rozostření. Přestože metoda navádění rozostření zvyšuje kvalitu vzorku pomocí mírné vodicí stupnice, nedokáže replikovat výsledky na velkém naváděcím měřítku, protože často zavádí strukturální nejednoznačnost v celých regionech. V důsledku toho je pro metodu navádění rozostření obtížné sladit původní vstup s predikcí zhoršeného vstupu. Aby se zvýšila stabilita a účinnost metody navádění rozostření na větším měřítku navádění, navádění sebepozorování se pokouší využít mechanismus samopozornosti modelů difúze, protože moderní modely difúze již ve své architektuře obsahují mechanismus samopozornosti. 

S předpokladem, že sebepozornost je nezbytná pro zachycení důležitých informací ve svém jádru, metoda navádění sebepozornosti využívá mapy sebepozornosti modelů difúze k nepříznivému rozmazání oblastí obsahujících význačné informace a v tomto procesu vede difúzní modely s požadovanými zbytkovými informacemi. Metoda pak využívá mapy pozornosti během reverzního procesu difúzních modelů, aby se zvýšila kvalita snímků, a využívá samokondicionování ke snížení artefaktů bez nutnosti dalšího školení nebo externích informací. 

Abych to shrnul, metoda sebepozorného vedení

  1. Jedná se o nový přístup, který využívá interní mapy sebepozorování difúzních rámců ke zlepšení kvality generovaného vzorku obrazu bez nutnosti dalšího školení nebo spoléhání na vnější podmínky. 
  2. Metoda SAG se pokouší zobecnit metody podmíněného vedení na metodu bez podmínek, kterou lze integrovat s jakýmkoli modelem difúze bez nutnosti dalších zdrojů nebo vnějších podmínek, čímž se zvyšuje použitelnost rámců založených na vedení. 
  3. Metoda SAG se také pokouší demonstrovat své ortogonální schopnosti vůči existujícím podmíněným metodám a rámcům, čímž usnadňuje zvýšení výkonu usnadněním flexibilní integrace s jinými metodami a modely. 

Postupem času se metoda navádění sebepozornosti učí ze zjištění souvisejících rámců včetně modelů odšumování difúze, navádění vzorkování, generativních metod sebepozorování umělé inteligence a vnitřních reprezentací modelů difúze. Ve svém jádru však metoda navádění sebepozornosti implementuje poznatky z DDPM nebo pravděpodobnostních modelů odšumování difúze, navádění klasifikátorem, navádění bez klasifikátoru a sebepozorování v rámci difúzních rámců. Budeme o nich hovořit podrobně v nadcházející části. 

Samostatná pozornost : Předběžná příprava, metodika a architektura

Pravděpodobnostní model odšumování difúze nebo DDPM

DDPM popř Pravděpodobnostní model odšumování difúze je model, který používá iterativní proces odšumování k obnovení obrazu z bílého šumu. Tradičně model DDPM přijímá vstupní obraz a rozvrh odchylek v časovém kroku, aby získal obraz pomocí dopředného procesu známého jako Markovovský proces. 

Klasifikátor a návod bez klasifikátoru s implementací GAN

Sítě GAN nebo Generative Adversarial Networks mají jedinečnou obchodní rozmanitost pro věrnost, a aby tuto schopnost GAN rámců přenesla do modelů difúze, rámec Self-Attention Guidance navrhuje použít metodu navádění klasifikátorem, která používá další klasifikátor. Naopak metodu vedení bez klasifikátoru lze pro dosažení stejných výsledků implementovat i bez použití dalšího klasifikátoru. Přestože metoda přináší požadované výsledky, stále není výpočetně životaschopná, protože vyžaduje další štítky, a také omezuje rámec na modely podmíněné difúze, které vyžadují další podmínky, jako je text nebo třída, spolu s dalšími podrobnostmi školení, které zvyšují složitost model. 

Všeobecná difúzní směrnice

Přestože metody Classifier a Classifier-free Guidance poskytují požadované výsledky a pomáhají s podmíněným generováním v difúzních modelech, jsou závislé na dalších vstupech. Pro jakýkoli daný časový krok zahrnuje vstup pro model difúze zobecněnou podmínku a narušený vzorek bez zobecněné podmínky. Kromě toho zobecněná podmínka zahrnuje vnitřní informace v narušeném vzorku nebo vnější podmínku, nebo dokonce obojí. Výsledné vedení je formulováno s využitím imaginárního regresoru s předpokladem, že dokáže předpovědět zobecněný stav. 

Zlepšení kvality obrazu pomocí sebepozorných map

Generalized Diffusion Guidance implikuje, že je možné poskytnout vodítko pro reverzní proces difúzních modelů extrakcí významných informací ve zobecněných podmínkách obsažených v narušeném vzorku. Metoda Self-Attention Guidance staví na stejném principu a efektivně zachycuje důležité informace pro reverzní procesy a zároveň omezuje rizika, která vznikají v důsledku problémů s out-of-distribution v předem trénovaných modelech difúze. 

Návod na rozmazání

Navádění rozostření v navádění sebepozorováním je založeno na gaussovském rozostření, metodě lineárního filtrování, při které je vstupní signál konvolvován s gaussovským filtrem za účelem generování výstupu. Se zvýšením standardní odchylky Gaussian Blur redukuje jemné detaily ve vstupních signálech a výsledkem jsou lokálně nerozeznatelné vstupní signály jejich vyhlazením směrem ke konstantě. Kromě toho experimenty ukázaly informační nerovnováhu mezi vstupním signálem a výstupním signálem Gaussova rozostření, kde výstupní signál obsahuje více informací v jemném měřítku. 

Na základě těchto poznatků zavádí systém navádění sebepozornosti navádění rozostření, techniku, která záměrně vylučuje informace z přechodných rekonstrukcí během procesu difúze, a místo toho využívá tyto informace k vedení svých předpovědí směrem ke zvýšení relevance snímků pro vstupní informace. Navádění rozostření v podstatě způsobuje, že se původní předpověď více odchyluje od rozmazané vstupní predikce. Kromě toho benigní vlastnost v Gaussově rozostření zabraňuje tomu, aby se výstupní signály výrazně odchylovaly od původního signálu s mírnou odchylkou. Jednoduše řečeno, k rozmazání dochází v obrazech přirozeně, což činí z Gaussova rozostření vhodnější metodu pro použití na předem trénované modely difúze. 

V potrubí Self-Attention Guidance je vstupní signál nejprve rozmazán pomocí Gaussova filtru a poté je rozptýlen dalším šumem, aby se vytvořil výstupní signál. Tímto způsobem potrubí SAG zmírňuje vedlejší efekt výsledného rozostření, které snižuje gaussovský šum, a navádění závisí na obsahu spíše než na náhodném šumu. Přestože navádění rozostření poskytuje uspokojivé výsledky na rámech se středním měřítkem navádění, nedaří se mu replikovat výsledky na stávajících modelech s velkým měřítkem navádění, protože je náchylné k vytváření hlučných výsledků, jak ukazuje následující obrázek. 

Tyto výsledky mohou být výsledkem strukturální nejednoznačnosti zavedené do rámce globálním rozostřením, které ztěžuje potrubí SAG sladit předpovědi původního vstupu s degradovaným vstupem, což má za následek hlučné výstupy. 

Mechanismus sebepozornosti

Jak již bylo zmíněno dříve, modely difúze mají obvykle vestavěnou komponentu sebepozorování a je to jedna z nejdůležitějších komponent v rámci modelu difuze. Mechanismus Self-Attention je implementován v jádru modelů difúze a umožňuje modelu věnovat pozornost hlavním částem vstupu během generativního procesu, jak je ukázáno na následujícím obrázku s vysokofrekvenčními maskami v horní řadě, a masky sebepozorování ve spodní řadě finálně generovaných obrázků. 

Navrhovaná metoda navádění sebepozorováním staví na stejném principu a využívá schopnosti map sebepozorování v difúzních modelech. Celkově metoda Self-Attention Guidance rozmazává samoobslužné záplaty ve vstupním signálu nebo jednoduše řečeno skrývá informace o záplatách, o které se starají modely difúze. Kromě toho výstupní signály v Self-Attention Guidance obsahují neporušené oblasti vstupních signálů, což znamená, že nevede ke strukturální nejednoznačnosti vstupů a řeší problém globálního rozmazání. Potrubí pak získá agregované mapy sebepozorování provedením GAP nebo Global Average Pooling pro agregaci map sebepozorování do dimenze a up-vzorkováním nejbližšího souseda, aby odpovídal rozlišení vstupního signálu. 

Vedení sebepozornosti: Experimenty a výsledky

K vyhodnocení jeho výkonu je vzorkování potrubí Self-Attention Guidance vzorkováno pomocí 8 GPU Nvidia GeForce RTX 3090 a je postaveno na předem vyškolených IDDPM, ADM a Stabilní difúzní rámce

Bezpodmínečná generace s vedením sebepozornosti

Aby bylo možné měřit účinnost potrubí SAG na bezpodmínečných modelech a demonstrovat vlastnost bez podmínek, kterou nemá klasifikátor Guidance, a přístup Classifier Free Guidance, je potrubí SAG provozováno na bezpodmínečně předem vyškolených rámcích na 50 tisících vzorcích. 

Jak lze pozorovat, implementace potrubí SAG zlepšuje metriky FID, sFID a IS nepodmíněného vstupu při současném snížení hodnoty vyvolání. Kromě toho jsou kvalitativní zlepšení v důsledku implementace potrubí SAG evidentní na následujících obrázcích, kde obrázky nahoře jsou výsledky rámců ADM a Stable Diffusion, zatímco obrázky dole jsou výsledky rámců ADM a Stable Diffusion s Potrubí SAG. 

Podmíněné generování se SAG

Integrace potrubí SAG do stávajících rámců přináší výjimečné výsledky v bezpodmínečné výrobě a potrubí SAG je schopné agnosticity podmínek, což umožňuje, aby potrubí SAG bylo implementováno také pro podmíněné generování. 

Stabilní difúze s vedením sebepozorování

Přestože původní rámec Stable Diffusion generuje vysoce kvalitní obrázky, integrace rámce Stable Diffusion s potrubím Self-Attention Guidance může výsledky výrazně zlepšit. K vyhodnocení jeho účinku vývojáři používají prázdné výzvy pro Stable Diffusion s náhodným semenem pro každý pár obrázků a používají lidské hodnocení na 500 párech obrázků s a bez navádění sebepozornosti. Výsledky jsou demonstrovány na následujícím obrázku.  

Implementace SAG navíc může zlepšit schopnosti rámce Stable Diffusion, protože spojení navádění bez klasifikátoru s naváděním sebepozorování může rozšířit řadu modelů stabilní difúze na syntézu textu na obrázek. Kromě toho generované obrázky z modelu Stable Diffusion s naváděním sebepozorování mají vyšší kvalitu s menšími artefakty díky samokondicionačnímu efektu potrubí SAG, jak je ukázáno na následujícím obrázku. 

Aktuální omezení

I když implementace potrubí samopozorného vedení může podstatně zlepšit kvalitu generovaných snímků, má určitá omezení. 

Jedním z hlavních omezení je ortogonalita s naváděním klasifikátorem a naváděním bez klasifikátoru. Jak je vidět na následujícím obrázku, implementace SAG zlepšuje skóre FID a prediktivní skóre, což znamená, že potrubí SAG obsahuje ortogonální komponentu, kterou lze současně používat s tradičními metodami navádění. 

Stále však vyžaduje, aby byly modely difúze trénovány specifickým způsobem, což zvyšuje složitost a také výpočetní náklady. 

Kromě toho implementace navádění sebepozorování nezvyšuje spotřebu paměti ani času, což naznačuje, že režie vyplývající z operací, jako je maskování a rozmazání v SAG, jsou zanedbatelné. Stále však zvyšuje výpočetní náklady, protože obsahuje další krok ve srovnání s přístupy bez pokynů. 

Závěrečné myšlenky

V tomto článku jsme hovořili o navádění sebepozornosti, nové a obecné formulaci metody vedení, která využívá interní informace dostupné v rámci modelů difúze pro generování vysoce kvalitních snímků. Navádění sebepozornosti je založeno na jednoduchém principu zobecněné formulace a předpokladu, že interní informace obsažené v mezivzorcích mohou sloužit také jako vodítko. Potrubí samopozorného navádění je přístup bez podmínek a bez školení, který lze implementovat napříč různými modely difúze a využívá samoupravování ke snížení artefaktů ve generovaných snímcích a zvyšuje celkovou kvalitu. 

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.