Umělá inteligence

Samo-pozornostní vedení: zlepšení kvality vzorků difuzních modelů

Publikováno 2. ledna 2024

Aktualizováno 22. května 2026

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Difuzní modely jsou generativní modely umělé inteligence, které syntetizují obrázky z hluku pomocí iterativního procesu odstranění hluku. Jsou oslavovány pro ihre výjimečné schopnosti generování obrázků a rozmanitost, která je do značné míry připsána textovým nebo podmíněným metodám vedení, včetně vedení klasifikátoru a vedení bez klasifikátoru. Tyto modely byly pozoruhodně úspěšné ve vytváření rozmanitých, vysoce kvalitních obrázků. Nedávné studie ukázaly, že metody vedení, jako jsou popisky tříd a štítky, hrají zásadní roli při zlepšování kvality obrázků generovaných těmito modely.

Nicméně, difuzní modely a metody vedení čelí omezením za určitých vnějších podmínek. Metoda vedení bez klasifikátoru (CFG), která používá pádu štítků, přidává složitost procesu školení, zatímco metoda vedení klasifikátoru (CG) vyžaduje další školení klasifikátoru. Obě metody jsou somewhat omezeny svou závislostí na tvrdě získaných vnějších podmínkách, což omezuje jejich potenciál a omezují je na podmíněné nastavení.

Aby se tyto omezení řešila, vývojáři formulovali obecnější přístup k vedení difuzních modelů, nazvaný samo-pozornostní vedení (SAG). Tato metoda využívá informace z meziproduktů difuzních modelů k generování obrázků. V tomto článku budeme procházet SAG, diskutovat o jeho fungování, metodologii a výsledcích ve srovnání se současnými rámci a metodami.

Samo-pozornostní vedení: zlepšení kvality vzorků difuzních modelů

Difuzní modely (DDM) získaly popularitu pro svou schopnost vytvářet obrázky z hluku pomocí iterativního procesu odstranění hluku. Schopnost syntetizovat obrázky těchto modelů je do značné míry způsobena použitými metodami vedení difuzních modelů. Navzdory jejich silným stránkám, difuzní modely a metody vedení čelí výzvám, jako je přidání složitosti a zvýšení výpočetních nákladů.

Aby se tyto současné omezení překonala, vývojáři představili metodu samo-pozornostního vedení, obecnější formulaci vedení difuzních modelů, která nevyžaduje vnější informace z vedení difuzních modelů, a tím umožňuje podmíněný a flexibilní přístup k vedení difuzních rámců. Přístup zvolený samo-pozornostním vedením nakonec pomáhá zlepšit aplikovatelnost tradičních metod vedení difuzních modelů na případy s nebo bez vnějších požadavků.

Samo-pozornostní vedení je založeno na jednoduchém principu obecné formulace a předpokladu, že vnitřní informace obsažené v meziproduktech mohou sloužit jako vedení. Na základě tohoto principu, metoda SAG nejprve představuje rozostření vedení, jednoduché a přímočaré řešení pro zlepšení kvality vzorků. Rozostření vedení se snaží využít příznivé vlastnosti Gaussova rozostření k odstranění jemných detailů přirozeně tím, že vede meziprodukty pomocí odstraněných informací jako výsledku Gaussova rozostření. Ačkoli metoda rozostření vedení zlepšuje kvalitu vzorků se středním rozsahem vedení, nezdaří se replikovat výsledky na velkém rozsahu vedení, protože často zavádí strukturální ambiguitu v celých oblastech. V důsledku toho, metoda rozostření vedení má potíže s vyrovnáním původního vstupu s predikcí zhoršeného vstupu. Aby se zlepšila stabilita a účinnost metody rozostření vedení na větším rozsahu vedení, samo-pozornostní vedení se snaží využít samo-pozornostní mechanismus difuzních modelů, jelikož moderní difuzní modely již obsahují samo-pozornostní mechanismus ve své architektuře.

S předpokladem, že samo-pozornost je nezbytná pro zachycení významných informací, metoda samo-pozornostního vedení používá samo-pozornostní mapy difuzních modelů k adversativnímu rozostření oblastí obsahujících významné informace a tím vede difuzní modely s požadovanými zbytkovými informacemi. Metoda pak využívá pozornostní mapy během reverzního procesu difuzních modelů, aby zlepšila kvalitu obrázků a používá samo-podmíněné vedení, aby snížila artefakty bez požadavku na další školení nebo vnější informace.

Shrnutí, metoda samo-pozornostního vedení

Je novým přístupem, který využívá vnitřní samo-pozornostní mapy difuzních rámců ke zlepšení kvality generovaných obrázků bez požadavku na další školení nebo vnější podmínky.
Metoda SAG se snaží zobecnit podmíněné metody vedení do podmíněného přístupu, který lze integrovat s jakýmkoli difuzním modelem bez požadavku na další zdroje nebo vnější podmínky, a tím zlepšit aplikovatelnost rámců založených na vedení.
Metoda SAG se také snaží prokázat své ortogonální schopnosti vůči stávajícím podmíněným metodám a rámcům, a tím umožnit zlepšení výkonu tím, že umožňuje flexibilní integraci s jinými metodami a modely.

Pokračujeme, metoda samo-pozornostního vedení se učí z výsledků souvisejících rámců, včetně difuzních modelů, vedení vzorků, samo-pozornostních metod umělé inteligence a vnitřních reprezentací difuzních modelů. Nicméně, v jádru, metoda samo-pozornostního vedení implementuje znalosti z DDPM nebo difuzních probabilistických modelů, vedení klasifikátoru, vedení bez klasifikátoru a samo-pozornostního vedení v difuzních rámcích. Tyto budeme probírat podrobněji v následující sekci.

Samo-pozornostní vedení: předběžné podmínky, metodologie a architektura

Difuzní probabilistický model nebo DDPM

DDPM nebo difuzní probabilistický model je model, který používá iterativní proces odstranění hluku k obnovení obrázku z bílého hluku. Tradičně, model DDPM přijímá vstupní obrázek a rozvrh variance v čase k získání obrázku pomocí forward procesu známého jako Markovský proces.

Klasifikátor a klasifikátor-free vedení s implementací GAN

GAN nebo generativní adversativní sítě mají jedinečnou schopnost obchodovat mezi rozmanitostí a věrností, a aby se tato schopnost GAN rámců přenesla na difuzní modely, rámcové samo-pozornostního vedení navrhuje použití metody vedení klasifikátoru, která využívá další klasifikátor. Naopak, metoda vedení bez klasifikátoru může být také implementována bez použití dalšího klasifikátoru k dosažení stejných výsledků. Ačkoli metoda dodává požadované výsledky, není stále výpočetně životaschopná, protože vyžaduje další štítky a také omezuje rámec na podmíněné difuzní modely, které vyžadují další podmínky, jako je text nebo třída, spolu s dalšími podrobnostmi školení, které přidávají složitost modelu.

Zobecnění vedení difuzních modelů

Ačkoli metody vedení klasifikátoru a vedení bez klasifikátoru dodávají požadované výsledky a pomáhají s podmíněnou generací v difuzních modelech, jsou závislé na dalších vstupních datech. Pro jakýkoli daný časový krok, vstup pro difuzní model se skládá z obecné podmínky a perturbovaného vzorku bez obecné podmínky. Kromě toho, obecná podmínka zahrnuje vnitřní informace uvnitř perturbovaného vzorku nebo vnější podmínku, nebo obojí. Výsledné vedení je formulováno pomocí imaginární regrese s předpokladem, že může předpovědět obecnou podmínku.

Zlepšení kvality obrázků pomocí samo-pozornostních map

Zobecněné vedení difuzních modelů naznačuje, že je možné poskytnout vedení reverznímu procesu difuzních modelů extrahováním významných informací v obecné podmínce obsažené v perturbovaném vzorku. Navazující na to, metoda samo-pozornostního vedení zachycuje významné informace pro reverzní procesy efektivně, zatímco omezuje rizika, která vznikají v důsledku problémů mimo distribuci v předem trénovaných difuzních modelech.

Rozostření vedení

Rozostření vedení v samo-pozornostním vedení je založeno na Gaussově rozostření, lineární metodě filtrování, ve které je vstupní signál konvolován s Gaussovým filtrem k vygenerování výstupu. S rostoucím standardním odchylem, Gaussovo rozostření snižuje jemné detaily uvnitř vstupních signálů a vede k místně nerozlišitelným vstupním signálům tím, že je vyhlazuje směrem ke konstantě. Kromě toho, experimenty ukázaly informační nerovnováhu mezi vstupním signálem a výstupem Gaussova rozostření, kde výstupní signál obsahuje více jemných informací.

Na základě tohoto učení, rámec samo-pozornostního vedení představuje rozostření vedení, techniku, která záměrně vylučuje informace z meziproduktů během procesu difuzních modelů a místo toho používá tyto informace k vedení svých predikcí směrem ke zvýšení relevance obrázků k vstupním informacím. Rozostření vedení vlastně způsobuje, že původní predikce se více odchyluje od rozostřené vstupní predikce. Kromě toho, příznivá vlastnost Gaussova rozostření brání výstupním signálům v odchýlení se výrazně od původního signálu s mírnou odchylkou. Jednoduše řečeno, rozostření se vyskytuje v obrázcích přirozeně, což činí Gaussovo rozostření vhodnější metodou pro aplikaci na předem trénované difuzní modely.

V rámci samo-pozornostního vedení, vstupní signál je nejprve rozostřen pomocí Gaussova filtru a poté difundován s dodatečným hlukem k produkci výstupního signálu. Tímto způsobem, rámec SAG snižuje vedlejší účinek výsledného rozostření, které snižuje Gaussovský hluk a činí vedení závislým na obsahu spíše než na náhodném hluku. Ačkoli rozostření vedení dodává uspokojivé výsledky na rámcích s mírným rozsahem vedení, nezdaří se replikovat výsledky na existujících modelech s velkým rozsahem vedení, protože se stává náchylným k produkci hlučných výsledků, jak je demonstrováno v následující obrazové ukázce.

Tyto výsledky mohou být důsledkem strukturální ambiguity zavedené v rámci globálním rozostřením, které činí obtížným pro rámec SAG vyrovnat predikce původního vstupu s degradovaným vstupem, vedoucí k hlučným výstupům.

Samo-pozornostní mechanismus

Jak je zmíněno dříve, difuzní modely obvykle mají vestavěný samo-pozornostní komponent a je jedním z nejdůležitějších komponentů v rámci difuzního modelu. Mechanismus samo-pozornosti je implementován v jádru difuzních modelů a umožňuje modelu soustředit se na významné části vstupu během generativního procesu, jak je demonstrováno v následující obrazové ukázce s vysokofrekvenčními maskami v horní řadě a samo-pozornostními maskami v dolní řadě konečných generovaných obrázků.

Navrhovaná metoda samo-pozornostního vedení staví na stejném principu a využívá schopností samo-pozornostních map v difuzních modelech. Celkově, metoda samo-pozornostního vedení rozostří samo-pozornostní oblasti vstupního signálu nebo jednoduše řečeno, skryje informace oblastí, které jsou pozornostně sledovány difuzními modely. Kromě toho, výstupní signály v samo-pozornostním vedení obsahují nepoškozené oblasti vstupních signálů, což znamená, že nevede ke strukturální ambiguitě vstupů a řeší problém globálního rozostření. Rámec poté získává agregované samo-pozornostní mapy provedením globálního průměrného poolingu k agregaci samo-pozornostních map do rozměru a nejbližšího sousedního vzorkování k vyrovnání rozlišení vstupního signálu.

Samo-pozornostní vedení: experimenty a výsledky

Aby se vyhodnotila jeho výkonnost, rámec samo-pozornostního vedení je vzorkován pomocí 8 Nvidia GeForce RTX 3090 GPU a je postaven na předem trénovaných rámcích IDDPM, ADM a Stable Diffusion.

Necondicionální generace se samo-pozornostním vedením

Aby se měřila účinnost rámce SAG na necondicionálních modelech a prokázala podmíněná vlastnost, kterou nemá vedení klasifikátoru a vedení bez klasifikátoru, rámec SAG je spuštěn na 50 tisíc necondicionálně trénovaných rámců.

Jak je vidět, implementace rámce SAG zlepšuje FID, sFID a IS metriky necondicionálních vstupů, zatímco snižuje hodnotu recall. Kromě toho, kvalitativní zlepšení v důsledku implementace rámce SAG jsou evidentní v následující obrazové ukázce, kde obrázky nahoře jsou výsledky z rámců ADM a Stable Diffusion, zatímco obrázky dole jsou výsledky z rámců ADM a Stable Diffusion s rámcem SAG.

Podmíněná generace se SAG

Integrace rámce SAG do existujících rámců dodává výjimečné výsledky v necondicionální generaci a rámec SAG je schopen podmíněné agnostiky, což umožňuje implementaci SAG pro podmíněnou generaci.

Stabilní difuze se samo-pozornostním vedením

Ačkoli původní rámec Stable Diffusion generuje vysoce kvalitní obrázky, integrace rámce Stable Diffusion s rámcem samo-pozornostního vedení může zlepšit výsledky dramaticky. Aby se vyhodnotil jeho účinek, vývojáři používají prázdné popisy pro Stable Diffusion s náhodným semenem pro každou пару obrázků a používají hodnocení lidskými účastníky na 500 párech obrázků se a bez samo-pozornostního vedení. Výsledky jsou demonstrovány v následující obrazové ukázce.

Kromě toho, implementace SAG může zlepšit schopnosti rámce Stable Diffusion, protože fúze vedení bez klasifikátoru se samo-pozornostním vedením může rozšířit rozsah modelů Stable Diffusion na text-to-obrázek syntézu. Kromě toho, generované obrázky z modelu Stable Diffusion se samo-pozornostním vedením jsou vyšší kvality s menším počtem artefaktů díky samo-podmíněnému účinku rámce SAG, jak je demonstrováno v následující obrazové ukázce.

Aktuální omezení

Ačkoli implementace rámce samo-pozornostního vedení může podstatně zlepšit kvalitu generovaných obrázků, má některé omezení.

Jedním z hlavních omezení je ortogonální vztah s vedením klasifikátoru a vedením bez klasifikátoru. Jak je vidět v následující obrazové ukázce, implementace SAG zlepšuje FID skóre a predikční skóre, což znamená, že rámec SAG obsahuje ortogonální komponentu, která může být použita s tradičními metodami vedení současně.

Nicméně, stále vyžaduje, aby difuzní modely byly trénovány určitým způsobem, což přidává složitost a výpočetní náklady.

Kromě toho, implementace samo-pozornostního vedení nezpůsobuje zvýšení paměti nebo času spotřeby, což naznačuje, že režie vyplývající z operací, jako je maskování a rozostření v SAG, je zanedbatelná. Nicméně, stále přidává k výpočetním nákladům, protože zahrnuje další krok ve srovnání s přístupy bez vedení.

Konečné myšlenky

V tomto článku, jsme mluvili o samo-pozornostním vedení, novém a obecném formulaci metody vedení, která využívá vnitřní informace dostupné uvnitř difuzních modelů pro generování vysoce kvalitních obrázků. Samo-pozornostní vedení je založeno na jednoduchém principu obecné formulace a předpokladu, že vnitřní informace obsažené v meziproduktech mohou sloužit jako vedení. Rámec samo-pozornostního vedení je podmíněný a trénovací přístup, který lze implementovat napříč různými difuzními modely a používá samo-podmíněné vedení ke snížení artefaktů v generovaných obrázcích a zlepšení celkové kvality.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.