peň AnimateLCM: Urýchlenie animácie prispôsobených modelov difúzie - Unite.AI
Spojte sa s nami

Umelá inteligencia

AnimateLCM: Urýchlenie animácie prispôsobených modelov difúzie

mm
Aktualizované on
AnimateLCM: Urýchlenie animácie prispôsobených modelov difúzie a adaptérov pomocou oddeleného konzistentného učenia

Za posledných niekoľko rokov dosiahli difúzne modely obrovský úspech a uznanie pre úlohy generovania obrázkov a videa. Najmä modely šírenia videa si získali značnú pozornosť vďaka svojej schopnosti vytvárať videá s vysokou koherenciou, ako aj vernosťou. Tieto modely generujú vysokokvalitné videá tým, že vo svojej architektúre využívajú iteračný proces odšumovania, ktorý postupne transformuje vysokorozmerný Gaussov šum na skutočné údaje.

Stabilná difúzia je jedným z najreprezentatívnejších modelov pre úlohy generovania obrázkov, pričom sa spolieha na variačný automatický kódovač (VAE) na mapovanie medzi skutočným obrázkom a latentnými funkciami s nižším vzorkovaním. To umožňuje modelu znížiť generatívne náklady, zatiaľ čo mechanizmus krížovej pozornosti v jeho architektúre uľahčuje generovanie obrázkov podmienených textom. Nedávno vytvoril rámec Stable Diffusion základ pre niekoľko adaptérov typu plug-and-play na dosiahnutie inovatívnejšieho a efektívnejšieho generovania obrazu alebo videa. Avšak iteračný generatívny proces, ktorý využíva väčšina modelov video difúzie, robí proces generovania obrazu časovo náročným a pomerne nákladným, čo obmedzuje jeho aplikácie.

V tomto článku budeme hovoriť o AnimateLCM, personalizovanom difúznom modeli s adaptérmi zameranými na generovanie videí s vysokou vernosťou s minimálnymi krokmi a výpočtovými nákladmi. Rámec AnimateLCM je inšpirovaný modelom konzistencie, ktorý urýchľuje vzorkovanie s minimálnymi krokmi destiláciou vopred pripravených modelov difúzie obrazu. Okrem toho úspešné rozšírenie modelu konzistentnosti, modelu latentnej konzistencie (LCM), uľahčuje generovanie podmieneného obrazu. Namiesto vykonávania učenia sa konzistencie priamo na surovom súbore údajov o videu, rámec AnimateLCM navrhuje použitie oddelenej stratégie učenia sa konzistencie. Táto stratégia oddeľuje destiláciu predchádzajúcej generácie pohybu a predchádzajúcej generácie obrázkov, čo umožňuje modelu zlepšiť vizuálnu kvalitu generovaného obsahu a súčasne zlepšiť efektivitu tréningu. Model AnimateLCM navyše navrhuje školiace adaptéry od začiatku alebo prispôsobenie existujúcich adaptérov svojmu modelu konzistencie destilovaného videa. To uľahčuje kombináciu plug-and-play adaptérov v rodine stabilných difúznych modelov na dosiahnutie rôznych funkcií bez poškodenia rýchlosti vzorky.

Cieľom tohto článku je podrobne pokryť rámec AnimateLCM. Skúmame mechanizmus, metodológiu a architektúru rámca spolu s jeho porovnaním s najmodernejšími rámcami na generovanie obrázkov a videa. Takže, začnime.

AnimateLCM: Animácia prispôsobených modelov difúzie

Difúzne modely boli základom pre úlohy generovania obrázkov a videa kvôli ich efektívnosti a schopnostiam pri generatívnych úlohách. Väčšina modelov difúzie sa pri generovaní obrazu spolieha na iteratívny proces odšumovania, ktorý postupne transformuje vysokorozmerný Gaussov šum na reálne údaje. Aj keď metóda poskytuje do istej miery uspokojivé výsledky, iteračný proces a počet iterujúcich vzoriek spomaľuje proces generovania a tiež zvyšuje výpočtové požiadavky modelov difúzie, ktoré sú oveľa pomalšie ako iné generatívne rámce, ako je GAN alebo Generatívne adverzné siete. V posledných rokoch boli modely konzistencie alebo CM navrhnuté ako alternatíva k iteračným difúznym modelom na urýchlenie procesu generovania pri zachovaní konštantných výpočtových požiadaviek. 

Hlavnou výhodou modelov konzistencie je to, že sa učia mapovania konzistencie, ktoré zachovávajú vlastnú konzistenciu trajektórií zavedených vopred vyškolenými modelmi difúzie. Proces učenia modelu Consistency Models mu umožňuje vytvárať vysokokvalitné obrázky s minimálnymi krokmi a tiež eliminuje potrebu iterácií náročných na výpočet. Okrem toho model latentnej konzistencie alebo LCM postavený na vrchole stabilný difúzny rámec možno integrovať do webového používateľského rozhrania s existujúcimi adaptérmi, aby sa dosiahlo množstvo ďalších funkcií, ako je napríklad preklad obrazu v reálnom čase. Na porovnanie, hoci existujúce modely šírenia videa poskytujú prijateľné výsledky, v oblasti zrýchlenia video vzorky je stále potrebné dosiahnuť pokrok, čo má veľký význam z dôvodu vysokých výpočtových nákladov na generovanie videa. 

To nás privádza k AnimateLCM, rámcu na generovanie videa s vysokou presnosťou, ktorý vyžaduje minimálny počet krokov na úlohy generovania videa. Podľa modelu latentnej konzistencie framework AnimateLCM zaobchádza s procesom reverznej difúzie ako s riešením toku rozšírenej pravdepodobnosti pomocou CFG alebo klasifikátorovej bezplatnej navigácie a trénuje model na predpovedanie riešenia takýchto pravdepodobnostných tokov priamo v latentnom priestore. Avšak namiesto priameho vykonávania konzistentného učenia na nespracovaných video dátach, ktoré si vyžaduje vysoké školenie a výpočtové zdroje a často vedie k nízkej kvalite, rámec AnimateLCM navrhuje oddelenú konzistentnú stratégiu učenia, ktorá oddeľuje konzistentnú destiláciu predchádzajúceho generovania pohybu a generovania obrazu. 

Rámec AnimateLCM najprv vykoná destiláciu konzistencie, aby sa model základnej difúzie obrazu prispôsobil modelu konzistencie obrazu, a potom vykoná 3D nafukovanie modelov konzistencie obrazu aj difúzie obrazu, aby sa prispôsobili 3D prvkom. Rámec AnimateLCM nakoniec získa model konzistencie videa vykonaním destilácie konzistencie na video dátach. Okrem toho, na zmiernenie potenciálneho poškodenia funkcií v dôsledku procesu šírenia, rámec AnimateLCM tiež navrhuje použiť stratégiu inicializácie. Keďže rámec AnimateLCM je postavený nad rámcom Stable Diffusion, môže nahradiť priestorové váhy svojho trénovaného modelu konzistentnosti videa verejne dostupnými personalizovanými váhami difúzie obrazu, aby sa dosiahli inovatívne výsledky generovania. 

Okrem toho, aby sa trénovali špecifické adaptéry od začiatku alebo aby lepšie vyhovovali verejne dostupným adaptérom, rámec AnimateLCM navrhuje efektívnu stratégiu zrýchlenia pre adaptéry, ktoré nevyžadujú školenie konkrétnych modelov učiteľov. 

Príspevky rámca AnimateLCM možno veľmi dobre zhrnúť takto: Navrhovaný rámec AnimateLCM má za cieľ dosiahnuť vysokokvalitné, rýchle a vysoko verné generovanie videa a na dosiahnutie tohto cieľa rámec AnimateLCM navrhuje stratégiu oddelenej destilácie, ktorá oddeľuje pohyb a obraz. predchádzajúce generácie, čo má za následok lepšiu kvalitu generácie a vyššiu efektivitu tréningu. 

InstantID: Metodológia a architektúra

Vo svojom jadre čerpá rámec InstantID veľkú inšpiráciu z modelov difúzie a stratégií rýchlosti vzorkovania. Difúzne modely, známe tiež ako generatívne modely založené na skóre, preukázali pozoruhodné schopnosti generovať obrázky. Pod vedením smerovania skóre iteratívna stratégia vzorkovania implementovaná difúznymi modelmi postupne odstraňuje šumom poškodené údaje. Účinnosť difúznych modelov je jedným z hlavných dôvodov, prečo ich používa väčšina modely šírenia videa tréningom na pridaných časových vrstvách. Na druhej strane, rýchlosť vzorkovania a stratégie zrýchlenia vzorkovania pomáhajú riešiť pomalé rýchlosti generovania v modeloch difúzie. Metóda zrýchlenia založená na destilácii ladí pôvodné difúzne hmotnosti pomocou prepracovanej architektúry alebo plánovača, aby sa zvýšila rýchlosť generovania. 

Rámec InstantID je postavený na modeli stabilnej difúzie, ktorý umožňuje InstantID aplikovať relevantné pojmy. Model zaobchádza s procesom diskrétnej priamej difúzie ako so spojitým časom variancie zachovávajúcim SDE. Okrem toho je stabilný difúzny model rozšírením DDPM alebo Denoising Diffusion Probabilistic Model, v ktorom je trénovací dátový bod postupne narušený diskrétnym Markovovým reťazcom s perturbačnou stanicou, ktorá umožňuje distribúciu hlučných dát v rôznych časových krokoch, aby sa sledovala distribúcia. 

Na dosiahnutie vysoko verného generovania videa s minimálnym počtom krokov rám AnimateLCM krotí stabilné modely videa založené na difúzii tak, aby sa riadili vlastnosťou vlastnej konzistencie. Celková štruktúra školenia rámca AnimateLCM pozostáva z oddelenej stratégie konzistentného učenia pre bezplatnú adaptáciu učiteľa a efektívne učenie sa konzistentnosťou. 

Prechod od modelov difúzie k modelom konzistencie

Rámec AnimateLCM zavádza vlastnú adaptáciu modelu stabilnej difúzie alebo DM na model konzistencie alebo CM podľa návrhu modelu latentnej konzistencie alebo LCM. Stojí za zmienku, že hoci modely stabilnej difúzie zvyčajne predpovedajú šum pridaný do vzoriek, sú to základné modely sigma difúzie. Je to na rozdiel od modelov konzistencie, ktorých cieľom je priamo predpovedať riešenie trajektórie PF-ODE. Okrem toho v modeloch stabilnej difúzie s určitými parametrami je nevyhnutné, aby model využíval stratégiu vedenia bez klasifikátora na generovanie vysoko kvalitných obrázkov. Rámec AnimateLCM však využíva rozšírený riešič ODE bez klasifikátora na vzorkovanie susedných párov v rovnakých trajektóriách, čo vedie k lepšej účinnosti a vyššej kvalite. Okrem toho existujúce modely naznačujú, že kvalita generovania a efektívnosť tréningu sú výrazne ovplyvnené počtom diskrétnych bodov v trajektórii. Menší počet diskrétnych bodov urýchľuje tréningový proces, zatiaľ čo vyšší počet diskrétnych bodov má za následok menšie skreslenie počas tréningu. 

Oddelené konzistentné učenie

Pokiaľ ide o proces destilácie konzistencie, vývojári zistili, že údaje použité na školenie výrazne ovplyvňujú kvalitu konečnej generácie modelov konzistencie. Hlavným problémom verejne dostupných súborov údajov však v súčasnosti je, že často pozostávajú z údajov o vodoznaku alebo ich nízkej kvality a môžu obsahovať príliš stručné alebo nejednoznačné popisy. Okrem toho je trénovanie modelu priamo na videách s veľkým rozlíšením výpočtovo nákladné a časovo náročné, čo z neho robí neuskutočniteľnú možnosť pre väčšinu výskumníkov. 

Vzhľadom na dostupnosť filtrovaných vysokokvalitných súborov údajov rámec AnimateLCM navrhuje oddeliť destiláciu priorít pohybu a priorít generovania obrázkov. Aby sme boli konkrétnejší, rámec AnimateLCM najprv destiluje modely stabilnej difúzie do modelov konzistencie obrazu s filtrovanými vysokokvalitnými súbormi údajov obrázkového textu s lepším rozlíšením. Rám potom trénuje ľahké závažia LoRA vo vrstvách stabilného difúzneho modelu, čím zmrazuje závažia stajne. difúzny model. Akonáhle model vyladí závažia LoRA, funguje ako všestranný akceleračný modul a preukázal svoju kompatibilitu s inými personalizovanými modelmi v stabilných difúznych komunitách. Pre odvodenie, rámec AnimateLCM spája váhy LoRA s pôvodnými váhami bez toho, aby došlo k narušeniu rýchlosti odvodenia. Potom, čo framework AnimateLCM získa model konzistencie na úrovni generovania obrazu, zmrazí váhy stabilného difúzneho modelu a váhy LoRA na ňom. Okrem toho model nafúkne 2D konvolučné jadrá na pseudo-3D jadrá, aby trénoval modely konzistencie pre generovanie videa. Model tiež pridáva časové vrstvy s nulovou inicializáciou a zvyškovým pripojením na úrovni bloku. Celkové nastavenie pomáha zaistiť, že výstup modelu nebude ovplyvnený pri jeho prvom trénovaní. Rámec AnimateLCM pod vedením modelov difúzie videa s otvoreným zdrojom trénuje časové vrstvy rozšírené zo stabilných modelov difúzie. 

Je dôležité si uvedomiť, že zatiaľ čo priestorové váhy LoRA sú navrhnuté tak, aby urýchlili proces vzorkovania bez zohľadnenia časového modelovania, a časové moduly sa vyvíjajú prostredníctvom štandardných difúznych techník, ich priama integrácia má tendenciu poškodiť reprezentáciu na začiatku tréningu. To predstavuje významné výzvy pri ich efektívnom a efektívnom zlúčení s minimálnym konfliktom. Prostredníctvom empirického výskumu rámec AnimateLCM identifikoval úspešný inicializačný prístup, ktorý nielen využíva konzistentné priority z priestorových váh LoRA, ale tiež zmierňuje nepriaznivé účinky ich priamej kombinácie. 

Na začiatku tréningu konzistencie sú vopred trénované priestorové závažia LoRA integrované výlučne do online modelu konzistencie, čím sa šetrí cieľový model konzistencie od vkladania. Táto stratégia zabezpečuje, že cieľový model, ktorý slúži ako vzdelávací sprievodca pre online model, negeneruje chybné predpovede, ktoré by mohli nepriaznivo ovplyvniť proces učenia sa online modelu. Počas tréningového obdobia sa váhy LoRA postupne začleňujú do modelu cieľovej konzistencie prostredníctvom procesu exponenciálneho kĺzavého priemeru (EMA), čím sa dosiahne optimálna rovnováha hmotnosti po niekoľkých iteráciách.

Bezplatná adaptácia pre učiteľov

Modely Stable Diffusion a adaptéry plug and play idú často ruka v ruke. Bolo však pozorované, že aj keď adaptéry plug and play do určitej miery fungujú, majú tendenciu strácať kontrolu nad detailmi, aj keď je väčšina týchto adaptérov trénovaná s modelmi šírenia obrazu. Na riešenie tohto problému sa rámec AnimateLCM rozhodol pre bezplatnú adaptáciu pre učiteľov, jednoduchú, ale efektívnu stratégiu, ktorá buď prispôsobuje existujúce adaptéry pre lepšiu kompatibilitu, alebo trénuje adaptéry od základov, resp. Tento prístup umožňuje rámcu AnimateLCM dosiahnuť ovládateľné generovanie videa a generovanie obrazu na video s minimálnym počtom krokov bez potreby modelov učiteľov. 

AnimateLCM: Experimenty a výsledky

Rámec AnimateLCM využíva Stable Diffusion v1-5 ako základný model a implementuje riešič DDIM ODE na tréningové účely. Rámec tiež používa stabilnú difúziu v1-5 s pohybovými váhami s otvoreným zdrojom ako model difúzie videa učiteľa, pričom experimenty sa vykonávajú na súbore údajov WebVid2M bez akýchkoľvek ďalších alebo rozšírených údajov. Okrem toho rámec využíva súbor údajov TikTok s krátkymi textovými výzvami s titulkami BLIP na generovanie ovládateľného videa. 

Kvalitatívne výsledky

Nasledujúci obrázok ukazuje výsledky štvorstupňovej metódy generovania implementovanej rámcom AnimateLCM pri generovaní textu na video, generovanie obrazu na video a generovanie riadeného videa. 

Ako možno pozorovať, výsledky poskytnuté každým z nich sú uspokojivé s vygenerovanými výsledkami, ktoré demonštrujú schopnosť rámca AnimateLCM sledovať vlastnosť konzistencie aj pri rôznych inferenčných krokoch, pričom si zachováva podobný pohyb a štýl. 

Kvantitatívne výsledky

Nasledujúci obrázok ilustruje kvantitatívne výsledky a porovnanie rámca AnimateLCM so súčasnými metódami DDIM a DPM++. 

Ako je možné pozorovať, rámec AnimateLCM výrazne prevyšuje existujúce metódy, najmä v režime nízkych krokov v rozsahu od 1 do 4 krokov. Okrem toho sa metriky AnimateLCM zobrazené v tomto porovnaní vyhodnocujú bez použitia CFG alebo bez klasifikátora, čo umožňuje rámcu ušetriť takmer 50 % času na odvodenie a nákladov na špičkovú pamäť. Okrem toho, na ďalšie overenie jeho výkonu, sú priestorové váhy v rámci AnimateLCM nahradené verejne dostupným personalizovaným realistickým modelom, ktorý vytvára dobrú rovnováhu medzi vernosťou a rozmanitosťou, čo pomáha pri ďalšom zvyšovaní výkonu. 

Záverečné myšlienky

V tomto článku sme hovorili o AnimateLCM, personalizovanom difúznom modeli s adaptérmi, ktorého cieľom je vytvárať videá s vysokou presnosťou s minimálnymi krokmi a výpočtovými nákladmi. Rámec AnimateLCM je inšpirovaný modelom konzistencie, ktorý urýchľuje vzorkovanie s minimálnymi krokmi destiláciou vopred natrénovaných modelov difúzie obrazu, a úspešným rozšírením modelu konzistencie, modelu latentnej konzistencie alebo LCM, ktoré uľahčuje generovanie podmieneného obrazu. Namiesto priameho vykonávania učenia sa konzistencie na surovom súbore údajov videa, rámec AnimateLCM navrhuje použiť stratégiu oddeleného učenia sa konzistencie, ktorá oddeľuje destiláciu predchádzajúcej generácie pohybu a predchádzajúcej generácie obrázkov, čo umožňuje modelu zlepšiť vizuálnu kvalitu generovaného obsahu a súčasne zlepšiť efektivitu tréningu.

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.