stub AnimateLCM: individualizuotų difuzijos modelių animacijos pagreitinimas – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

AnimateLCM: suasmenintų difuzijos modelių animacijos pagreitinimas

mm
Atnaujinta on
AnimateLCM: suasmenintų difuzijos modelių ir adapterių animacijos pagreitinimas naudojant atsietą nuoseklų mokymąsi

Per pastaruosius kelerius metus difuzijos modeliai sulaukė didžiulės sėkmės ir pripažinimo atliekant vaizdo ir vaizdo įrašų generavimo užduotis. Vaizdo įrašų sklaidos modeliai ypač susilaukė didelio dėmesio dėl jų gebėjimo kurti vaizdo įrašus su dideliu nuoseklumu ir tikslumu. Šie modeliai sukuria aukštos kokybės vaizdo įrašus, savo architektūroje taikydami pasikartojantį triukšmo mažinimo procesą, kuris palaipsniui paverčia didelio matmens Gauso triukšmą tikrais duomenimis.

Stabili difuzija yra vienas tipiškiausių vaizdų generavimo užduočių modelių, pasikliaujantis variaciniu automatiniu koduotuvu (VAE), kuris susieja tikrąjį vaizdą ir atrinktus latentinius elementus. Tai leidžia modeliui sumažinti generacines išlaidas, o kryžminio dėmesio mechanizmas jo architektūroje palengvina teksto sąlyginio vaizdo generavimą. Visai neseniai „Stable Diffusion“ sistema sukūrė pagrindą keletui „plug-and-play“ adapterių, kad būtų galima sukurti naujoviškesnį ir efektyvesnį vaizdą ar vaizdo įrašą. Tačiau dėl daugumos vaizdo sklaidos modelių naudojamo kartotinio generavimo proceso vaizdų generavimo procesas užima daug laiko ir yra palyginti brangus, o tai riboja jo taikymą.

Šiame straipsnyje kalbėsime apie AnimateLCM – individualizuotą difuzijos modelį su adapteriais, skirtus generuoti aukštos kokybės vaizdo įrašus su minimaliais žingsniais ir skaičiavimo išlaidomis. AnimateLCM sistema įkvėpta nuoseklumo modelio, kuris pagreitina mėginių ėmimą minimaliais žingsniais distiliuojant iš anksto paruoštus vaizdo sklaidos modelius. Be to, sėkmingas nuoseklumo modelio išplėtimas, latentinis nuoseklumo modelis (LCM), palengvina sąlyginio vaizdo generavimą. Užuot mokantis nuoseklumo tiesiogiai naudojant neapdorotų vaizdo įrašų duomenų rinkinį, AnimateLCM sistema siūlo naudoti atsietą nuoseklumo mokymosi strategiją. Ši strategija atskiria judesio generavimo ir vaizdo generavimo pirmenybių distiliavimą, leidžiantį modeliui pagerinti generuojamo turinio vizualinę kokybę ir vienu metu pagerinti mokymo efektyvumą. Be to, AnimateLCM modelis siūlo mokymo adapterius nuo nulio arba esamų adapterių pritaikymą distiliuoto vaizdo nuoseklumo modeliui. Tai palengvina „plug-and-play“ adapterių derinimą stabilios difuzijos modelių šeimoje, kad būtų galima atlikti skirtingas funkcijas nepažeidžiant mėginio greičio.

Šio straipsnio tikslas yra išsamiai apžvelgti AnimateLCM sistemą. Išnagrinėjame sistemos mechanizmą, metodiką ir architektūrą bei palyginame ją su naujausiomis vaizdų ir vaizdo įrašų generavimo sistemomis. Taigi, pradėkime.

AnimateLCM: personalizuotų difuzijos modelių animacija

Difuzijos modeliai buvo naudojami vaizdų generavimo ir vaizdo įrašų generavimo užduočių pagrindu dėl jų efektyvumo ir galimybių generuoti užduotis. Dauguma difuzijos modelių remiasi pasikartojančiu triukšmo mažinimo procesu vaizdo generavimui, kuris palaipsniui paverčia didelio matmens Gauso triukšmą realiais duomenimis. Nors šis metodas duoda pakankamai patenkinamų rezultatų, iteracinis procesas ir kartojamų pavyzdžių skaičius lėtina generavimo procesą ir taip pat padidina difuzijos modelių skaičiavimo reikalavimus, kurie yra daug lėtesni nei kitos generacinės sistemos, tokios kaip GAN arba Generatyvūs priešpriešiniai tinklai. Per pastaruosius kelerius metus nuoseklumo modeliai arba CM buvo pasiūlyti kaip alternatyva pasikartojantiems difuzijos modeliams, siekiant pagreitinti generavimo procesą, išlaikant pastovius skaičiavimo reikalavimus. 

Nuoseklumo modelių akcentas yra tai, kad jie mokosi nuoseklumo žemėlapių, kurie palaiko trajektorijų, įvestų iš anksto parengtų difuzijos modelių, savarankiškumą. Nuoseklumo modelių mokymosi procesas leidžia generuoti aukštos kokybės vaizdus su minimaliais žingsniais, taip pat pašalina daug skaičiavimo reikalaujančių iteracijų poreikį. Be to, latentinio nuoseklumo modelis arba LCM sukurtas ant stabili difuzijos sistema Galima integruoti į žiniatinklio vartotojo sąsają su esamais adapteriais, kad būtų galima pasiekti daugybę papildomų funkcijų, pvz., vaizdo vertimą realiuoju laiku. Palyginimui, nors esami vaizdo sklaidos modeliai duoda priimtinus rezultatus, vis dar reikia padaryti pažangą vaizdo pavyzdžio pagreitinimo srityje, o tai labai svarbu dėl didelių vaizdo įrašų generavimo skaičiavimo sąnaudų. 

Tai veda prie AnimateLCM – didelio tikslumo vaizdo įrašų generavimo sistemos, kuriai reikia minimalaus žingsnių skaičiaus vaizdo įrašų generavimo užduotims atlikti. Vadovaudamasi latentinio nuoseklumo modeliu, AnimateLCM sistema atvirkštinės difuzijos procesą traktuoja kaip CFG arba laisvo klasifikatoriaus nurodymų padidinto tikimybių srauto sprendimą ir apmoko modelį numatyti tokių tikimybių srautų sprendimą tiesiogiai latentinėje erdvėje. Tačiau užuot tiesiogiai atlikus neapdorotų vaizdo duomenų nuoseklumo mokymąsi, kuriam reikalingi dideli mokymo ir skaičiavimo ištekliai ir kuris dažnai sukelia prastą kokybę, AnimateLCM sistema siūlo atsietą nuoseklią mokymosi strategiją, kuri atskiria judesio generavimo ir vaizdo generavimo prioritetų nuoseklumą. 

AnimateLCM sistema pirmiausia atlieka nuoseklumo distiliavimą, kad vaizdo bazės difuzijos modelį pritaikytų vaizdo nuoseklumo modeliui, o tada atlieka 3D pripūtimą tiek vaizdo nuoseklumo, tiek vaizdo sklaidos modeliams, kad būtų pritaikytos 3D ypatybės. Galiausiai AnimateLCM sistema gauna vaizdo nuoseklumo modelį atlikdama vaizdo duomenų nuoseklumo distiliavimą. Be to, siekiant sumažinti galimą funkcijų sugadinimą dėl sklaidos proceso, AnimateLCM sistema taip pat siūlo naudoti inicijavimo strategiją. Kadangi AnimateLCM sistema sukurta ant stabilios sklaidos sistemos, ji gali pakeisti savo parengto vaizdo nuoseklumo modelio erdvinius svorius viešai prieinamais asmeniniais vaizdo sklaidos svoriais, kad būtų pasiekti naujoviški generavimo rezultatai. 

Be to, norint išmokyti konkrečius adapterius nuo nulio arba geriau pritaikyti viešai prieinamus adapterius, AnimateLCM sistema siūlo veiksmingą pagreičio strategiją adapteriams, kuriems nereikia mokyti konkrečių mokytojų modelių. 

AnimateLCM sistemos indėlį galima labai gerai apibendrinti taip: Siūloma AnimateLCM sistema siekiama sukurti aukštos kokybės, greitą ir didelio tikslumo vaizdo įrašą, o norint tai pasiekti, AnimateLCM sistema siūlo atsietą distiliavimo strategiją, atskiriančią judesį ir vaizdą. kartos pirmenybės, todėl geresnė kartos kokybė ir didesnis mokymo efektyvumas. 

InstantID: metodika ir architektūra

Iš esmės „InstantID“ sistema semiasi įkvėpimo iš difuzijos modelių ir mėginių ėmimo greičio strategijų. Difuzijos modeliai, taip pat žinomi kaip balais pagrįsti generaciniai modeliai, parodė puikias vaizdo generavimo galimybes. Vadovaujantis balų kryptimi, iteracinė atrankos strategija, įgyvendinta difuzijos modeliais, palaipsniui slopina triukšmo sugadintus duomenis. Difuzijos modelių efektyvumas yra viena iš pagrindinių priežasčių, kodėl juos naudoja dauguma vaizdo sklaidos modeliai treniruodami papildomus laikinus sluoksnius. Kita vertus, mėginių ėmimo greitis ir mėginių ėmimo pagreitinimo strategijos padeda įveikti lėtą generavimo greitį difuzijos modeliuose. Distiliavimu pagrįstas pagreičio metodas suderina pradinius difuzijos svorius su patobulinta architektūra arba planuokliu, kad padidintų generavimo greitį. 

Toliau „InstantID“ sistema yra sukurta ant stabilaus sklaidos modelio, leidžiančio „InstantID“ pritaikyti atitinkamas sąvokas. Modelis diskrečiųjų į priekį difuzijos procesą traktuoja kaip nuolatinį dispersiją išsaugantį SDE. Be to, stabilios difuzijos modelis yra DDPM arba Denoising Diffusion Probabilistic modelio plėtinys, kuriame mokymo duomenų tašką palaipsniui trikdo atskira Markovo grandinė su trikdymo veislyne, leidžiančia paskirstyti triukšmingus duomenis skirtingu laiko žingsniu, kad būtų galima sekti pasiskirstymą. 

Kad būtų sukurtas didelio tikslumo vaizdo įrašas su minimaliu žingsnių skaičiumi, AnimateLCM sistema prijaukina stabiliu sklaida pagrįstus vaizdo modelius, kad atitiktų savaiminio nuoseklumo savybę. Bendra AnimateLCM sistemos mokymo struktūra susideda iš atsietos nuoseklaus mokymosi strategijos, skirtos mokytojų laisvam prisitaikymui ir efektyviam nuosekliam mokymuisi. 

Perėjimas nuo difuzijos modelių prie nuoseklumo modelių

AnimateLCM sistema pristato savo stabilios difuzijos modelio arba DM pritaikymą nuoseklumo modeliui arba CM pagal latentinio nuoseklumo modelio arba LCM dizainą. Verta paminėti, kad nors stabilios difuzijos modeliai paprastai numato prie mėginių pridedamą triukšmą, jie yra esminiai sigma difuzijos modeliai. Tai skiriasi nuo nuoseklumo modelių, kuriais siekiama tiesiogiai numatyti PF-ODE trajektorijos sprendimą. Be to, stabilios difuzijos modeliuose su tam tikrais parametrais, siekiant sukurti aukštos kokybės vaizdus, ​​labai svarbu, kad modelis naudotų orientavimo strategiją be klasifikatorių. Tačiau AnimateLCM sistemoje naudojamas be klasifikatorių, papildytas ODE sprendiklis, kad būtų galima atrinkti gretimas poras tomis pačiomis trajektorijomis, o tai užtikrina didesnį efektyvumą ir geresnę kokybę. Be to, esami modeliai parodė, kad generavimo kokybei ir mokymo efektyvumui didelę įtaką daro atskirų taškų skaičius trajektorijoje. Mažesnis diskrečių taškų skaičius pagreitina treniruočių procesą, o didesnis atskirų taškų skaičius treniruotės metu sumažina šališkumą. 

Atsietas nuoseklus mokymasis

Konsistencijos distiliavimo proceso metu kūrėjai pastebėjo, kad mokymui naudojami duomenys daro didelę įtaką paskutinės konsistencijos modelių kartos kokybei. Tačiau pagrindinė viešai prieinamų duomenų rinkinių problema šiuo metu yra ta, kad dažnai juos sudaro vandenženklio duomenys arba jie yra žemos kokybės ir gali būti pernelyg trumpi arba dviprasmiški. Be to, modelio mokymas tiesiogiai naudojant didelės raiškos vaizdo įrašus yra brangus skaičiavimas ir atima daug laiko, todėl daugumai tyrėjų tai neįmanoma. 

Atsižvelgiant į tai, kad yra filtruotų aukštos kokybės duomenų rinkinių, AnimateLCM sistema siūlo atskirti judėjimo pirmenybių ir vaizdo generavimo prioritetų distiliavimą. Tiksliau tariant, AnimateLCM sistema pirmiausia distiliuoja stabilius difuzijos modelius į vaizdo nuoseklumo modelius su filtruotais aukštos kokybės vaizdo teksto duomenų rinkiniais su geresne raiška. Tada karkasas treniruoja lengvus LoRA svorius stabilios difuzijos modelio sluoksniuose, taip užšaldydamas arklidės svorius. difuzijos modelis. Kai modelis suderina LoRA svorius, jis veikia kaip universalus pagreičio modulis ir įrodė savo suderinamumą su kitais asmeniniais modeliais stabiliose difuzijos bendruomenėse. Norėdami padaryti išvadas, AnimateLCM sistema sujungia LoRA svorius su pradiniais svoriais, nepažeisdama išvados greičio. Kai AnimateLCM sistema įgyja nuoseklumo modelį vaizdo generavimo lygiu, ji užfiksuoja stabilaus sklaidos modelio ir LoRA svorius. Be to, modelis išpučia 2D konvoliucijos branduolius į pseudo-3D branduolius, kad būtų parengti vaizdo kūrimo nuoseklumo modeliai. Modelis taip pat prideda laikinus sluoksnius su nuline iniciacija ir bloko lygio likutine jungtimi. Bendra sąranka padeda užtikrinti, kad modelio išvestis nebus paveikta, kai jis bus apmokytas pirmą kartą. AnimateLCM sistema, vadovaujama atviro kodo vaizdo sklaidos modelių, treniruoja laikinus sluoksnius, išplečiamus iš stabilių difuzijos modelių. 

Svarbu pripažinti, kad nors erdviniai LoRA svoriai yra skirti paspartinti mėginių ėmimo procesą neatsižvelgiant į laiko modeliavimą, o laiko moduliai kuriami naudojant standartines difuzijos technologijas, jų tiesioginė integracija linkusi sugadinti atvaizdavimą treniruotės pradžioje. Tai kelia didelių iššūkių efektyviai ir efektyviai juos sujungti su minimaliu konfliktu. Empirinių tyrimų metu AnimateLCM sistema nustatė sėkmingą inicijavimo metodą, kuris ne tik naudoja erdvinių LoRA svorių nuoseklumą, bet ir sumažina neigiamą jų tiesioginio derinio poveikį. 

Prasidėjus nuoseklumo treniruotėms, iš anksto paruošti erdviniai LoRA svoriai yra integruoti tik į internetinį nuoseklumo modelį, todėl tikslinio nuoseklumo modelio nereikia įterpti. Ši strategija užtikrina, kad tikslinis modelis, naudojamas kaip internetinio modelio edukacinis vadovas, negeneruotų klaidingų prognozių, kurios galėtų neigiamai paveikti internetinio modelio mokymosi procesą. Per visą treniruočių laikotarpį LoRA svoriai palaipsniui įtraukiami į tikslinio nuoseklumo modelį, taikant eksponentinį slankiojo vidurkio (EMA) procesą, todėl po kelių pakartojimų pasiekiamas optimalus svorio balansas.

Mokytojo nemokama adaptacija

Stabilios difuzijos modeliai ir „plug and play“ adapteriai dažnai eina kartu. Tačiau pastebėta, kad nors „plug and play“ adapteriai tam tikru mastu veikia, jie linkę prarasti detalių kontrolę, net kai dauguma šių adapterių yra išmokyti naudoti vaizdo sklaidos modelius. Siekdama išspręsti šią problemą, AnimateLCM sistema pasirenka nemokamą mokytojo pritaikymą – paprastą, bet veiksmingą strategiją, kuri arba suderinama su esamais adapteriais, kad būtų geriau suderinama, arba apmokomi adapteriai nuo pat pradžių arba. Šis metodas leidžia AnimateLCM sistemai pasiekti valdomą vaizdo įrašų generavimą ir vaizdo įrašo generavimą su minimaliu žingsnių skaičiumi, nereikalaujant mokytojų modelių. 

AnimateLCM: eksperimentai ir rezultatai

AnimateLCM sistemoje kaip pagrindinis modelis naudojamas Stable Diffusion v1-5, o mokymo tikslais įdiegiamas DDIM ODE sprendimas. Sistema taip pat taiko Stable Diffusion v1-5 su atvirojo kodo judesio svoriais kaip mokytojo vaizdo sklaidos modelį, kai eksperimentai atliekami naudojant WebVid2M duomenų rinkinį be jokių papildomų ar papildytų duomenų. Be to, sistemoje naudojamas „TikTok“ duomenų rinkinys su BLIP antraštėmis trumpais tekstiniais raginimais, skirtais kontroliuojamam vaizdo įrašų generavimui. 

Kokybiniai rezultatai

Toliau pateiktame paveikslėlyje pavaizduoti keturių žingsnių generavimo metodo, įdiegto AnimateLCM sistema, rezultatai generuojant tekstą į vaizdo įrašą, iš vaizdo į vaizdo įrašą ir valdomą vaizdo įrašą. 

Kaip galima pastebėti, kiekvieno iš jų pateikti rezultatai yra patenkinami, nes sugeneruoti rezultatai rodo AnimateLCM sistemos gebėjimą sekti nuoseklumo savybę net esant įvairiems išvados žingsniams, išlaikant panašų judesį ir stilių. 

Kiekybiniai rezultatai

Toliau pateiktame paveikslėlyje pavaizduoti kiekybiniai AnimateLCM sistemos rezultatai ir palyginimas su naujausiais DDIM ir DPM++ metodais. 

Kaip galima pastebėti, AnimateLCM sistema gerokai lenkia esamus metodus, ypač žemo žingsnio režime, kuris svyruoja nuo 1 iki 4 žingsnių. Be to, šiame palyginime rodoma AnimateLCM metrika vertinama nenaudojant CFG arba klasifikatoriaus nenaudojamo nurodymo, kuris leidžia sistemai sutaupyti beveik 50 % išvados laiko ir didžiausios išvados atminties sąnaudų. Be to, siekiant dar labiau patvirtinti jo veikimą, erdviniai svoriai AnimateLCM sistemoje pakeičiami viešai prieinamu suasmenintu tikrovišku modeliu, kuris užtikrina gerą ištikimybės ir įvairovės pusiausvyrą, o tai padeda dar labiau padidinti našumą. 

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie AnimateLCM – suasmenintą difuzijos modelį su adapteriais, kuriuo siekiama generuoti aukštos kokybės vaizdo įrašus su minimaliais žingsniais ir skaičiavimo išlaidomis. AnimateLCM sistema įkvėpta nuoseklumo modelio, kuris pagreitina mėginių ėmimą minimaliais žingsniais distiliuojant iš anksto paruoštus vaizdo sklaidos modelius, ir sėkmingo nuoseklumo modelio, latentinės nuoseklumo modelio arba LCM, palengvinančio sąlyginio vaizdo generavimą, išplėtimo. Užuot atlikus nuoseklumo mokymąsi tiesiogiai neapdorotame vaizdo duomenų rinkinyje, AnimateLCM sistema siūlo naudoti atsietą nuoseklumo mokymosi strategiją, kuri atskiria judesio generavimo ir vaizdo generavimo pirmenybių distiliavimą, leidžiantį modeliui pagerinti sukurto turinio vizualinę kokybę ir tuo pačiu pagerinti treniruočių efektyvumą.

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.