Liity verkostomme!

Tekoäly

AnimateLCM: Henkilökohtaisten diffuusiomallien animaation nopeuttaminen

mm
Päivitetty on
AnimateLCM: Henkilökohtaisten diffuusiomallien ja sovittimien animaation nopeuttaminen irrotetulla johdonmukaisuusoppimisella

Muutaman viime vuoden aikana diffuusiomallit ovat saavuttaneet valtavaa menestystä ja tunnustusta kuvan ja videon luontitehtävissä. Erityisesti videon diffuusiomallit ovat saaneet merkittävää huomiota, koska ne pystyvät tuottamaan videoita korkealla koherenssilla ja tarkkuudella. Nämä mallit luovat korkealaatuisia videoita hyödyntämällä arkkitehtuurissaan iteratiivista kohinanpoistoprosessia, joka muuttaa asteittain korkean ulottuvuuden Gaussin kohinan todelliseksi dataksi.

Vakaa diffuusio on yksi edustavimmista malleista kuvanmuodostustehtävissä, ja se luottaa Variational AutoEncoderiin (VAE) kartoittaakseen todellisen kuvan ja alasnäytteistettyjen piilevien ominaisuuksien välillä. Tämä mahdollistaa mallin alentamisen generatiivisten kustannusten vähentämisessä, kun taas sen arkkitehtuurissa oleva ristiin huomioiva mekanismi helpottaa tekstiehtoisten kuvien luomista. Viime aikoina Stable Diffusion -kehys on rakentanut perustan useille plug-and-play-sovittimille innovatiivisemman ja tehokkaamman kuvan tai videon luomiseksi. Kuitenkin useimpien videodiffuusiomallien käyttämä iteratiivinen generatiivinen prosessi tekee kuvan generointiprosessista aikaa vievän ja suhteellisen kalliin, mikä rajoittaa sen sovelluksia.

Tässä artikkelissa puhumme AnimateLCM:stä, henkilökohtaisesta diffuusiomallista sovittimilla, joiden tarkoituksena on tuottaa korkealaatuisia videoita pienin askelin ja laskentakustannuksin. AnimateLCM-kehys on saanut inspiraationsa Consistency-mallista, joka nopeuttaa näytteenottoa pienin askelin tislaamalla esikoulutettuja kuvan diffuusiomalleja. Lisäksi Consistency Modelin onnistunut laajennus, Latent Consistency Model (LCM) helpottaa ehdollisen kuvan luomista. Sen sijaan, että johdonmukaisuusoppiminen suoritettaisiin suoraan raakavideotietojoukosta, AnimateLCM-kehys ehdottaa irrotetun johdonmukaisuuden oppimisstrategian käyttöä. Tämä strategia erottaa liikkeen ja kuvan luomisen ennakkojen tislauksen, jolloin malli voi parantaa luodun sisällön visuaalista laatua ja parantaa harjoittelun tehokkuutta samanaikaisesti. Lisäksi AnimateLCM-malli ehdottaa koulutussovittimia alusta alkaen tai olemassa olevien sovittimien mukauttamista tislattuun videon yhtenäisyysmalliin. Tämä helpottaa plug-and-play-sovittimien yhdistämistä vakaiden diffuusiomallien perheeseen eri toimintojen saavuttamiseksi näytteenottonopeutta vahingoittamatta.

Tämän artikkelin tarkoituksena on kattaa AnimateLCM-kehys perusteellisesti. Tutkimme kehyksen mekanismia, metodologiaa ja arkkitehtuuria sekä sen vertailua uusimpien kuvien ja videoiden luontikehysten kanssa. Joten aloitetaan.

AnimateLCM: Henkilökohtaisten diffuusiomallien animaatio

Diffuusiomallit ovat olleet kehys kuvien ja videoiden luontitehtävissä tehokkuutensa ja kykyjensä ansiosta generatiivisissa tehtävissä. Suurin osa diffuusiomalleista luottaa iteratiiviseen kohinanpoistoprosessiin kuvan luomiseksi, joka muuttaa suuriulotteisen Gaussin kohinan asteittain todelliseksi dataksi. Vaikka menetelmä tuottaa jokseenkin tyydyttäviä tuloksia, iteratiivinen prosessi ja iteroituvien näytteiden määrä hidastaa generointiprosessia ja lisää myös diffuusiomallien laskentavaatimuksia, jotka ovat paljon hitaampia kuin muut generatiiviset viitekehykset, kuten GAN tai GAN. Generatiiviset kilpailevat verkot. Muutaman viime vuoden aikana johdonmukaisuusmalleja tai CM:itä on ehdotettu vaihtoehtona iteratiivisille diffuusiomalleille generointiprosessin nopeuttamiseksi pitäen samalla laskennalliset vaatimukset vakiona. 

Konsistenssimallien kohokohta on, että ne oppivat johdonmukaisuuskartoituksia, jotka ylläpitävät valmiiksi koulutettujen diffuusiomallien tuottamien lentoratojen itsejohdonmukaisuutta. Consistency Modelsin oppimisprosessi mahdollistaa korkealaatuisten kuvien luomisen pienin askelin ja poistaa myös laskentaintensiivisten iteraatioiden tarpeen. Lisäksi piilevä johdonmukaisuusmalli tai LCM on rakennettu sen päälle vakaa diffuusiokehys voidaan integroida web-käyttöliittymään olemassa olevien sovittimien kanssa, jotta saavutetaan joukko lisätoimintoja, kuten reaaliaikainen kuvien käännös kuvaksi. Vertailun vuoksi, vaikka olemassa olevat videon diffuusiomallit tuottavat hyväksyttäviä tuloksia, videonäytteen kiihdytyskentässä on vielä edistyttävä, ja sillä on suuri merkitys videon luomisen korkeiden laskentakustannusten vuoksi. 

Tämä johtaa meidät AnimateLCM:ään, korkealaatuiseen videon luontikehykseen, joka vaatii minimaalisen määrän vaiheita videoiden luomiseen. Piilevän johdonmukaisuuden mallia noudattaen AnimateLCM-kehys käsittelee käänteistä diffuusioprosessia CFG:n tai Classifier Free Guidancen lisätyn todennäköisyysvirran ratkaisevana ja kouluttaa mallia ennustamaan tällaisten todennäköisyysvirtojen ratkaisun suoraan piilevässä tilassa. Sen sijaan, että suoritettaisiin johdonmukaisuusoppimista suoraan raakavideodatasta, joka vaatii paljon koulutusta ja laskennallisia resursseja ja johtaa usein huonoon laatuun, AnimateLCM-kehys ehdottaa irrotettua johdonmukaista oppimisstrategiaa, joka erottaa liikkeen luomisen ja kuvan luomisen edellytysten johdonmukaisuuden tislaamisen. 

AnimateLCM-kehys suorittaa ensin sakeuden tislauksen mukauttaakseen kuvapohjan diffuusiomallin kuvan yhtenäisyysmalliin ja suorittaa sitten 3D-täyttöä sekä kuvan yhtenäisyys- että kuvan diffuusiomalleille 3D-ominaisuuksien mukauttamiseksi. Lopulta AnimateLCM-kehys saa videon yhdenmukaisuusmallin suorittamalla videodatan johdonmukaisuuden tislaamisen. Lisäksi AnimateLCM-kehys ehdottaa alustusstrategian käyttöä mahdollisen ominaisuuksien korruption lievittämiseksi diffuusioprosessin seurauksena. Koska AnimateLCM-kehys on rakennettu Stable Diffusion -kehyksen päälle, se voi korvata koulutetun videon yhtenäisyysmallin tilapainot julkisesti saatavilla olevilla henkilökohtaisilla kuvanhajautuspainoilla innovatiivisten sukupolvien tulosten saavuttamiseksi. 

Lisäksi AnimateLCM-kehys ehdottaa tehokasta kiihdytysstrategiaa sovittimille, jotka eivät vaadi erityisten opettajamallien koulutusta, kouluttaakseen tiettyjä sovittimia tyhjästä tai sopimaan paremmin julkisesti saatavilla oleviin sovittimiin. 

AnimateLCM-kehyksen panokset voidaan tiivistää hyvin seuraavasti: Ehdotetun AnimateLCM-kehyksen tavoitteena on saavuttaa korkealaatuinen, nopea ja korkealaatuinen videotuotanto, ja tämän saavuttamiseksi AnimateLCM-kehys ehdottaa irrotettua tislausstrategiaa, joka erottaa liikkeen ja kuvan. sukupolven aiemmat kokemukset johtavat parempaan sukupolven laatuun ja parempaan koulutustehokkuuteen. 

InstantID: Metodologia ja arkkitehtuuri

InstantID-kehyksen ytimessä on vahva inspiraatio diffuusiomalleista ja näytteenottonopeusstrategioista. Diffuusiomallit, jotka tunnetaan myös pisteytyspohjaisina generatiivisina malleina, ovat osoittaneet merkittäviä kuvanmuodostuskykyjä. Pisteen suunnan ohjauksessa diffuusiomallien toteuttama iteratiivinen näytteenottostrategia vaimentaa kohinan korruptoitunutta dataa asteittain. Diffuusiomallien tehokkuus on yksi tärkeimmistä syistä, miksi suurin osa niistä käyttää niitä videon diffuusiomallit harjoittelemalla lisättyjä ajallisia kerroksia. Toisaalta näytteenottonopeus ja näytteenoton kiihdytysstrategiat auttavat käsittelemään diffuusiomallien hitaita generointinopeuksia. Tislaukseen perustuva kiihdytysmenetelmä virittää alkuperäiset diffuusiopainot hienostuneella arkkitehtuurilla tai ajastimella generoinnin nopeuden parantamiseksi. 

Jatkettaessa InstantID-kehys on rakennettu vakaan diffuusiomallin päälle, jonka avulla InstantID voi soveltaa asiaankuuluvia käsitteitä. Malli käsittelee diskreetti eteenpäin suuntautuvaa diffuusioprosessia jatkuva-aikaisena Variance Preserving SDE:nä. Lisäksi vakaa diffuusiomalli on laajennus DDPM:stä tai Denoising Diffusion Probabilistic Model -mallista, jossa harjoitusdatapistettä häiritsee asteittain diskreetti Markov-ketju häiriökennelillä, joka mahdollistaa kohinaisen datan jakautumisen eri aikavaiheissa jakauman seuraamiseksi. 

AnimateLCM-kehys kesyttää vakaat diffuusiopohjaiset videomallit noudattamaan itseyhdenmukaisuusominaisuutta korkealaatuisen videon luomiseksi mahdollisimman pienellä määrällä vaiheita. AnimateLCM-kehyksen yleinen koulutusrakenne koostuu irrotetusta johdonmukaisuusoppimisstrategiasta opettajien vapaaseen sopeutumiseen ja tehokkaaseen johdonmukaiseen oppimiseen. 

Siirtyminen diffuusiomalleista johdonmukaisuusmalleihin

AnimateLCM-kehys esittelee oman mukautuksensa stabiilista diffuusiomallista tai DM:stä johdonmukaisuusmalliin tai CM:ään piilevän johdonmukaisuusmallin tai LCM:n suunnittelun mukaisesti. On syytä huomata, että vaikka vakaat diffuusiomallit tyypillisesti ennustavat näytteisiin lisätyn kohinan, ne ovat olennaisia ​​sigma-diffuusiomalleja. Se on toisin kuin johdonmukaisuusmalleissa, joiden tavoitteena on ennustaa ratkaisu suoraan PF-ODE-radalle. Lisäksi stabiileissa diffuusiomalleissa, joissa on tietyt parametrit, on olennaista, että malli käyttää luokittelematonta ohjausstrategiaa korkealaatuisten kuvien tuottamiseksi. AnimateLCM-kehys kuitenkin käyttää luokittelijatonta ohjausta lisättyä ODE-ratkaisijaa, joka ottaa näytteitä vierekkäisistä pareista samoilla liikeradoilla, mikä parantaa tehokkuutta ja parempaa laatua. Lisäksi olemassa olevat mallit ovat osoittaneet, että sukupolven laatuun ja harjoittelun tehokkuuteen vaikuttaa voimakkaasti erillisten pisteiden määrä lentoradalla. Pienempi määrä erillisiä pisteitä nopeuttaa harjoitusprosessia, kun taas suurempi määrä erillisiä pisteitä johtaa vähemmän harhaan harjoituksen aikana. 

Irrotettu johdonmukainen oppiminen

Sakeustislausprosessin osalta kehittäjät ovat havainneet, että koulutukseen käytetyt tiedot vaikuttavat voimakkaasti sakeusmallien viimeisen sukupolven laatuun. Julkisesti saatavilla olevien tietojoukkojen suurin ongelma tällä hetkellä on kuitenkin se, että ne koostuvat usein vesileimatiedoista tai niiden huonolaatuisuudesta ja voivat sisältää liian lyhyitä tai moniselitteisiä kuvatekstejä. Lisäksi mallin kouluttaminen suoraan suuriresoluutioisille videoille on laskennallisesti kallista ja aikaa vievää, joten se ei ole mahdollinen vaihtoehto suurimmalle osalle tutkijoista. 

Kun otetaan huomioon suodatettujen korkealaatuisten tietojoukkojen saatavuus, AnimateLCM-kehys ehdottaa liikepriorien ja kuvanluontipriorien tislauksen erottamista toisistaan. Tarkemmin sanottuna AnimateLCM-kehys tislaa ensin vakaat diffuusiomallit kuvan johdonmukaisuusmalleiksi, joissa on suodatetut korkealaatuiset kuvatekstitietojoukot paremmalla resoluutiolla. Sen jälkeen runko harjoittelee kevyitä LoRA-painoja vakaan diffuusiomallin kerroksilla, mikä jäädyttää tallin painot diffuusio malli. Kun malli on virittänyt LoRA-painot, se toimii monipuolisena kiihdytysmoduulina, ja se on osoittanut yhteensopivuuden muiden henkilökohtaisten mallien kanssa vakaissa diffuusioyhteisöissä. Päätelmiä varten AnimateLCM-kehys yhdistää LoRA:n painot alkuperäisiin painoihin vahingoittamatta päättelynopeutta. Kun AnimateLCM-kehys saa konsistenssin mallin kuvan luomisen tasolla, se jäädyttää vakaan diffuusiomallin ja LoRA-painot siihen. Lisäksi malli paisuttaa 2D-konvoluutioytimet pseudo-3D-ytimiksi konsistenssin mallien kouluttamiseksi videon luomista varten. Malli lisää myös ajallisia kerroksia, joissa on nolla alustus ja lohkotason jäännösyhteys. Kokonaisasetus auttaa varmistamaan, että mallin tuottoon ei vaikuteta, kun sitä koulutetaan ensimmäistä kertaa. AnimateLCM-kehys avoimen lähdekoodin videodiffuusiomallien ohjauksessa kouluttaa stabiileista diffuusiomalleista laajennettuja ajallisia kerroksia. 

On tärkeää huomata, että vaikka spatiaaliset LoRA-painot on suunniteltu nopeuttamaan näytteenottoprosessia ottamatta huomioon ajallista mallintamista, ja temporaaliset moduulit kehitetään standardi diffuusiotekniikoiden avulla, niiden suora integrointi pyrkii turmelemaan esityksen harjoittelun alussa. Tämä asettaa merkittäviä haasteita niiden tehokkaassa ja tehokkaassa yhdistämisessä minimaalisella konfliktilla. Empiirisen tutkimuksen avulla AnimateLCM-kehys on tunnistanut onnistuneen alustusmenetelmän, joka ei vain hyödynnä alueellisten LoRA-painojen johdonmukaisuusprioreja, vaan myös lieventää niiden suoran yhdistelmän haitallisia vaikutuksia. 

Johdonmukaisuusharjoittelun alkaessa esiopetetut spatiaaliset LoRA-painot integroidaan yksinomaan online-yhteensopivuusmalliin, mikä säästää tavoiteyhdenmukaisuusmallin lisäämistä. Tämä strategia varmistaa, että verkkomallin koulutusoppaana toimiva kohdemalli ei tuota virheellisiä ennusteita, jotka voisivat vaikuttaa haitallisesti verkkomallin oppimisprosessiin. Koko harjoitusjakson ajan LoRA-painot sisällytetään asteittain tavoitekonsistenssimalliin eksponentiaalisen liikkuvan keskiarvon (EMA) avulla, jolloin saavutetaan optimaalinen painotasapaino useiden iteraatioiden jälkeen.

Opettajan ilmainen sopeutuminen

Vakaat diffuusiomallit ja plug and play -sovittimet kulkevat usein käsi kädessä. On kuitenkin havaittu, että vaikka plug and play -sovittimet toimivat jossain määrin, niillä on taipumus menettää yksityiskohtien hallinta, vaikka suurin osa näistä sovittimista on koulutettu kuvanhajotusmalleilla. Tämän ongelman ratkaisemiseksi AnimateLCM-kehys valitsee opettajavapaan mukauttamisen, yksinkertaisen mutta tehokkaan strategian, joka joko mukauttaa olemassa olevat sovittimet yhteensopivuuden parantamiseksi tai kouluttaa sovittimet alusta alkaen tai. Lähestymistavan avulla AnimateLCM-kehys voi saavuttaa ohjattavan videon luomisen ja kuvasta videoon -luonnin minimaalisella määrällä vaiheita ilman opettajamalleja. 

AnimateLCM: Kokeilut ja tulokset

AnimateLCM-kehys käyttää Stable Diffusion v1-5 -versiota perusmallina ja toteuttaa DDIM ODE -ratkaisijan koulutustarkoituksiin. Kehys käyttää myös Stable Diffusion v1-5:tä avoimen lähdekoodin liikepainoilla opettajan videon diffuusiomallina, kun kokeet suoritetaan WebVid2M-tietojoukossa ilman lisä- tai lisätietoa. Lisäksi kehys käyttää TikTok-tietojoukkoa BLIP-tekstitettyjen lyhyiden tekstikehotteiden kanssa ohjattavaa videon luomista varten. 

Laadulliset tulokset

Seuraavassa kuvassa on esitetty AnimateLCM-kehyksen toteuttaman nelivaiheisen generointimenetelmän tulokset tekstistä videoksi, kuvasta videoksi ja ohjattavan videon generoinnissa. 

Kuten voidaan havaita, kunkin niistä toimittamat tulokset ovat tyydyttäviä luoduilla tuloksilla, jotka osoittavat AnimateLCM-kehyksen kyvyn seurata johdonmukaisuusominaisuutta jopa vaihtelevilla päättelyvaiheilla säilyttäen samanlaisen liikkeen ja tyylin. 

Kvantitatiiviset tulokset

Seuraava kuva havainnollistaa AnimateLCM-kehyksen kvantitatiivisia tuloksia ja vertailua uusimpien DDIM- ja DPM++-menetelmien kanssa. 

Kuten voidaan havaita, AnimateLCM-kehys ylittää olemassa olevat menetelmät merkittävällä marginaalilla, etenkin matalan askeleen järjestelmässä, joka vaihtelee 1 - 4 vaiheesta. Lisäksi tässä vertailussa näytettävät AnimateLCM-metriikot on arvioitu ilman CFG- tai luokittelijavapaata ohjausta, jonka avulla kehys säästää lähes 50 % päättelyajasta ja päättelyhuippumuistikustannuksista. Lisäksi sen suorituskyvyn vahvistamiseksi AnimateLCM-kehyksen spatiaaliset painot korvataan julkisesti saatavilla olevalla henkilökohtaisella realistisella mallilla, joka löytää hyvän tasapainon tarkkuuden ja monimuotoisuuden välillä, mikä auttaa tehostamaan suorituskykyä entisestään. 

Tiivistelmä

Tässä artikkelissa olemme puhuneet AnimateLCM:stä, mukautetusta diffuusiomallista sovittimilla, jonka tavoitteena on tuottaa korkealaatuisia videoita pienin askelin ja laskentakustannuksin. AnimateLCM-kehys on saanut inspiraationsa Consistency Model -mallista, joka nopeuttaa näytteenottoa minimaalisilla vaiheilla tislaamalla esikoulutettuja kuvan diffuusiomalleja, ja Consistency Modelin, Latent Consistency Model - tai LCM:n, onnistuneesta laajennuksesta, joka helpottaa ehdollisen kuvan luomista. Sen sijaan, että johdonmukaisuusoppiminen suoritettaisiin suoraan raakavideotietojoukosta, AnimateLCM-kehys ehdottaa irrotetun johdonmukaisuuden oppimisstrategian käyttöä, joka erottaa liikkeen ja kuvan luomisen ennakkojen tislauksen, jolloin malli voi parantaa luodun sisällön visuaalista laatua, ja parantaa samalla harjoittelun tehokkuutta.

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.