TekoÀly
AnimateLCM: KiihdyttÀminen henkilökohtaisten difuusiomallien animaatiota varten
Viime vuosien aikana difuusiomallit ovat saavuttaneet valtavan suosion ja tunnustuksen kuvan ja videon luomistehtävissä. Videodifusiomallit erityisesti ovat saaneet merkittävää huomiota kykynsä tuottaa videoita, joilla on korkea yhdenmukaisuus sekä uskottavuus. Nämä mallit tuottavat laadukkaita videoita käyttämällä iteraatiivista denoisingsa prosessia arkkitehtuurissaan, joka muuttaa hitaasti korkean dimensionaalisia Gaussian noise -ääniä oikeaksi dataksi.
Stable Diffusion on yksi edustavimmista malleista kuvien luomistehtävissä, joka perustuu Variational AutoEncoderiin (VAE), joka kartoittaa oikean kuvan ja alikoonnut latent ominaisuuksien välillä. Tämä mahdollistaa mallin vähentää luomiskustannuksia, kun taas cross-attention mekanismi sen arkkitehtuurissa helpottaa tekstikonditionaista kuvan luontia. Viimeaikaisemmin Stable Diffusion -kehys on luonut perustan useille plug-and-play -sovittimille saavuttamaan innovatiivisempia ja tehokkaampia kuvan tai videon luontituloksia. Kuitenkin iteraatiivinen luontiprosessi, jota useimmat videodifusiomallit käyttävät, tekee kuvan luontiprosessista aikaa vievän ja verrattain kalliin, rajoittaen sen soveltamismahdollisuuksia.
Tässä artikkelissa puhumme AnimateLCM:stä, henkilökohtaisesta difuusiomallista, joka on tarkoitettu luomaan korkealaatuisia videoita vähäisillä askelilla ja laskennallisisilla kustannuksilla. AnimateLCM -kehys perustuu Consistency Malliin, joka kiihdyttää otantaa vähäisillä askelilla tislaamalla esikoulutettuja kuvadifusiomalleja. Lisäksi Consistency Mallin onnistunut laajennus, Latent Consistency Model (LCM), helpottaa ehdollista kuvan luontia. Sen sijaan, että suorittaisi johdonmukaisuuden oppimista suoraan raakavideodatassa, AnimateLCM -kehys ehdottaa decoupled johdonmukaisuuden oppimisstrategiaa. Tämä strategia erottaa liikkeen luontiprioriteettien ja kuvan luontiprioriteettien tislaamisen, mahdollistaen mallin parantaa visuaalista laatua luodusta sisällöstä ja parantaa koulutus tehokkuutta samanaikaisesti. Lisäksi AnimateLCM -malli ehdottaa sovittimien kouluttamista alusta tai sopeuttamista olemassa oleviin sovittimiin sen tislattuun videon johdonmukaisuusmalliin. Tämä mahdollistaa plug-and-play -sovittimien yhdistämisen Stable Diffusion -mallien perheeseen saavuttamaan eri toimintoja ilman vaikutusta otantanopeuteen.
… (jatkuu)












