Tekoäly

AnimateLCM: Kiihdyttäminen henkilökohtaisten difuusiomallien animaatiota varten

Julkaistu 19. maaliskuuta 2024

Päivitetty 27. huhtikuuta 2026

Tekijä

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Viime vuosien aikana difuusiomallit ovat saavuttaneet valtavan suosion ja tunnustuksen kuvan ja videon luomistehtävissä. Videodifusiomallit erityisesti ovat saaneet merkittävää huomiota kykynsä tuottaa videoita, joilla on korkea yhdenmukaisuus sekä uskottavuus. Nämä mallit tuottavat laadukkaita videoita käyttämällä iteraatiivista denoisingsa prosessia arkkitehtuurissaan, joka muuttaa hitaasti korkean dimensionaalisia Gaussian noise -ääniä oikeaksi dataksi.

Stable Diffusion on yksi edustavimmista malleista kuvien luomistehtävissä, joka perustuu Variational AutoEncoderiin (VAE), joka kartoittaa oikean kuvan ja alikoonnut latent ominaisuuksien välillä. Tämä mahdollistaa mallin vähentää luomiskustannuksia, kun taas cross-attention mekanismi sen arkkitehtuurissa helpottaa tekstikonditionaista kuvan luontia. Viimeaikaisemmin Stable Diffusion -kehys on luonut perustan useille plug-and-play -sovittimille saavuttamaan innovatiivisempia ja tehokkaampia kuvan tai videon luontituloksia. Kuitenkin iteraatiivinen luontiprosessi, jota useimmat videodifusiomallit käyttävät, tekee kuvan luontiprosessista aikaa vievän ja verrattain kalliin, rajoittaen sen soveltamismahdollisuuksia.

Tässä artikkelissa puhumme AnimateLCM:stä, henkilökohtaisesta difuusiomallista, joka on tarkoitettu luomaan korkealaatuisia videoita vähäisillä askelilla ja laskennallisisilla kustannuksilla. AnimateLCM -kehys perustuu Consistency Malliin, joka kiihdyttää otantaa vähäisillä askelilla tislaamalla esikoulutettuja kuvadifusiomalleja. Lisäksi Consistency Mallin onnistunut laajennus, Latent Consistency Model (LCM), helpottaa ehdollista kuvan luontia. Sen sijaan, että suorittaisi johdonmukaisuuden oppimista suoraan raakavideodatassa, AnimateLCM -kehys ehdottaa decoupled johdonmukaisuuden oppimisstrategiaa. Tämä strategia erottaa liikkeen luontiprioriteettien ja kuvan luontiprioriteettien tislaamisen, mahdollistaen mallin parantaa visuaalista laatua luodusta sisällöstä ja parantaa koulutus tehokkuutta samanaikaisesti. Lisäksi AnimateLCM -malli ehdottaa sovittimien kouluttamista alusta tai sopeuttamista olemassa oleviin sovittimiin sen tislattuun videon johdonmukaisuusmalliin. Tämä mahdollistaa plug-and-play -sovittimien yhdistämisen Stable Diffusion -mallien perheeseen saavuttamaan eri toimintoja ilman vaikutusta otantanopeuteen.

… (jatkuu)

Kunal Kejriwal

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.

Unite.AI

AnimateLCM: Kiihdyttäminen henkilökohtaisten difuusiomallien animaatiota varten

Löydä lisää