stub Stabil videodiffusion: Latente videodiffusionsmodeller til store datasæt - Unite.AI
Følg os

Kunstig intelligens

Stabil videodiffusion: Latente videodiffusionsmodeller til store datasæt

mm
Opdateret on

Generativ AI har været en drivkraft i AI-samfundet i nogen tid nu, og de fremskridt, der er gjort inden for generativ billedmodellering, især med brugen af ​​diffusionsmodeller, har hjulpet de generative videomodeller med betydelige fremskridt ikke kun inden for forskning, men også mht. applikationer fra den virkelige verden. Konventionelt trænes generative videomodeller enten fra bunden, eller de er helt eller delvist finjusteret fra fortrænede billedmodeller med ekstra tidsmæssige lag, på en blanding af billed- og videodatasæt. 

For at tage fremskridt inden for generative videomodeller vil vi i denne artikel tale om Stabil videodiffusionsmodel, en latent videodiffusionsmodel, der er i stand til at generere højopløseligt, state-of-the-art billede til video og tekst til videoindhold. Vi vil tale om, hvordan latente diffusionsmodeller trænet til at syntetisere 2D-billeder har forbedret evnerne og effektiviteten af ​​generative videomodeller ved at tilføje tidsmæssige lag og finjustere modellerne på små datasæt bestående af videoer af høj kvalitet. Vi vil dykke dybere ned i arkitekturen og virkemåden af ​​den stabile videodiffusionsmodel og evaluere dens ydeevne på forskellige metrikker og sammenligne den med de nuværende state-of-the-art rammer for videogenerering. Så lad os komme i gang. 

Stabil videodiffusionsmodel og generative videomodeller: en introduktion

Takket være dets næsten ubegrænsede potentiale har Generativ AI været det primære genstand for forskning for AI- og ML-udøvere i et stykke tid nu, og de seneste par år har der været hurtige fremskridt både med hensyn til effektivitet og ydeevne af generative billedmodeller. Erfaringerne fra generative billedmodeller har gjort det muligt for forskere og udviklere at gøre fremskridt med generative videomodeller, hvilket resulterer i forbedret praktisk anvendelighed og applikationer i den virkelige verden. Det meste af forskningen, der forsøger at forbedre mulighederne for generative videomodeller, fokuserer dog primært på det nøjagtige arrangement af tidsmæssige og rumlige lag, med lidt opmærksomhed på at undersøge indflydelsen af ​​at vælge de rigtige data på resultatet af disse generative modeller.

Takket være de fremskridt, der er gjort af generative billedmodeller, har forskere observeret, at indvirkningen af ​​træningsdatadistribution på generative modellers ydeevne faktisk er betydelig og ubestridt. Ydermere har forskere også observeret, at fortræning af en generativ billedmodel på et stort og mangfoldigt datasæt efterfulgt af finjustering af det på et mindre datasæt med bedre kvalitet ofte resulterer i en væsentlig forbedring af ydeevnen. Traditionelt implementerer generative videomodeller de erfaringer, der er opnået fra vellykkede generative billedmodeller, og forskere mangler endnu at studere effekten af ​​data, og træningsstrategier skal endnu studeres. Den stabile videodiffusionsmodel er et forsøg på at forbedre generative videomodellers evner ved at begive sig ind i tidligere ukendte territorier med særligt fokus på at udvælge data. 

Nylige generative videomodeller er afhængige af diffusionsmodeller og tekst- eller billedkonditioneringstilgange til at syntetisere flere ensartede video- eller billedrammer. Diffusionsmodeller er kendt for deres evne til at lære, hvordan man gradvist kan afvise en prøve fra normalfordeling ved at implementere en iterativ forfiningsproces, og de har leveret ønskværdige resultater på højopløsningsvideo og tekst-til-billede syntese. Ved at bruge det samme princip i sin kerne træner den stabile videodiffusionsmodel en latent videodiffusionsmodel på sit videodatasæt sammen med brugen af ​​Generative Adversarial Networks eller GAN'er og endda autoregressive modeller til en vis grad. 

Den stabile videodiffusionsmodel følger en unik strategi, der aldrig er implementeret af nogen generativ videomodel, da den er afhængig af latente videodiffusionsbaselines med en fast arkitektur og en fast træningsstrategi efterfulgt af vurdering af effekten af ​​at kurere dataene. Den stabile videodiffusionsmodel har til formål at give følgende bidrag inden for generativ videomodellering. 

  1. At præsentere en systematisk og effektiv datakuration-workflow i et forsøg på at omdanne en stor samling af ukurerede videoeksempler til datasæt af høj kvalitet, som derefter bruges af de generative videomodeller. 
  2. At træne state of the art billede til video og tekst til videomodeller, der overgår de eksisterende rammer. 
  3. Udførelse af domænespecifikke eksperimenter for at undersøge 3D-forståelsen og stærke forudgående bevægelse af modellen. 

Nu implementerer den stabile videodiffusionsmodel læren fra latente videodiffusionsmodeller og datakureringsteknikker i kernen af ​​dets fundament. 

Latente videodiffusionsmodeller

Latente videodiffusionsmodeller eller video-LDM'er følger tilgangen med at træne den primære generative model i et latent rum med reduceret beregningskompleksitet, og de fleste video-LDM'er implementerer en forudtrænet tekst til billede-model kombineret med tilføjelse af tidsmæssige blandingslag i fortræningen arkitektur. Som et resultat træner de fleste Video Latent Diffusion Models enten kun tidsmæssige lag eller springer træningsprocessen helt over i modsætning til den stabile videodiffusionsmodel, der finjusterer hele rammen. Til syntetisering af tekst til videodata betinger den stabile videodiffusionsmodel sig selv direkte på en tekstprompt, og resultaterne indikerer, at den resulterende ramme nemt kan finjusteres til en multi-view-syntese eller en billed-til-video-model. 

Datakurering

Datakurering er en væsentlig komponent, ikke kun i den stabile videodiffusionsmodel, men for generative modeller som helhed, fordi det er vigtigt at fortræne store modeller på datasæt i stor skala for at øge ydeevnen på tværs af forskellige opgaver, herunder sprogmodellering eller generering af diskriminerende tekst til billede , og meget mere. Datakurering er blevet implementeret med succes på generative billedmodeller ved at udnytte mulighederne for effektive sprog-billedrepræsentationer, selvom sådanne diskussioner aldrig har været fokuseret på til udvikling af generative videomodeller. Der er adskillige forhindringer, som udviklere står over for, når de kuraterer data til generative videomodeller, og for at løse disse udfordringer implementerer den stabile videodiffusionsmodel en tre-trins træningsstrategi, hvilket resulterer i forbedrede resultater og et betydeligt boost i ydeevnen. 

Datakurering til videosyntese i høj kvalitet

Som diskuteret i det foregående afsnit implementerer den stabile videodiffusionsmodel en tre-trins træningsstrategi, hvilket resulterer i forbedrede resultater og et betydeligt boost i ydeevnen. Fase I er en billedfortræning fase, der gør brug af en 2D-tekst til billede-diffusionsmodel. Fase II er til video fortræning hvor rammen træner på en stor mængde videodata. Endelig har vi trin III til video finjustering hvor modellen er forfinet på en lille delmængde af videoer i høj kvalitet og høj opløsning. 

Men før den stabile videodiffusionsmodel implementerer disse tre trin, er det afgørende at behandle og annotere dataene, da de tjener som base for trin II eller video-fortræningsfasen og spiller en afgørende rolle for at sikre det optimale output. For at sikre maksimal effektivitet implementerer rammeværket først en kaskadeformet snitdetektionspipeline ved 3 forskellige FPS- eller Frames Per Second-niveauer, og behovet for denne pipeline er demonstreret i det følgende billede. 

Dernæst annoterer den stabile videodiffusionsmodel hvert videoklip ved hjælp af tre forskellige syntetiske billedtekstmetoder. Følgende tabel sammenligner de datasæt, der bruges i stabil diffusionsramme før og efter filtreringsprocessen. 

Fase I: Billedfortræning

Det første trin i den tre-trins pipeline, der er implementeret i den stabile videodiffusionsmodel, er billedfortræning, og for at opnå dette er den indledende stabile videodiffusionsmodel baseret på en forudtrænet billeddiffusionsmodel, nemlig Stabil diffusion 2.1 model, der udstyrer den med stærkere visuelle repræsentationer. 

Fase II: Video fortræning

Den anden fase er Video Pre-Training-fasen, og den bygger på resultaterne af, at brugen af ​​datakuration i multimodale generative billedmodeller ofte resulterer i bedre resultater og øget effektivitet sammen med kraftfuld diskriminerende billedgenerering. Men på grund af manglen på lignende kraftfulde hylderepræsentationer til at bortfiltrere uønskede prøver til generative videomodeller, er den stabile videodiffusionsmodel afhængig af menneskelige præferencer som inputsignaler til oprettelsen af ​​et passende datasæt, der bruges til at fortræne rammen. Følgende figur viser den positive effekt af at fortræne rammeværket på et kurateret datasæt, der hjælper med at booste den overordnede ydeevne for videofortræning på mindre datasæt. 

For at være mere specifik bruger frameworket forskellige metoder til at kurere undersæt af Latent Video Diffusion og overvejer rangeringen af ​​LVD-modeller trænet på disse datasæt. Ydermere finder den stabile videodiffusionsramme også, at brugen af ​​kurerede datasæt til træning af rammerne hjælper med at booste ydeevnen af ​​rammeværket og diffusionsmodeller generelt. Desuden fungerer datakurationsstrategi også på større, mere relevante og yderst praktiske datasæt. Følgende figur viser den positive effekt af at fortræne rammen på et kurateret datasæt, der hjælper med at booste den overordnede ydeevne for videofortræning på mindre datasæt. 

Trin III: Finjustering af høj kvalitet

Indtil trin II fokuserer den stabile videodiffusionsramme på at forbedre ydeevnen forud for videofortræning, og i den tredje fase lægger rammen sin vægt på at optimere eller yderligere booste rammens ydeevne efter finjustering af video i høj kvalitet, og hvordan overgangen fra trin II til trin III opnås i rammen. I trin III trækker rammeværket på træningsteknikker lånt fra latente billeddiffusionsmodeller og øger træningseksemplernes opløsning. For at analysere effektiviteten af ​​denne tilgang sammenligner rammen den med tre identiske modeller, der kun adskiller sig med hensyn til deres initialisering. Den første identiske model har sine vægte initialiseret, og videotræningsprocessen springes over, mens de resterende to identiske modeller initialiseres med vægtene lånt fra andre latente videomodeller. 

Resultater og fund

Det er tid til at se på, hvordan den stabile videodiffusionsramme klarer sig på opgaver i den virkelige verden, og hvordan den kan sammenlignes med de nuværende state-of-the-art rammer. Stable Video Diffusion frameworket bruger først den optimale datatilgang til at træne en basismodel og udfører derefter finjustering for at generere flere state of the art modeller, hvor hver model udfører en specifik opgave. 

Ovenstående billede repræsenterer de højopløselige billede til video-eksempler genereret af frameworket, hvorimod følgende figur viser frameworkets evne til at generere højkvalitets tekst til videoeksempler. 

Foruddannet base Model

Som diskuteret tidligere er Stable Video Diffusion-modellen bygget på Stable Diffusion 2.1-rammeværket, og på baggrund af de seneste resultater var det afgørende for udviklere at adoptere støjplanen og øge støjen for at opnå billeder med bedre opløsning, når de trænede billeddiffusion modeller. Takket være denne tilgang lærer den stabile videodiffusionsbasemodel kraftige bevægelsesrepræsentationer, og i processen udkonkurrerer den basislinjemodeller for tekst til videogenerering i en nuloptagelsesindstilling, og resultaterne vises i følgende tabel. 

Frame Interpolation og Multi-View Generation

Den stabile videodiffusionsramme finjusterer billedet til videomodellen på multi-view-datasæt for at opnå flere nye visninger af et objekt, og denne model er kendt som SVD-MV eller Stable Video Diffusion- Multi View-model. Den originale SVD-model finjusteres ved hjælp af to datasæt på en måde, så rammen indlæser et enkelt billede og returnerer en sekvens af multi-view-billeder som output. 

Som det kan ses på de følgende billeder, leverer Stable Video Diffusion Multi View frameworket høj ydeevne, der kan sammenlignes med state of the art Scratch Multi View framework, og resultaterne er en klar demonstration af SVD-MV's evne til at drage fordel af den opnåede læring fra den originale SVD-ramme til multi-view billedgenerering. Desuden indikerer resultaterne også, at kørsel af modellen for et relativt mindre antal iterationer hjælper med at levere optimale resultater, som det er tilfældet med de fleste modeller finjusteret fra SVD-rammerne. 

I ovenstående figur er metrikken angivet i venstre side, og som det kan ses, overgår den stabile videodiffusion Multi View-ramme med en anstændig margin. Det andet billede viser effekten af ​​antallet af træningsiterationer på rammens overordnede præstation i forhold til Clip Score, og SVD-MV-rammerne leverer bæredygtige resultater. 

Afsluttende tanker

I denne artikel har vi talt om Stable Video Diffusion, en latent videodiffusionsmodel, der er i stand til at generere høj opløsning, state-of-the-art billede til video og tekst til videoindhold. Den stabile videodiffusionsmodel følger en unik strategi, der aldrig er implementeret af nogen generativ videomodel, da den er afhængig af latente videodiffusionsbaselines med en fast arkitektur og en fast træningsstrategi efterfulgt af vurdering af effekten af ​​at kurere dataene. 

Vi har talt om, hvordan latente diffusionsmodeller trænet til at syntetisere 2D-billeder har forbedret evnerne og effektiviteten af generative videomodeller ved at tilføje tidsmæssige lag, og finjustere modellerne på små datasæt bestående af videoer i høj kvalitet. For at indsamle data før træning udfører rammeværket skaleringsundersøgelser og følger systematisk dataindsamlingspraksis og foreslår i sidste ende en metode til at kurere en stor mængde videodata og konverterer støjende videoer til inputdata, der egner sig til generative videomodeller. 

Ydermere anvender den stabile videodiffusionsramme tre forskellige videomodeltræningsstadier, der analyseres uafhængigt for at vurdere deres indvirkning på rammeværkets ydeevne. Frameworket udsender i sidste ende en videorepræsentation, der er kraftig nok til at finjustere modellerne til optimal videosyntese, og resultaterne kan sammenlignes med avancerede videogenerationsmodeller, der allerede er i brug. 

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.