Povežite se s nama

Andersonov kut

Bolji generativni AI video mijenjanjem okvira tijekom treninga

mm
Adobe Firefly, razne upute i izmjene.

Novi rad objavljen ovog tjedna u Arxivu bavi se problemom koji svatko tko je usvojio Hunyuan video or Wan 2.1 AI video generatori su već naišli na: temporalne aberacije, gdje generativni proces ima tendenciju naglo ubrzati, spojiti, izostaviti ili na neki drugi način zabrljati ključne trenutke u generiranom videozapisu:

Kliknite za reprodukciju. Neki od vremenskih problema koji postaju poznati korisnicima novog vala generativnih video sustava, istaknuti su u novom radu. S desne strane, učinak poboljšanja novog pristupa FluxFlow.  Izvor: https://haroldchen19.github.io/FluxFlow/

Gornji videozapis sadrži izvatke iz primjera testnih videozapisa na (budite upozoreni: prilično kaotično) mjesto projekta za papir. Možemo vidjeti kako se nekoliko sve poznatijih problema rješava metodom autora (na slici desno u videu), koja je zapravo pretprocesiranje skupa podataka tehnika primjenjiva na bilo koju generativnu video arhitekturu.

U prvom primjeru, koji prikazuje 'dvoje djece koja se igraju loptom', generirao je CogVideoX, vidimo (lijevo u kompilacijskom videu iznad i u konkretnom primjeru ispod) da domaća generacija brzo skače kroz nekoliko bitnih mikropokreta, ubrzavajući dječju aktivnost do "crtića" tona. Nasuprot tome, isti skup podataka i metoda daju bolje rezultate s novom tehnikom pretprocesiranja, nazvanom FluxFlow (desno od slike u videu ispod):

Kliknite za reprodukciju.

U drugom primjeru (upotrebom NOVA-0.6B) vidimo da je središnje kretanje koje uključuje mačku na neki način iskvareno ili znatno nedovoljno uzorkovano u fazi treninga, do te mjere da generativni sustav postaje 'paraliziran' i ne može natjerati subjekta da se pomakne:

Kliknite za reprodukciju.

Ovaj sindrom, gdje se pokret ili subjekt 'zaglavi', jedan je od najčešćih problema HV-a i Wan-a, u različitim grupama za sintezu slike i videa.

Neki od ovih problema povezani su s problemima s titlovima videozapisa u izvornom skupu podataka, koje mi pogledao ovaj tjedan; ali autori novog rada umjesto toga usredotočuju svoje napore na vremenske kvalitete podataka o obuci i daju uvjerljiv argument da rješavanje izazova iz te perspektive može polučiti korisne rezultate.

Kao što je spomenuto u prethodnom članku o video titlovima, sigurno sportovi posebno ih je teško izdvojiti u ključne trenutke, što znači da kritični događaji (kao što je zakucavanje) ne dobivaju potrebnu pozornost tijekom treninga:

Kliknite za reprodukciju.

U gornjem primjeru, generativni sustav ne zna kako doći do sljedeće faze kretanja i nelogično prelazi iz jedne poze u drugu, mijenjajući pritom stav i geometriju igrača.

To su veliki pokreti koji su se izgubili tijekom treninga – ali jednako ranjivi su daleko manji, ali ključni pokreti, kao što je lepet leptirovih krila:

Kliknite za reprodukciju.  

Za razliku od zakucavanja, lepetanje krila nije 'rijedak' već uporan i monoton događaj. Međutim, njegova dosljednost se gubi u procesu uzorkovanja, jer je kretanje toliko brzo da ga je vrlo teško vremenski utvrditi.

Ovo nisu osobito novi problemi, ali dobivaju veću pozornost sada kada su moćni generativni video modeli dostupni entuzijastima za lokalnu instalaciju i besplatno generiranje.

Zajednice na Redditu i Discordu u početku su te probleme tretirale kao 'korisničke'. To je razumljiva pretpostavka, budući da su dotični sustavi vrlo novi i minimalno dokumentirani. Stoga su različiti stručnjaci predložili različite (i ne uvijek učinkovite) lijekove za neke od ovdje dokumentiranih grešaka, kao što je mijenjanje postavki u različitim komponentama različitih vrsta ComfyUI radnih procesa za Hunyuan Video (HV) i Wan 2.1.

U nekim slučajevima, umjesto brzog kretanja, proizvodit će i HV i Wan sporo prijedlog. Prijedlozi s Reddita i ChatGPT-a (koji uglavnom koristi Reddit) uključuju mijenjanje broja okvira u traženoj generaciji ili radikalno snižavanje broja slika u sekundi*.

Sve su ovo očajne stvari; istina koja se pojavljuje je da još ne znamo točan uzrok ili točan lijek za te probleme; jasno je da je mučenje postavki generiranja kako bi ih se zaobišlo (posebno kada to degradira kvalitetu ispisa, na primjer s preniskom brzinom sličica u sekundi) samo kratka pauza i dobro je vidjeti da istraživačka scena ovako brzo rješava novonastale probleme.

Dakle, osim ovotjednog pogleda na to kako titlovi utječu na trening, pogledajmo novi dokument o vremenskoj regulaciji i koja bi poboljšanja mogla ponuditi trenutnoj generativnoj video sceni.

Središnja ideja je prilično jednostavna i neznatna, i ništa lošija od toga; usprkos tome, rad je donekle podstavljen kako bi dosegao propisanih osam stranica, a po potrebi ćemo preskočiti ovu podlogu.

Riba u izvornoj generaciji okvira VideoCrafter je statična, dok verzija izmijenjena FluxFlowom bilježi potrebne promjene. Izvor: https://arxiv.org/pdf/2503.15417

Riba u izvornoj generaciji okvira VideoCrafter je statična, dok verzija izmijenjena FluxFlowom bilježi potrebne promjene. Izvor: https://arxiv.org/pdf/2503.15417

The novo djelo naslovljen je Vremenska regulacija čini vaš video generator jačim, a dolazi od osam istraživača iz Everlyn AI, Sveučilišta znanosti i tehnologije Hong Konga (HKUST), Sveučilišta Centralne Floride (UCF) i Sveučilišta Hong Kong (HKU).

(u vrijeme pisanja, postoje problemi s popratnim dokumentom mjesto projekta)

FluxFlow

Središnja ideja iza FluxFlow, autorova nova shema prije obuke, je prevladavanje raširenih problema treperenje međutim vremenska nedosljednost miješanjem blokova i grupa blokova u redoslijedu vremenskih okvira dok su izvorni podaci izloženi procesu obuke:

Središnja ideja iza FluxFlowa je pomicanje blokova i grupa blokova na neočekivane i nevremenske položaje, kao oblik povećanja podataka.

Središnja ideja iza FluxFlowa je pomicanje blokova i grupa blokova na neočekivane i nevremenske položaje, kao oblik povećanja podataka.

U radu se objašnjava:

'[Artefakti] proizlaze iz temeljnog ograničenja: unatoč iskorištavanju skupova podataka velikih razmjera, trenutni modeli često se oslanjaju na pojednostavljene vremenske obrasce u podacima za obuku (npr. fiksni smjerovi hodanja ili ponavljajući prijelazi okvira) umjesto da uče raznoliku i uvjerljivu vremensku dinamiku.

'Ovaj problem je dodatno pogoršan nedostatkom eksplicitnog vremenskog povećanja tijekom treninga, ostavljajući modele sklonima pretjeranom prilagođavanju lažnim vremenskim korelacijama (npr. "kadar #5 mora slijediti #4") umjesto generaliziranja kroz različite scenarije kretanja.'

Većina modela video generacije, objašnjavaju autori, još uvijek previše posuđuje od slika sinteza, fokusirajući se na prostornu vjernost dok uvelike zanemaruje vremensku os. Iako su tehnike kao što su obrezivanje, okretanje i podrhtavanje boje pomogle u poboljšanju kvalitete statične slike, one nisu prikladna rješenja kada se primjenjuju na videozapise, gdje iluzija kretanja ovisi o dosljednim prijelazima između okvira.

Rezultirajući problemi uključuju treperenje tekstura, oštre rezove između okvira i ponavljajuće ili previše jednostavne obrasce kretanja.

Kliknite za reprodukciju.

Rad tvrdi da iako neki modeli - uključujući Stabilna video difuzija međutim LlamaGen – kompenzirati sve složenijim arhitekturama ili projektiranim ograničenjima, koja imaju cijenu u smislu računanja i fleksibilnosti.

Budući da se vremensko povećanje podataka već pokazalo korisnim u videu razumijevanje zadaci (u okvirima kao što su FineCliper, SeFAR međutim SVBivši) iznenađujuće je, tvrde autori, da se ova taktika rijetko primjenjuje u generativnom kontekstu.

Ometajuće ponašanje

Istraživači tvrde da jednostavni, strukturirani poremećaji u vremenskom poretku tijekom treninga pomažu modelima da se bolje generaliziraju u realno, raznoliko kretanje:

'Uvježbavanjem neuređenih sekvenci, generator uči oporaviti prihvatljive putanje, učinkovito regulirajući vremensku entropiju. FLUXFLOW premošćuje jaz između diskriminativne i generativne vremenske augmentacije, nudeći plug-and-play rješenje poboljšanja za vremenski vjerojatnu video generaciju dok poboljšava ukupnu [kvalitetu].

'Za razliku od postojećih metoda koje uvode arhitektonske promjene ili se oslanjaju na naknadnu obradu, FLUXFLOW djeluje izravno na razini podataka, uvodeći kontrolirane vremenske poremećaje tijekom obuke.'

Kliknite za reprodukciju.

Perturbacije na razini okvira, navode autori, uvode sitne poremećaje unutar niza. Ova vrsta poremećaja ne razlikuje se od maskiranje povećanja, gdje su dijelovi podataka nasumično blokirani kako bi se spriječio sustav prekomjerno opremanje na podatkovnim točkama i ohrabrujući bolje generalizacija.

Testovi

Iako se središnja ideja ovdje ne odnosi na cjelovečernji rad, zbog svoje jednostavnosti ipak postoji testni odjeljak koji možemo pogledati.

Autori su testirali četiri upita koji se odnose na poboljšanu vremensku kvalitetu uz zadržavanje prostorne vjernosti; sposobnost učenja dinamike kretanja/optičkog toka; održavanje vremenske kvalitete u izvanročnoj generaciji; i osjetljivost na ključne hiperparametre.

Istraživači su primijenili FluxFlow na tri generativne arhitekture: baziranu na U-Netu, u obliku VideoCrafter2; DIT-baziran, u obliku CogVideoX-2B; i ARna bazi, u obliku NOVA-0.6B.

Radi poštene usporedbe, fino su podesili osnovne modele arhitekture s FluxFlowom kao dodatnom fazom obuke, na primjer epoha, O OpenVidHD-0.4M skup podataka.

Modeli su procijenjeni prema dva popularna mjerila: UCF-101, Te VBench.

Za UCF, Fréchet video udaljenost (FVD) i Inception Score (IS) metrika je korištena. Za VBench, istraživači su se usredotočili na vremensku kvalitetu, kvalitetu okvira i ukupnu kvalitetu.

Kvantitativna početna evaluacija FluxFlow-Frame-a.

Kvantitativna početna evaluacija okvira FluxFlow. "+ Original" označava trening bez FLUXFLOW-a, dok "+ Num × 1" prikazuje različite konfiguracije FluxFlow-Frame. Najbolji rezultati su osjenčani; drugi najbolji su podcrtani za svaki model.

Komentirajući ove rezultate, autori navode:

'I FLUXFLOW-FRAME i FLUXFLOW-BLOCK značajno poboljšavaju vremensku kvalitetu, što je vidljivo iz metrike u karticama. 1, 2 (tj. FVD, Subjekt, Flicker, Motion i Dynamic) i kvalitativne rezultate u [slika ispod].

'Na primjer, kretanje automobila u driftu u VC2, mačke koja juri za repom u NOVA-i i surfera koji jaše val u CVX-u postaje osjetno fluidnije s FLUXFLOW-om. Važno je da se ova vremenska poboljšanja postižu bez žrtvovanja prostorne vjernosti, što je vidljivo iz oštrih detalja prskanja vode, tragova dima i tekstura valova, zajedno s metrikom prostorne i ukupne vjernosti.'

U nastavku vidimo odabire kvalitativnih rezultata na koje se autori pozivaju (pogledajte izvorni rad za potpune rezultate i bolju rezoluciju):

Odabir iz kvalitativnih rezultata.

Odabir iz kvalitativnih rezultata.

Rad sugerira da dok perturbacije na razini okvira i na razini bloka poboljšavaju vremensku kvalitetu, metode na razini okvira imaju bolju izvedbu. To se pripisuje njihovoj finijoj granularnosti, koja omogućuje preciznije vremenske prilagodbe. Smetnje na razini bloka, nasuprot tome, mogu unijeti šum zbog usko povezanih prostornih i vremenskih obrazaca unutar blokova, smanjujući njihovu učinkovitost.

Zaključak

Ovaj rad, zajedno s Bytedance-Tsinghua titlovanje suradnje objavljen ovaj tjedan, jasno mi je dao do znanja da očiti nedostaci u novoj generaciji generativnih videomodela ne moraju proizaći iz pogrešaka korisnika, institucionalnih pogrešnih koraka ili ograničenja financiranja, već iz fokusa istraživanja koji je razumljivo dao prednost hitnijim izazovima, kao što su vremenska koherentnost i dosljednost, u odnosu na ove manje probleme.

Sve do nedavno, rezultati besplatno dostupnih generativnih video sustava koji se mogu preuzeti bili su toliko ugroženi da zajednica entuzijasta nije uložila veliki napor da se problemi riješe (i to ne samo zato što su problemi bili temeljni i nisu trivijalno rješivi).

Sada kada smo toliko bliže dugo predviđanom dobu čisto fotorealističnog video izlaza generiranog umjetnom inteligencijom, jasno je da i istraživačke i povremene zajednice imaju dublji i produktivniji interes za rješavanje preostalih problema; uz malo sreće, to nisu nepremostive prepreke.

 

* Wan-ov izvorni broj sličica u sekundi je mizernih 16 sličica u sekundi, a kao odgovor na vlastite probleme, napominjem da su forumi predložili smanjenje brzine sličica u sekundi na čak 12 slika u sekundi, a zatim korištenje FlowFrames ili drugi sustavi ponovnog protoka temeljeni na umjetnoj inteligenciji za interpolaciju praznina između tako rijetkog broja okvira.

Prvi put objavljeno u petak, 21. ožujka 2025

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. Bivši voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai