Følg os

Andersons vinkel

Mod total kontrol i AI-videogenerering

mm
ChatGPT-4o, Adobe Firefly: nederst til højre, billeder fra papiret FullDiT: Multi-Task Video Generative Foundation Model with Full Attention (https://arxiv.org/pdf/2503.19907)

Videofundamentmodeller som f.eks Hunyuan og Wan 2.1Selvom det er kraftfuldt, tilbyder de ikke brugerne den form for granuleret kontrol, som film- og tv-produktion (især VFX-produktion) kræver.

I professionelle visuelle effektstudier, open source-modeller som disse sammen med tidligere billedbaserede (frem for video) modeller som f.eks. Stabil diffusion, Kandinsky og Flux, bruges typisk sammen med en række understøttende værktøjer, der tilpasser deres rå output til at opfylde specifikke kreative behov. Når en direktør siger, "Det ser godt ud, men kan vi gøre det lidt mere [n]?" du kan ikke svare ved at sige, at modellen ikke er præcis nok til at håndtere sådanne anmodninger.

I stedet vil et AI VFX-team bruge en række traditionelle CGI og kompositionsteknikker, forbundet med tilpassede procedurer og arbejdsgange udviklet over tid, for at forsøge at skubbe grænserne for videosyntese lidt længere.

Så analogt er en grundlæggende videomodel meget ligesom en standardinstallation af en webbrowser som Chrome; den gør meget lige fra starten, men hvis du vil have den til at tilpasse sig dine behov i stedet for omvendt, skal du bruge nogle plugins.

Kontrolfreaks

I verden af ​​diffusionsbaseret billedsyntese er det vigtigste sådant tredjepartssystem KontrolNet.

ControlNet er en teknik til at tilføje struktureret kontrol til diffusionsbaserede generative modeller, hvilket giver brugerne mulighed for at guide billed- eller videogenerering med yderligere input som f.eks. kantkort, dybdekort eller poseringsoplysninger.

ControlNets forskellige metoder giver mulighed for dybde>billede (øverste række), semantisk segmentering> billede (nederst til venstre) og pose-guidet billedgenerering af mennesker og dyr (nederst til venstre).

ControlNets forskellige metoder muliggør dybde>billede (øverste række), semantisk segmentering>billede (nederst til venstre) og posestyret billedgenerering af mennesker og dyr (nederst til venstre).

I stedet for udelukkende at stole på tekstmeddelelser, introducerer ControlNet separate neurale netværksgrene, eller adaptere, der behandler disse konditioneringssignaler, mens basismodellens generative evner bevares.

Dette muliggør finjusterede output, der overholder brugerspecifikationerne, hvilket gør det særligt anvendeligt i applikationer, hvor præcis sammensætning, struktur eller bevægelseskontrol er påkrævet:

Med en vejledende stilling kan en række nøjagtige outputtyper opnås via ControlNet. Kilde: https://arxiv.org/pdf/2302.05543

Med en vejledende stilling kan en række nøjagtige outputtyper opnås via ControlNet. Kilde: https://arxiv.org/pdf/2302.05543

Adapterbaserede rammer af denne art opererer dog eksternt på et sæt neurale processer, der er meget internt fokuserede. Disse fremgangsmåder har flere ulemper.

For det første trænes adaptere uafhængigt, hvilket fører til grenkonflikter når flere adaptere kombineres, hvilket kan medføre forringet generationskvalitet.

For det andet introducerer de parameter redundans, der kræver ekstra beregning og hukommelse for hver adapter, hvilket gør skalering ineffektiv.

For det tredje producerer adaptere på trods af deres fleksibilitet ofte suboptimal resultater sammenlignet med modeller, der er fuldt ud finjusteres til generering af flere tilstande. Disse problemer gør adapterbaserede metoder mindre effektive til opgaver, der kræver sømløs integration af flere styresignaler.

Ideelt set ville ControlNets kapacitet trænes indbygget ind i modellen på en modulær måde, der kunne rumme senere og længe ventede åbenlyse innovationer såsom samtidig video/lydgenerering eller native lip-sync-funktioner (til ekstern lyd).

Som det ser ud nu, repræsenterer hvert ekstra stykke funktionalitet enten en postproduktionsopgave eller en ikke-native procedure, der skal navigere i de tæt bundne og følsomme vægte af den fundamentsmodel, den opererer på.

FullDiT

Ind i denne standoff kommer et nyt tilbud fra Kina, der udgør et system, hvor ControlNet-stil-tiltag er bagt direkte ind i en generativ videomodel på træningstidspunktet, i stedet for at blive henvist til en eftertanke.

Fra det nye papir: FullDiT-tilgangen kan inkorporere identitetspåvirkning, dybde og kamerabevægelse i en indfødt generation og kan sammenfatte enhver kombination af disse på én gang. Kilde: https://arxiv.org/pdf/2503.19907

Fra det nye papir: FullDiT-tilgangen kan inkorporere identitetspåvirkning, dybde og kamerabevægelse i en indfødt generation og kan sammenfatte enhver kombination af disse på én gang. Kilde: https://arxiv.org/pdf/2503.19907

Med titlen FullDiT, fusionerer den nye tilgang multi-task betingelser såsom identitetsoverførsel, dybdekortlægning og kamerabevægelse til en integreret del af en trænet generativ videomodel, som forfatterne har produceret en prototype trænet model til, og ledsagende videoklip på en projektwebsted.

I eksemplet nedenfor ser vi generationer, der inkorporerer kamerabevægelser, identitetsoplysninger og tekstoplysninger (dvs. vejledende brugertekstprompter):

Klik for at spille. Eksempler på brugerindsættelse i ControlNet-stil med kun en indbygget trænet fundamentmodel. Kilde: https://fulldit.github.io/

Det skal bemærkes, at forfatterne ikke foreslår deres eksperimentelt trænede model som en funktionel fundamentmodel, men snarere som et proof-of-concept for native text-to-video (T2V) og image-to-video (I2V) modeller, der giver brugerne mere kontrol end blot en billed-prompt eller en tekst-prompt.

Da der endnu ikke findes lignende modeller af denne art, har forskerne lavet et nyt benchmark med titlen FullBench, til evaluering af multi-task videoer, og hævder state-of-the-art ydeevne i de like-for-like-tests, de udtænkte i forhold til tidligere tilgange. Men da FullBench blev designet af forfatterne selv, er dens objektivitet utestet, og dens datasæt på 1,400 tilfælde kan være for begrænset til bredere konklusioner.

Det måske mest interessante aspekt af arkitekturen, som papiret fremlægger, er dets potentiale til at inkorporere nye typer kontrol. Forfatterne udtaler:

"I dette arbejde undersøger vi kun kameraets kontrolforhold, identiteter og dybdeinformation. Vi har ikke undersøgt andre forhold og modaliteter såsom lyd, tale, punktsky, objektafgrænsningsbokse, optisk flow osv. yderligere. Selvom designet af FullDiT problemfrit kan integrere andre modaliteter med minimal arkitekturændring, er det stadig et vigtigt spørgsmål, der kræver yderligere udforskning, hvordan man hurtigt og omkostningseffektivt kan tilpasse eksisterende modeller til nye forhold og modaliteter."

Selvom forskerne præsenterer FullDiT som et skridt fremad i multi-task videogenerering, bør det tages i betragtning, at dette nye arbejde bygger på eksisterende arkitekturer i stedet for at introducere et fundamentalt nyt paradigme.

Ikke desto mindre står FullDiT i øjeblikket alene (så vidt jeg ved) som en videofundamentsmodel med 'hardcodede' ControlNet-lignende faciliteter – og det er godt at se, at den foreslåede arkitektur også kan rumme senere innovationer.

Klik for at spille. Eksempler på brugerstyrede kamerabevægelser fra projektstedet.

nyt papir er titlen FullDiT: Multi-Task Video Generative Foundation Model med fuld opmærksomhed, og kommer fra ni forskere på tværs af Kuaishou Technology og The Chinese University of Hong Kong. Projektsiden er link. og de nye benchmarkdata er hos Hugging Face.

Metode

Forfatterne hævder, at FullDiTs forenede opmærksomhedsmekanisme muliggør stærkere tværmodal repræsentationslæring ved at fange både rumlige og tidsmæssige relationer på tværs af forhold:

Ifølge det nye papir integrerer FullDiT flere inputbetingelser gennem fuld selvopmærksomhed og konverterer dem til en samlet sekvens. I modsætning hertil bruger adapterbaserede modeller (længst til venstre) separate moduler for hvert input, hvilket fører til redundans, konflikter og svagere ydeevne.

Ifølge det nye papir integrerer FullDiT flere inputbetingelser gennem fuld selvopmærksomhed og konverterer dem til en samlet sekvens. I modsætning hertil bruger adapterbaserede modeller (længst til venstre ovenfor) separate moduler for hvert input, hvilket fører til redundans, konflikter og svagere ydeevne.

I modsætning til adapterbaserede opsætninger, der behandler hver inputstrøm separat, undgår denne delte opmærksomhedsstruktur grenkonflikter og reducerer parameteroverhead. De hævder også, at arkitekturen kan skaleres til nye inputtyper uden større redesign – og at modelskemaet viser tegn på generalisering til tilstandskombinationer, der ikke ses under træning, såsom at forbinde kamerabevægelse med karakteridentitet.

Klik for at spille. Eksempler pĂĄ identitetsgenerering fra projektstedet.

I FullDiT's arkitektur bliver alle konditioneringsinput - såsom tekst, kamerabevægelse, identitet og dybde - først konverteret til et samlet token-format. Disse tokens sammenkædes derefter i en enkelt lang sekvens, som behandles gennem en stak af transformer lag med fuld selvopmærksomhed. Denne tilgang følger tidligere værker som f.eks Åben Sora-plan og Film Gen.

Dette design gør det muligt for modellen at lære tidsmæssige og rumlige forhold i fællesskab på tværs af alle forhold. Hver transformerblok fungerer over hele sekvensen, hvilket muliggør dynamiske interaktioner mellem modaliteter uden at være afhængig af separate moduler for hvert input – og som vi har bemærket, er arkitekturen designet til at kunne udvides, hvilket gør det meget lettere at inkorporere yderligere styresignaler i fremtiden uden større strukturelle ændringer.

Tres magt

FullDiT konverterer hvert kontrolsignal til et standardiseret token-format, så alle forhold kan behandles sammen i en samlet opmærksomhedsramme. Til kamerabevægelse koder modellen en sekvens af ydre parametre – såsom position og orientering – for hvert billede. Disse parametre er tidsstemplet og projiceret ind i indlejringsvektorer, der afspejler signalets tidsmæssige natur.

Identitetsoplysninger behandles forskelligt, da det i sagens natur er rumligt snarere end tidsmæssigt. Modellen bruger identitetskort, der angiver, hvilke karakterer der er til stede i hvilke dele af hver frame. Disse kort er opdelt i patches, med hver patch projiceret ind i en indlejring der fanger rumlige identitetssignaler, hvilket gør det muligt for modellen at associere specifikke områder af rammen med specifikke entiteter.

Dybde er et spatiotemporalt signal, og modellen håndterer det ved at opdele dybdevideoer i 3D-patches, der spænder over både rum og tid. Disse patches er derefter indlejret på en måde, der bevarer deres struktur på tværs af rammer.

Når de er indlejret, er alle disse tilstandstokens (kamera, identitet og dybde) sammenkædet i en enkelt lang sekvens, hvilket gør det muligt for FullDiT at behandle dem sammen ved hjælp af fuld selvopmærksomhed. Denne delte repræsentation gør det muligt for modellen at lære interaktioner på tværs af modaliteter og på tværs af tid uden at stole på isolerede behandlingsstrømme.

Data og test

FullDiTs træningsmetode var baseret på selektivt annoterede datasæt skræddersyet til hver betingningstype, i stedet for at kræve, at alle betingelser var til stede samtidigt.

For tekstmæssige forhold følger initiativet den strukturerede billedteksttilgang, der er skitseret i MiraData projekt.

Videoindsamling og annotationspipeline fra MiraData-projektet. Kilde: https://arxiv.org/pdf/2407.06358

Videoindsamling og annotationspipeline fra MiraData-projektet. Kilde: https://arxiv.org/pdf/2407.06358

Til kamerabevægelser Ejendom 10K Datasættet var den vigtigste datakilde på grund af dets højkvalitets grundsandhedsannoteringer af kameraparametre.

Forfatterne observerede imidlertid, at træning udelukkende på statiske kameradatasæt som RealEstate10K havde en tendens til at reducere dynamiske objekt- og menneskebevægelser i genererede videoer. For at modvirke dette udførte de yderligere finjustering ved hjælp af interne datasæt, der inkluderede mere dynamiske kamerabevægelser.

Identitetsannotationer blev genereret ved hjælp af pipeline udviklet til ConceptMaster projekt, som muliggjorde effektiv filtrering og udtræk af finkornede identitetsoplysninger.

ConceptMaster-rammen er designet til at løse problemer med identitetsafkobling, samtidig med at konceptet bevares i tilpassede videoer. Kilde: https://arxiv.org/pdf/2501.04698

ConceptMaster-rammen er designet til at løse problemer med identitetsafkobling, samtidig med at konceptet bevares i tilpassede videoer. Kilde: https://arxiv.org/pdf/2501.04698

Dybde anmærkninger blev indhentet fra Panda-70M datasæt ved hjælp af Dybde hvad som helst.

Optimering gennem databestilling

Forfatterne implementerede også en progressiv træningsplan, der introducerede mere udfordrende forhold tidligere i træningen at sikre, at modellen opnåede robuste repræsentationer, før der blev tilføjet enklere opgaver. Træningsordren udgik fra tekst til værelse forhold altså identiteter, og endelig dybde, med lettere opgaver generelt introduceret senere og med færre eksempler.

Forfatterne understreger værdien af ​​at bestille arbejdsbyrden på denne måde:

”I fortræningsfasen bemærkede vi, at mere udfordrende opgaver kræver længere træningstid og bør introduceres tidligere i læringsprocessen. Disse udfordrende opgaver involverer komplekse datadistributioner, der adskiller sig væsentligt fra outputvideoen, hvilket kræver, at modellen har tilstrækkelig kapacitet til nøjagtigt at fange og repræsentere dem.

"Omvendt kan det at introducere lettere opgaver for tidligt føre til, at modellen prioriterer at lære dem først, da de giver mere øjeblikkelig optimeringsfeedback, hvilket hindrer konvergensen af ​​mere udfordrende opgaver."

En illustration af den datatræningsrækkefølge, som forskerne har vedtaget, med rødt, der indikerer større datamængde.

En illustration af den datatræningsrækkefølge, som forskerne har vedtaget, med rødt, der indikerer større datamængde.

Efter indledende fortræning forfinede en sidste finjusteringsfase modellen yderligere for at forbedre den visuelle kvalitet og bevægelsesdynamikken. Derefter fulgte træningen en standard diffusionsramme*: støj tilføjet til video latents og modellen lære at forudsige og fjerne det, ved at bruge de indlejrede tilstandstokens som vejledning.

For effektivt at evaluere FullDiT og give en rimelig sammenligning med eksisterende metoder, og i mangel af tilgængelighed af et andet passende benchmark, introducerede forfatterne FullBench, en kurateret benchmark suite bestående af 1,400 forskellige testcases.

En data explorer-instans til det nye FullBench-benchmark. Kilde: https://huggingface.co/datasets/KwaiVGI/FullBench

En data explorer-instans til det nye FullBench-benchmark. Kilde: https://huggingface.co/datasets/KwaiVGI/FullBench

Hvert datapunkt leverede grundsandhedsannotationer til forskellige konditioneringssignaler, herunder kamera bevægelse, identitetog dybde.

Metrics

Forfatterne evaluerede FullDiT ved hjælp af ti metrics, der dækker fem hovedaspekter af ydeevne: tekstjustering, kamerakontrol, identitetslighed, dybdenøjagtighed og generel videokvalitet.

Tekstjustering blev målt vha CLIP lighed, mens kamerastyring blev vurderet igennem rotationsfejl (RotErr), oversættelsesfejl (TransErr), Og konsistent kamerabevægelse (CamMC), efter tilgangen til CamI2V (i KameraCtrl projekt).

Identitetslighed blev vurderet vha DINO-I og CLIP-I, og dybdekontrolnøjagtigheden blev kvantificeret vha Gennemsnitlig absolut fejl (MAE).

Videokvaliteten blev bedømt med tre metrics fra MiraData: CLIP-lighed på rammeniveau for glathed; optisk flow-baseret bevægelsesafstand for dynamik; og LAION-Æstetiske partiturer for visuel appel.

Kurser

Forfatterne trænede FullDiT ved hjælp af en intern (uoplyst) tekst-til-video-diffusionsmodel, der indeholder omkring en milliard parametre. De valgte bevidst en beskeden parameterstørrelse for at opretholde retfærdighed i sammenligninger med tidligere metoder og sikre reproducerbarhed.

Da træningsvideoer var forskellige i længde og opløsning, standardiserede forfatterne hver parti ved at ændre størrelsen på og polstre videoer til en fælles opløsning, sample 77 billeder pr. sekvens og bruge anvendt opmærksomhed og tabsmasker for at optimere træningseffektiviteten.

Adam optimizer blev brugt på en indlæringshastighed på 1 × 10-5 på tværs af en klynge af 64 NVIDIA H800 GPU'er, til i alt 5,120 GB VRAM (tænk på, at i entusiastsyntesesamfundene, 24GB på en RTX 3090 stadig betragtes som en luksuriøs standard).

Modellen blev trænet til omkring 32,000 trin, der inkorporerede op til tre identiteter pr. video, sammen med 20 frames af kameraforhold og 21 frames af dybdeforhold, begge jævnt samplet fra de i alt 77 frames.

Til inferens genererede modellen videoer med en opløsning på 384×672 pixels (omtrent fem sekunder ved 15 billeder pr. sekund) med 50 diffusionsinferenstrin og en klassificeringsfri vejledningsskala på fem.

Tidligere metoder

Til kamera-til-video-evaluering sammenlignede forfatterne FullDiT med MotionCtrl, CameraCtrl og CamI2V, med alle modeller trænet ved hjælp af RealEstate10k-datasættet for at sikre konsistens og retfærdighed.

I identitetsbetinget generation, da der ikke var nogen sammenlignelige open source multi-identitetsmodeller tilgængelige, blev modellen benchmarked mod 1B-parameter ConceptMaster-modellen ved at bruge de samme træningsdata og arkitektur.

For dybde-til-video opgaver blev der foretaget sammenligninger med Ctrl-adapter og Kontrolvideo.

Kvantitative resultater for generering af video med én opgave. FullDiT blev sammenlignet med MotionCtrl, CameraCtrl og CamI2V til kamera-til-video-generering; ConceptMaster (1B-parameterversion) til identitet-til-video; og Ctrl-Adapter og ControlVideo for dybde-til-video. Alle modeller blev evalueret ved hjælp af deres standardindstillinger. For konsistens blev 16 rammer ensartet samplet fra hver metode, hvilket matchede outputlængden af ​​tidligere modeller.

Kvantitative resultater for generering af video med én opgave. FullDiT blev sammenlignet med MotionCtrl, CameraCtrl og CamI2V til kamera-til-video-generering; ConceptMaster (1B-parameterversion) til identitet-til-video; og Ctrl-Adapter og ControlVideo for dybde-til-video. Alle modeller blev evalueret ved hjælp af deres standardindstillinger. For konsistens blev 16 rammer ensartet samplet fra hver metode, hvilket matchede outputlængden af ​​tidligere modeller.

Resultaterne indikerer, at FullDiT, på trods af at han håndterede flere konditioneringssignaler samtidigt, opnåede state-of-the-art ydeevne i målinger relateret til tekst, kamerabevægelse, identitet og dybdekontrol.

I de samlede kvalitetsmålinger klarede systemet sig generelt bedre end andre metoder, selvom dets jævnhed var en smule lavere end ConceptMasters. Her kommenterer forfatterne:

'Glattheden af ​​FullDiT er lidt lavere end ConceptMasters, da beregningen af ​​glathed er baseret på CLIP-lighed mellem tilstødende frames. Da FullDiT udviser betydeligt større dynamik sammenlignet med ConceptMaster, påvirkes glathedsmetrikken af ​​de store variationer mellem tilstødende rammer.

"Med hensyn til den æstetiske score opnår ControlVideo en høj score inden for æstetik, da vurderingsmodellen favoriserer billeder i malestil, og den typisk genererer videoer i denne stil."

Med hensyn til den kvalitative sammenligning kan det være at foretrække at henvise til eksempelvideoerne på FullDiT-projektets websted, da PDF-eksemplerne uundgåeligt er statiske (og også for store til helt at gengive her).

Det første afsnit af de gengivet kvalitative resultater i PDF'en. Se venligst kildepapiret for de yderligere eksempler, som er for omfattende til at gengive her.

Den første del af de kvalitative resultater i PDF'en. Se venligst kildepapiret for de yderligere eksempler, som er for omfattende til at gengive her.

Forfatterne kommenterer:

'FullDiT demonstrerer overlegen identitetsbevarelse og genererer videoer med bedre dynamik og visuel kvalitet sammenlignet med [ConceptMaster]. Da ConceptMaster og FullDiT trænes på samme rygrad, fremhæver dette effektiviteten af ​​tilstandsinjektion med fuld opmærksomhed.

"...De [andre] resultater demonstrerer den overlegne kontrollerbarhed og genereringskvalitet af FullDiT sammenlignet med eksisterende dybde-til-video- og kamera-til-video-metoder."

Et udsnit af PDF'ens eksempler pĂĄ FullDiT's output med flere signaler. Se venligst kildedokumentet og projektwebstedet for yderligere eksempler.

Et udsnit af PDF-filens eksempler pĂĄ FullDiTs output med flere signaler. Se kildedokumentet og projektets hjemmeside for yderligere eksempler.

Konklusion

Selvom FullDiT er et spændende indtog i en mere fuldt udstyret type videofundamentmodel, må man undre sig over, om efterspørgslen efter ControlNet-lignende instrumentaliteter nogensinde vil retfærdiggøre implementering af sådanne funktioner i stor skala, i det mindste for FOSS-projekter, som ville kæmpe for at opnå den enorme mængde GPU-processorkraft, der er nødvendig, uden kommerciel opbakning.

Den primære udfordring er, at brug af systemer som Depth og Pose generelt kræver ikke-triviel fortrolighed med relativt komplekse brugergrænseflader som ComfyUI. Derfor ser det ud til, at en funktionel FOSS-model af denne art højst sandsynligt vil blive udviklet af en kadre af mindre VFX-virksomheder, der mangler pengene (eller viljen, givet at sådanne systemer hurtigt bliver forældede af modelopgraderinger) til at kurere og træne en sådan model bag lukkede døre.

På den anden side kan API-drevne 'rent-an-AI'-systemer være velmotiverede til at udvikle enklere og mere brugervenlige fortolkningsmetoder til modeller, som hjælpekontrolsystemer er blevet direkte trænet i.

Klik for at spille. Depth+Text kontroller pålagt en videogenerering ved hjælp af FullDiT.

 

* Forfatterne angiver ikke nogen kendt basismodel (dvs. SDXL osv.)

Først offentliggjort torsdag den 27. marts 2025

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai