Andersons vinkel
Vejen til bedre AI-baseret video-redigering

Video-/billeddannelsesforskningssektoren udgiver jævnligt video-redigeringsarkitekturer, og i de sidste ni måneder er udsendelser af denne art blevet endnu hyppigere. Det sagde, repræsenterer de fleste af dem kun inkrementelle fremskridt i tilstanden for kunsten, da de grundlæggende udfordringer er betydelige.
Men en ny samarbejdsprojekt mellem Kina og Japan denne uge har produceret nogle eksempler, der fortjener en nærmere undersøgelse af tilgangen, selv om det ikke nødvendigvis er et banebrydende arbejde.
I video-klippet nedenfor (fra papirets associerede projektside, der – advares – kan belaste din browser) ser vi, at selv om systemets deepfaking-evner ikke findes i den nuværende konfiguration, gør systemet en fin indsats i at ændre kvindens identitet i billedet på en plausibel og betydelig måde, baseret på en video-maske (nederst til venstre):
Klik for at afspille. Baseret på den semantiske segmenteringsmaske, der vises i nederste venstre hjørne, omformes den oprindelige (øverste venstre) kvinde til en bemærkelsesværdigt anderledes identitet, selv om denne proces ikke opnår identitets-udskiftning, som angivet i prompten. Kilde: https://yxbian23.github.io/project/video-painter/ (Vær opmærksom på, at på tidspunktet for skrivning, var dette autoplaying- og video-stuffed websted tilbøjelig til at låse mit browser). Venligst se kildevideoerne, hvis du kan få adgang til dem, for bedre opløsning og detaljer, eller se eksemplerne på projektets oversigtsvideo på https://www.youtube.com/watch?v=HYzNfsD3A0s
Mask-baseret redigering af denne type er velkendt i statiske latent diffusionsmodeller, der bruger værktøjer som ControlNet. Men at opretholde baggrundsconsistens i video er langt mere udfordrende, selv når maskede områder giver modellen kreativ fleksibilitet, som vist nedenfor:
Klik for at afspille. En skift af arter, med den nye VideoPainter-metode. Venligst se kildevideoerne, hvis du kan få adgang til dem, for bedre opløsning og detaljer, eller se eksemplerne på projektets oversigtsvideo på https://www.youtube.com/watch?v=HYzNfsD3A0s
Forfatterne til det nye arbejde betragter deres metode i forhold til både Tencents eget BrushNet-arkitektur (som vi dækkede sidste år), og til ControlNet, som begge omhandler en dual-branch-arkitektur, der kan isolere forgrunds- og baggrunds-generation.
Men at anvende denne metode direkte på den meget produktive Diffusion Transformers (DiT)-tilgang forslagt af OpenAI’s Sora, medfører særlige udfordringer, som forfatterne bemærker:
‘[Direkte] anvendelse [af arkitekturen i BrushNet og ControlNet] til video DiTs præsenterer flere udfordringer: [Først og fremmest] givet Video DiT’s robuste generative grundlag og tung modelstørrelse, ville det være unødvendigt og beregningsmæssigt forbudt at replikere den fulde/halv-kæmpe Video DiT-baggrund som kontekst-encoder.
‘[Anden] i modsætning til BrushNet’s rene konvolutionskontrol-branch, indeholder DiT’s tokens i maskede områder inherent baggrundsinformation på grund af global opmærksomhed, hvilket komplicerer forskellen mellem maskede og umaskede områder i DiT-baggrunden.
‘[Endelig] mangler ControlNet funktionstilsætning på tværs af alle lag, hvilket hindrer tæt baggrunds-kontrol for inpainting-opgaver.’
Derfor har forskerne udviklet en plug-and-play-tilgang i form af en dual-branch-ramme kaldet VideoPainter.
VideoPainter tilbyder en dual-branch video-inpainting-ramme, der forbedrer forudtrænede DiTs med en letvægts-kontekst-encoder. Denne encoder står for kun 6% af baggrundsparametrene, hvilket forfatterne hævder gør tilgangen mere effektiv end konventionelle metoder.
Modellen foreslår tre nøgle-innovationer: en strømlinjeformet to-lags kontekst-encoder til effektiv baggrunds-vejledning; et mask-selectivt funktionssammensætnings-system, der adskiller maskede og umaskede tokens; og en inpainting-områdes-ID-resampling-teknik, der opretholder identitets-konsistens på tværs af lange video-sekvenser.
Ved at fryse både den forudtrænede DiT og kontekst-encoderen, mens man introducerer en ID-Adapter, sikrer VideoPainter, at inpainting-områdes-tokens fra tidligere klip består på tværs af en video, reducerer flimren og inkonsistenser.
Rammen er også designet til plug-and-play-kompatibilitet, hvilket giver brugerne mulighed for at integrere den næsten uden problemer i eksisterende video-genererings- og redigerings-workflows.
For at støtte arbejdet, der bruger CogVideo-5B-I2V som sin generative motor, har forfatterne kurateret, hvad de påstår er den største video-inpainting-database hidtil. Kaldet VPData, består samlingen af mere end 390.000 klip, for en samlet video-varighed på mere end 886 timer. De har også udviklet en relateret benchmark-ramme kaldet VPBench.
Klik for at afspille. Fra projektets webstedseksempler ser vi segmenteringsfunktionerne, der drives af VPData-samlingen og VPBench-test-suiten. Venligst se kildevideoerne, hvis du kan få adgang til dem, for bedre opløsning og detaljer, eller se eksemplerne på projektets oversigtsvideo på https://www.youtube.com/watch?v=HYzNfsD3A0s
Det nye arbejde er kaldt VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control, og kommer fra syv forfattere på Tencent ARC Lab, The Chinese University of Hong Kong, The University of Tokyo og University of Macau.
Ud over det nævnte projektwebsted har forfatterne også udgivet en mere tilgængelig YouTube-oversigt, samt en Hugging Face-side.
Metode
Dataindsamlingssystemet til VPData består af indsamlings-, annoterings-, split-, udvalgs- og undertekstningsfase:

Schema for dataset-konstruktionsprocessen. Kilde: https://arxiv.org/pdf/2503.05639
Kilde-samlinger, der blev brugt til denne kompilation, kom fra Videvo og Pexels, med en initial høst på omkring 450.000 videoer.
Flere bidragende biblioteker og metoder bestod af forarbejdningstadiet: Recognize Anything-rammen blev brugt til at give åben-sæt-video-tagging, med opgaven at identificere primære objekter; Grounding Dino blev brugt til detektion af begrænsningsbokse omkring de identificerede objekter; og Segment Anything Model 2 (SAM 2)-rammen blev brugt til at raffinere disse grove valg til høj-kvalitets-maskesegmenteringer.
For at håndtere scene-skift og sikre konsistens i video-inpainting, bruger VideoPainter PySceneDetect til at identificere og segmentere klip på naturlige afbrydelser, undgående de disruptive skift, der ofte skyldes sporing af det samme objekt fra flere vinkler. Klipene blev inddelt i 10-sekunders-intervaller, med alt, der var kortere end seks sekunder, blevet kasseret.
Til dataudvalg blev tre filterkriterier anvendt: æstetisk kvalitet, vurderet med Laion-Aesthetic Score Predictor; bevægelsesstyrke, målt via optisk flow ved hjælp af RAFT; og indholdssikkerhed, verificeret gennem Stable Diffusions Safety Checker.
En stor begrænsning i eksisterende video-segmenterings-databaser er manglen på detaljerede tekstuelle annoteringer, der er afgørende for at guide generative modeller:

Forskerne fremhæver manglen på video-underskrifter i sammenlignelige samlinger.
Derfor inkorporerer VideoPainter-datakureringen diverse førende vision-sprog-modeller, herunder CogVLM2 og Chat GPT-4o til at generere nøgle-ramme-baserede undertekster og detaljerede beskrivelser af maskede områder.
VideoPainter forbedrer forudtrænede DiTs ved at introducere en brugerdefineret letvægts-kontekst-encoder, der adskiller baggrunds-kontekst-ekstraktion fra forgrunds-generation, set til øverste højre i den illustrative schema nedenfor:

Konceptuel schema for VideoPainter. VideoPainters kontekst-encoder behandler støjende latenter, nedsamplede masker og maskede video-latenter via VAE, integrerende kun baggrunds-tokens i den forudtrænede DiT for at undgå tvetydighed. ID Resample-adapteren sikrer identitets-konsistens ved at konkatenerer maskede områdes-tokens under træning og resample dem fra tidligere klip under inferens.
I stedet for at belaste baggrunden med redundant behandling, opererer denne encoder på en strømlinjeformet input: en kombination af støjende latent, maskede video-latent (ekstraheret via en variational autoencoder, eller VAE), og nedsamplede masker.
Den støjende latent giver generations-kontekst, og den maskede video-latent er i overensstemmelse med DiT’s eksisterende distribution, med målet at forbedre kompatibiliteten.
I stedet for at duplikere store dele af modellen, som forfatterne påstår er sket i tidligere arbejder, integrerer VideoPainter kun de første to lag af DiT. Disse ekstraherede funktioner reintroduceres i den frosne DiT på en struktureret, gruppevis måde – tidlige lags funktioner informerer den første halvdel af modellen, mens senere funktioner raffinerer den anden halvdel.
Derudover sikrer en token-selektiv mekanisme, at kun baggrunds-relevante funktioner genintegreres, og forhindrer forvirring mellem maskede og umaskede områder. Denne tilgang, som forfatterne påstår, giver VideoPainter mulighed for at opretholde høj trofasthed i baggrunds-bevarelse, mens forgrunds-inpainting-effektiviteten forbedres.
Forfatterne bemærker, at metoden de foreslår understøtter diverse stiliseringsmetoder, herunder den mest populære, Low Rank Adaptation (LoRA).
Data og tests
VideoPainter blev trænet ved hjælp af CogVideo-5B-I2V-modellen, sammen med dens tekst-til-video-ækvivalent. Den kuraterede VPData-samling blev brugt på 480x720px, med en læringsrate på 1×10-5.
ID Resample-adapteren blev trænet i 2.000 skridt, og kontekst-encoderen i 80.000 skridt, begge ved hjælp af AdamW-optimeringsalgoritmen. Træningen fandt sted i to faser ved hjælp af 64 NVIDIA V100-GPU’er (selv om artiklen ikke specificerer, om disse havde 16GB eller 32GB RAM).
Til benchmarking blev Davis brugt til tilfældige masker, og forfatternes eget VPBench til segmenterings-baserede masker.
VPBench-databasen indeholder objekter, dyr, mennesker, landskaber og diverse opgaver, og dækker fire handlinger: tilføj, fjern, ændr og byt. Samlingen indeholder 45 seks-sekunders-videoer og ni videoer, der varer i gennemsnit 30 sekunder.
Otte metrikker blev anvendt i processen. Til maskede områdes-bevarelse brugte forfatterne Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); Structural Similarity Index (SSIM); og Mean Absolute Error (MAE).
Til tekst-alignment brugte forskerne CLIP Similarity både til at evaluere semantisk afstand mellem klippets undertekst og dens faktiske indhold, og til at evaluere nøjagtighed af maskede områder.
For at evaluere den generelle kvalitet af output-videoerne blev Fréchet Video Distance (FVD) brugt.
Til en kvantitativ sammenligning af video-inpainting satte forfatterne deres system op mod tidligere tilgange ProPainter, COCOCO og Cog-Inp (CogVideoX). Testen bestod i at inpainte den første ramme af en klip ved hjælp af billed-inpainting-modeller, og derefter bruge en billed-til-video (I2V)-baggrund til at propagere resultaterne i en latent blend-operation, i overensstemmelse med en metode foreslået af en 2023-papir fra Israel.
Da projektwebstedet ikke er fuldt funktionsdygtigt på tidspunktet for skrivning, og da projektets associerede YouTube-video måske ikke viser hele eksempletsættet, der er fyldt ind i projektwebstedet, er det ret svært at finde video-eksempler, der er meget specifikke for resultaterne, der er beskrevet i papiret. Derfor vil vi vise delvise statiske resultater, der er fremhævet i papiret, og afslutte artiklen med nogle ekstra video-eksempler, som vi har kunnet udtrække fra projektwebstedet.

Kvantitativ sammenligning af VideoPainter vs. ProPainter, COCOCO og Cog-Inp på VPBench (segmenteringsmasker) og Davis (tilfældige masker). Metrikker dækker maskede områdes-bevarelse, tekst-alignment og video-kvalitet. Rød = bedst, Blå = anden bedst.
Af disse kvalitative resultater kommenterer forfatterne:
‘I segmenterings-baserede VPBench, viser ProPainter og COCOCO den dårligste præstation på tværs af de fleste metrikker, primært på grund af manglen på evne til at inpainte fuldt maskede objekter og den enkelt-baggrunds-arkitekturs vanskelighed ved at balancere baggrunds-bevarelse og forgrunds-generation, respektivt.
‘I den tilfældige mask-benchmark Davis viser ProPainter forbedring ved at udnytte delvis baggrunds-information. Men VideoPainter opnår optimal præstation på tværs af segmentering (standard og lang længde) og tilfældige masker gennem sin dual-branch-arkitektur, der effektivt adskiller baggrunds-bevarelse og forgrunds-generation.’
Forfatterne præsenterer derefter statiske eksempler på kvalitative tests, af hvilke vi viser en udvalgt samling nedenfor. I alle tilfælde henviser vi læseren til projektwebstedet og YouTube-videoen for bedre opløsning.

En sammenligning med inpainting-metoder i tidligere rammer.
Klik for at afspille. Eksempler samlet af os fra ‘resultater’-videoerne på projektwebstedet.
Med hensyn til denne kvalitative runde for video-inpainting kommenterer forfatterne:
‘VideoPainter viser konsekvent exceptionelle resultater i video-kohærens, kvalitet og alignment med tekst-undertekst. Notabelt, kan ProPainter ikke generere fuldt maskede objekter, da den kun afhænger af baggrunds-pixel-propagation i stedet for generation.
‘Selv om COCOCO demonstrerer grundlæggende funktionalitet, kan den ikke opretholde konstant ID i inpainted områder (inkonsistente fartøjers udseende og pludselige terrænændringer) på grund af sin enkelt-baggrunds-arkitektur, der forsøger at balancere baggrunds-bevarelse og forgrunds-generation.
‘Cog-Inp opnår grundlæggende inpainting-resultater; men dens blend-operation kan ikke detektere mask-grænser, hvilket fører til betydelige artefakter.
‘Desuden kan VideoPainter generere kohærente videoer, der overstiger en minut, mens den opretholder ID-konsistens gennem vores ID-resampling.’
Forskerne testede også VideoPainters evne til at forbedre undertekster og opnå forbedrede resultater med denne metode, hvor de satte systemet op mod UniEdit, DiTCtrl og ReVideo.

Video-redigeringsresultater mod tre tidligere tilgange.
Forfatterne kommenterer:
‘For både standard- og lange videoer i VPBench opnår VideoPainter overlegen præstation, selv om den overgår den end-to-end ReVideo. Denne succes kan tilskrives dens dual-branch-arkitektur, der sikrer fremragende baggrunds-bevarelse og forgrunds-generations-kapaciteter, mens den opretholder høj trofasthed i ikke-redigerede områder, mens redigerede områder nøje er i overensstemmelse med redigerings-instruktioner, suppleret med inpainting-områdes-ID-resampling, der opretholder ID-konsistens i lange videoer.’
Selv om papiret viser statiske kvalitative eksempler for denne metrik, er de ikke oplysende, og vi henviser læseren til de diverse eksempler, der er spredt over de forskellige videoer, der er offentliggjort for dette projekt.
Til sidst blev en menneske-studie gennemført, hvor 30 brugere blev bedt om at evaluere 50 tilfældigt valgte generationer fra VPBench- og redigerings-undergrupperne. Eksemplerne fremhævede baggrunds-bevarelse, alignment til prompt og generel video-kvalitet.

Resultater fra bruger-studiet for VideoPainter.
Forfatterne påstår:
‘VideoPainter overgår betydeligt eksisterende grundlinjer, opnående højere præferencerater på tværs af alle evaluering-kriterier i begge opgaver.’
De indrømmer dog, at kvaliteten af VideoPainters generationer afhænger af grundmodellen, der kan have svært ved komplekse bevægelser og fysik; og de observerer, at den også fungerer dårligt med lavkvalitets-masker eller misalignerede undertekster.
Konklusion
VideoPainter synes at være en værdig tilføjelse til litteraturen. Typisk for nyere løsninger har den dog betydelige beregningskrav. Desuden er mange af de eksempler, der er valgt til præsentation på projektwebstedet, langt fra de bedste eksempler; det ville derfor være interessant at se denne ramme sat op mod fremtidige indgange og en bredere række af tidligere tilgange.
* Det er værd at nævne, at ‘video-redigering’ i denne forstand ikke betyder ‘sammenføjning af diverse klip i en sekvens’, hvilket er den traditionelle betydning af denne term; men snarere direkte ændring eller på en eller anden måde modificering af det indre indhold af eksisterende video-klip, ved hjælp af maskinlærings-teknikker
Først offentliggjort mandag, 10. marts 2025












