Andersons hoek
De Weg naar Beter AI-Gebaseerde Video-Editing

Het onderzoeksgebied van video-/beeldsynthese produceert regelmatig video-edit-architecturen, en in de afgelopen negen maanden zijn dit soort uitgaven nog vaker geworden. Dat gezegd hebbende, vertegenwoordigen de meeste hiervan alleen maar incrementele verbeteringen ten opzichte van de stand van de techniek, omdat de kernuitdagingen aanzienlijk zijn.
Echter, een nieuwe samenwerking tussen China en Japan deze week heeft enkele voorbeelden opgeleverd die een nadere beschouwing van de benadering verdienen, zelfs als het geen baanbrekend werk is.
In de onderstaande video (van de projectsite van het paper, die – waarschuwing – uw browser mogelijk belast) zien we dat, hoewel de deepfaking-mogelijkheden van het systeem in de huidige configuratie niet bestaan, het systeem een goede job doet om de identiteit van de jonge vrouw in de afbeelding op een geloofwaardige en aanzienlijke manier te veranderen, op basis van een videomasker (onder-links):
Click to play. Gebaseerd op de semantische segmentatiemasker die in de linkeronderhoek zichtbaar is, wordt de oorspronkelijke (bovenste links) vrouw getransformeerd in een opvallend andere identiteit, zelfs als dit proces de identiteitsuitwisseling die in de prompt wordt aangegeven niet bereikt. Source: https://yxbian23.github.io/project/video-painter/ (wees zich ervan bewust dat de site op het moment van schrijven geneigd was om mijn browser te crashen). Raadpleeg de bronvideo’s, als u ze kunt openen, voor betere resolutie en detail, of bekijk de voorbeelden op de projectoverzichtsvideo op https://www.youtube.com/watch?v=HYzNfsD3A0s
Mask-gebaseerde editing van deze soort is goed gevestigd in statische latent diffusiemodellen, met behulp van tools zoals ControlNet. Echter, het behouden van achtergrondconsistentie in video is veel moeilijker, zelfs als gemaskeerde gebieden het model creatieve flexibiliteit bieden, zoals hieronder wordt getoond:
Click to play. Een verandering van soort, met de nieuwe VideoPainter-methode. Raadpleeg de bronvideo’s, als u ze kunt openen, voor betere resolutie en detail, of bekijk de voorbeelden op de projectoverzichtsvideo op https://www.youtube.com/watch?v=HYzNfsD3A0s
De auteurs van het nieuwe werk beschouwen hun methode in relatie tot Tencent’s eigen BrushNet-architectuur (die we vorig jaar hebben besproken), en tot ControlNet, die beiden een dubbele-branch-architectuur behandelen die in staat is om de voorgrond- en achtergrondgeneratie te isoleren.
Echter, het rechtstreeks toepassen van deze methode op de zeer productieve Diffusion Transformers (DiT)-benadering voorgesteld door OpenAI’s Sora, brengt bijzondere uitdagingen met zich mee, zoals de auteurs opmerken”
‘[Rechtstreeks] toepassen [de architectuur van BrushNet en ControlNet] op video DiTs levert verschillende uitdagingen op: [Ten eerste, gezien] Video DiT’s robuuste generatieve basis en zware modelgrootte, zou het repliceren van de volledige/half-giant Video DiT-backbone als context-encoder onnodig en computationeel prohibitief zijn.
‘[Ten tweede, in tegenstelling tot] BrushNet’s pure convolutionele controle-branch, bevatten DiT’s tokens in gemaskeerde gebieden inherent achtergrondinformatie vanwege globale aandacht, waardoor de onderscheiding tussen gemaskeerde en ongemaskeerde gebieden in DiT-backbones wordt gecompliceerd.
‘[Ten slotte,] ontbreekt het ControlNet aan functie-injectie over alle lagen, waardoor dichte achtergrondcontrole voor inpainting-taken wordt belemmerd.’
Daarom hebben de onderzoekers een plug-and-play-benadering ontwikkeld in de vorm van een dubbele-branch-framework met de naam VideoPainter.
VideoPainter biedt een dubbele-branch-video-inpainting-framework dat vooraf getrainde DiT’s versterkt met een lichtgewicht context-encoder. Deze encoder staat voor slechts 6% van de parameters van de backbone, wat de auteurs claimen dat het een efficiëntere benadering is dan conventionele methoden.
Het model stelt drie belangrijke innovaties voor: een gestroomlijnde twee-laags context-encoder voor efficiënte achtergrondbegeleiding; een masker-selectieve functie-integratiesysteem dat gemaskeerde en ongemaskeerde tokens scheidt; en een inpainting-regio-ID-hermonstertechniek die identiteitsconsistentie over lange videosequenties behoudt.
Door bevriezing van zowel de vooraf getrainde DiT als de context-encoder en het introduceren van een ID-Adapter, zorgt VideoPainter ervoor dat inpainting-regio-tokens van voorgaande clips persistent zijn gedurende een video, waardoor flickering en inconsistenties worden verminderd.
Het framework is ook ontworpen voor plug-and-play-compatibiliteit, waardoor gebruikers het naadloos kunnen integreren in bestaande video-generatie- en -edit-workflows.
Om het werk te ondersteunen, dat CogVideo-5B-I2V gebruikt als zijn generatieve engine, hebben de auteurs een dataset samengesteld die zij claimen de grootste video-inpainting-dataset tot nu toe is. Genoemd VPData, bestaat de collectie uit meer dan 390.000 clips, voor een totale videoduur van meer dan 886 uur. Zij hebben ook een gerelateerd benchmarking-framework genaamd VPBench ontwikkeld.
Click to play. Van de projectwebsitevoorbeelden zien we de segmentatiecapaciteiten die worden aangedreven door de VPData-collectie en de VPBench-testsuite. Raadpleeg de bronvideo’s, als u ze kunt openen, voor betere resolutie en detail, of bekijk de voorbeelden op de projectoverzichtsvideo op https://www.youtube.com/watch?v=HYzNfsD3A0s
Het nieuwe werk heet VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control, en komt van zeven auteurs bij de Tencent ARC Lab, The Chinese University of Hong Kong, The University of Tokyo, en de University of Macau.
Behalve de eerdergenoemde projectsite, hebben de auteurs ook een meer toegankelijke YouTube-overzicht en een Hugging Face-pagina uitgebracht.
Methode
De datapipeline voor VPData bestaat uit verzameling, annotatie, splitsing, selectie en onderschrift:

Schema voor de dataset-construction-pipeline. Source: https://arxiv.org/pdf/2503.05639
De broncollecties die voor deze compilatie werden gebruikt, kwamen van Videvo en Pexels, met een initiële oogst van ongeveer 450.000 video’s.
Meerdere bijdragende bibliotheken en methoden maakten deel uit van de voorverwerkingsfase: het Recognize Anything-framework werd gebruikt om open-set video-tagging te bieden, belast met het identificeren van primaire objecten; Grounding Dino werd gebruikt voor de detectie van begrenzingsvakken rond de geïdentificeerde objecten; en het Segment Anything Model 2 (SAM 2)-framework werd gebruikt om deze grove selecties te verfijnen tot hoge-kwaliteit maskersegmentaties.
Om scènetransities te beheren en consistentie in video-inpainting te garanderen, gebruikt VideoPainter PySceneDetect om clips te identificeren en te segmenteren bij natuurlijke breakpoints, waardoor de storende verschuivingen die vaak worden veroorzaakt door het volgen van hetzelfde object vanuit meerdere hoeken, worden vermeden. De clips werden verdeeld in 10-seconde-intervallen, met alles wat korter was dan zes seconden werd verworpen.
Voor dataselectie werden drie filtercriteria toegepast: esthetische kwaliteit, beoordeeld met de Laion-Aesthetic Score Predictor; bewegingssterkte, gemeten via optische stroom met behulp van RAFT; en inhoudsveiligheid, geverifieerd via Stable Diffusion’s Safety Checker.
Een belangrijke beperking in bestaande video-segmentatiedatasets is het ontbreken van gedetailleerde tekstuele annotaties, die essentieel zijn voor het geleiden van generatieve modellen:

De onderzoekers benadrukken het ontbreken van video-onderschriften in vergelijkbare collecties.
Daarom omvat het VideoPainter-dataverzamingsproces diverse toonaangevende visuele-taalmodellen, waaronder CogVLM2 en Chat GPT-4o om keyframe-gebaseerde onderschriften en gedetailleerde beschrijvingen van gemaskeerde gebieden te genereren.
VideoPainter versterkt vooraf getrainde DiT’s door een aangepaste lichtgewicht context-encoder te introduceren die achtergrondcontextextractie scheidt van voorgrondgeneratie, zichtbaar in de rechterbovenhoek van het illustratieve schema hieronder:

Conceptueel schema voor VideoPainter. VideoPainter’s context-encoder verwerkt ruislatents, gedownsamplede maskers en gemaskeerde videolatents via VAE, integrerend alleen achtergrondtokens in de vooraf getrainde DiT om ambiguïteit te vermijden. De ID Resample Adapter zorgt voor identiteitsconsistentie door gemaskeerde regio-tokens tijdens de training te concatenen en ze tijdens de inferentie uit voorgaande clips te hermonsterten.
In plaats van de backbone te belasten met redundante verwerking, werkt deze encoder op een gestroomlijnde invoer: een combinatie van ruislatent, gemaskeerde videolatent (geëxtraheerd via een variational autoencoder, of VAE) en gedownsamplede maskers.
De ruislatent biedt generatiecontext, en de gemaskeerde videolatent komt overeen met de bestaande DiT-distributie, met als doel de compatibiliteit te verbeteren.
In plaats van grote delen van het model te dupliceren, wat de auteurs stellen dat in eerdere werken is gebeurd, integreert VideoPainter alleen de eerste twee lagen van de DiT. Deze geëxtraheerde kenmerken worden op een gestructureerde, groepswijze manier terug in de bevroren DiT geïntroduceerd – vroege-laagkenmerken informeren de eerste helft van het model, terwijl latere kenmerken de tweede helft verfijnen.
Bovendien zorgt een token-selectief mechanisme ervoor dat alleen achtergrond-relevante kenmerken worden herïntegreerd, waardoor verwarring tussen gemaskeerde en ongemaskeerde gebieden wordt voorkomen. Deze benadering, stellen de auteurs, stelt VideoPainter in staat om hoge geloofwaardigheid in achtergrondbehoud te behouden, terwijl de efficiëntie van voorgrondinpainting wordt verbeterd.
De auteurs merken op dat de methode die zij voorstellen ondersteuning biedt voor diverse stijlmethode, waaronder de meest populaire, Low Rank Adaptation (LoRA).
Gegevens en Tests
VideoPainter werd getraind met behulp van het CogVideo-5B-I2V-model, samen met zijn tekst-naar-video-equivalent. De gecureerde VPData-corpus werd gebruikt op 480x720px, bij een leer tempo van 1×10-5.
De ID Resample Adapter werd getraind voor 2.000 stappen, en de context-encoder voor 80.000 stappen, beide met behulp van de AdamW-optimizer. De training vond plaats in twee fasen met behulp van 64 NVIDIA V100-GPU’s (hoewel het paper niet specificert of deze 16GB of 32GB VRAM hadden).
Voor benchmarking werd Davis gebruikt voor willekeurige maskers, en de auteurs eigen VPBench voor segmentatie-gebaseerde maskers.
De VPBench-dataset bevat objecten, dieren, mensen, landschappen en diverse taken, en dekt vier acties: add, remove, change, en swap. De collectie bevat 45 6-seconde-video’s, en negen video’s met een gemiddelde duur van 30 seconden.
Acht metrics werden gebruikt voor het proces. Voor Masked Region Preservation, gebruikten de auteurs Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); Structural Similarity Index (SSIM); en Mean Absolute Error (MAE).
Voor tekst-alignment, gebruikten de onderzoekers CLIP Similarity om zowel de semantische afstand tussen de clip’s onderschrift en zijn werkelijke inhoud te evalueren, als om de nauwkeurigheid van gemaskeerde gebieden te evalueren.
Om de algemene kwaliteit van de uitvoervideo’s te beoordelen, werd Fréchet Video Distance (FVD) gebruikt.
Voor een kwantitatieve vergelijking van video-inpainting, stelden de auteurs hun systeem tegenover eerdere benaderingen ProPainter, COCOCO en Cog-Inp (CogVideoX). De test bestond uit het inpainten van de eerste frame van een clip met behulp van image-inpainting-modellen, en vervolgens het gebruiken van een image-to-video (I2V)-backbone om de resultaten in een latent blend-operatie te propageren, in overeenstemming met een methode voorgesteld door een 2023-paper uit Israël.
Aangezien de projectwebsite niet geheel functioneel is op het moment van schrijven, en aangezien de projectgerelateerde YouTube-video mogelijk niet de gehele reeks voorbeelden bevat die in de projectsite zijn opgenomen, is het moeilijk om videoforbeelden te vinden die zeer specifiek zijn voor de resultaten die in het paper worden beschreven. Daarom zullen we gedeeltelijke statische resultaten tonen die in het paper worden gepresenteerd, en het artikel afsluiten met enkele extra videoforbeelden die we uit de projectsite hebben kunnen extraheren.

Kwantitatieve vergelijking van VideoPainter vs. ProPainter, COCOCO, en Cog-Inp op VPBench (segmentatie-maskers) en Davis (willekeurige maskers). Metrics omvatten gemaskeerde regio-behoud, tekst-alignment, en video-kwaliteit. Rood = best, Blauw = tweede beste.
Van deze kwalitatieve resultaten, merken de auteurs op:
‘In de segmentatie-gebaseerde VPBench, vertonen ProPainter en COCOCO de slechtste prestaties over de meeste metrics, voornamelijk vanwege de onmogelijkheid om volledig gemaskeerde objecten in te painten en de moeilijkheid van de enkele-backbone-architectuur om achtergrondbehoud en voorgrondgeneratie in evenwicht te brengen.
‘In de willekeurige masker-benchmark Davis, toont ProPainter verbetering door gedeeltelijke achtergrondinformatie te benutten. Echter, bereikt VideoPainter optimale prestaties over zowel segmentatie (standaard en lange lengte) als willekeurige maskers door zijn dubbele-branch-architectuur, die effectief achtergrondbehoud en voorgrondgeneratie ontkoppelt.’
De auteurs presenteren vervolgens statische voorbeelden van kwalitatieve tests, waarvan we een selectie hieronder tonen. In alle gevallen verwijzen wij de lezer naar de projectsite en de YouTube-video voor betere resolutie.

Een vergelijking met inpainting-methoden in eerdere kaders.
Click to play. Voorbeelden samengesteld door ons uit de ‘resultaten’-video’s op de projectsite.
Met betrekking tot deze kwalitatieve ronde voor video-inpainting, merken de auteurs op:
‘VideoPainter toont consequent uitzonderlijke resultaten in video-coherentie, kwaliteit en alignment met tekst-onderwerp. Opvallend faalt ProPainter om volledig gemaskeerde objecten te genereren omdat het alleen afhankelijk is van achtergrondpixelpropagatie in plaats van generatie.
‘Terwijl COCOCO basale functionaliteit demonstreert, faalt het om consistentie in ingepainte regio’s te behouden (inconsistentie in vaartuigverschijning en abrupte terreinveranderingen) vanwege zijn enkele-backbone-architectuur die achtergrondbehoud en voorgrondgeneratie probeert te balanceren.
‘Cog-Inp bereikt basale inpainting-resultaten; echter, de blending-operatie is niet in staat om maskergrenzen te detecteren, wat leidt tot significante artefacten.
‘Bovendien kan VideoPainter coherente video’s genereren die langer duren dan een minuut, terwijl identiteitsconsistentie wordt behouden door onze ID-resampling.’
De onderzoekers testten ook VideoPainter’s vermogen om onderschriften te verrijken en verbeterde resultaten te behalen met deze methode, waarbij het systeem werd vergeleken met UniEdit, DiTCtrl, en ReVideo.

Video-editing-resultaten tegen drie eerdere benaderingen.
De auteurs merken op:
‘Voor zowel standaard als lange video’s in VPBench, bereikt VideoPainter superieure prestaties, zelfs de eind-tot-eind ReVideo overtreffend. Dit succes kan worden toegeschreven aan zijn dubbele-branch-architectuur, die uitstekende achtergrondbehoud en voorgrondgeneratie-capaciteiten waarborgt, waardoor hoge geloofwaardigheid in niet-geëditte regio’s wordt behouden, terwijl geëditte regio’s nauw aansluiten bij de edit-instructies, aangevuld met inpainting-regio-ID-resampling die identiteitsconsistentie in lange video’s behoudt.’
Hoewel het paper statische kwalitatieve voorbeelden voor deze metric bevat, zijn deze niet verhelderend, en wij verwijzen de lezer naar de diverse voorbeelden die zijn verspreid over de verschillende video’s die voor dit project zijn gepubliceerd.
Ten slotte werd een menselijke studie uitgevoerd, waarbij dertig gebruikers werden gevraagd om 50 willekeurig geselecteerde generaties uit de VPBench- en edit-subsets te evalueren. De voorbeelden benadrukten achtergrondbehoud, alignment met prompt, en algemene video-kwaliteit.

Resultaten van de gebruikersstudie voor VideoPainter.
De auteurs stellen:
‘VideoPainter overtreft significant bestaande baselines, hogere voorkeurspercentages behalend over alle evaluatiecriteria in beide taken.’
Zij geven echter toe dat de kwaliteit van VideoPainter’s generaties afhankelijk is van het basismodel, dat kan worstelen met complexe beweging en fysica; en zij merken op dat het ook slecht presteert met lage-kwaliteit maskers of misgealignde onderschriften.
Conclusie
VideoPainter lijkt een waardevolle toevoeging aan de literatuur. Typisch voor recente oplossingen heeft het echter aanzienlijke rekenvereisten. Bovendien vallen veel van de voorbeelden die zijn geselecteerd voor presentatie op de projectsite verre van de beste voorbeelden; het zou daarom interessant zijn om dit framework te zien concurreren met toekomstige inzendingen en een bredere reeks eerdere benaderingen.
* Het is de moeite waard om te vermelden dat ‘video-editing’ in deze zin niet betekent ‘diverse clips assembleren in een sequentie’, wat de traditionele betekenis van deze term is; maar eerder rechtstreeks veranderingen aanbrengen of op de een of andere manier de interne inhoud van bestaande video-clips modificeren, met behulp van machine learning-technieken
Eerst gepubliceerd op maandag 10 maart 2025












