Anderson's hoek

De weg naar betere AI-gebaseerde videobewerking

gepubliceerd 10 maart 2025

Martin Anderson

Afbeeldingen uit het artikel 'VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control'.

De video-/beeldsyntheseonderzoekssector levert regelmatig videobewerkings*-architecturen af en de afgelopen negen maanden zijn dit soort uitstapjes nog frequenter geworden. Dat gezegd hebbende, vertegenwoordigen de meeste ervan slechts incrementele vooruitgang op het gebied van de stand van de techniek, aangezien de kernuitdagingen substantieel zijn.

Toch heeft een nieuwe samenwerking tussen China en Japan deze week een aantal voorbeelden opgeleverd die een nadere beschouwing van de aanpak waard zijn, ook al is het niet per se een mijlpaal.

In de onderstaande videoclip (van de projectsite van het artikel, die – wees gewaarschuwd – uw browser zwaar kan belasten) zien we dat hoewel de deepfaking-mogelijkheden van het systeem in de huidige configuratie niet bestaan, het systeem er prima in slaagt om de identiteit van de jonge vrouw op de foto op geloofwaardige en significante wijze te veranderen, op basis van een videomasker (linksonder):

Klik om te spelen. Op basis van het semantische segmentatiemasker dat linksonder is gevisualiseerd, wordt de oorspronkelijke vrouw (linksboven) getransformeerd tot een duidelijk andere identiteit, ook al leidt dit proces niet tot de in de prompt aangegeven identiteitswisseling. Bron: https://yxbian23.github.io/project/video-painter/ (Houd er rekening mee dat deze website vol automatisch afspelende video's op het moment van schrijven mijn browser deed crashen.) Raadpleeg de bronvideo's, indien beschikbaar, voor een betere resolutie en meer details. U kunt ook de voorbeelden bekijken in de overzichtsvideo van het project op https://www.youtube.com/watch?v=HYzNfsD3A0s

Maskergebaseerde bewerking van dit soort is goed ingeburgerd in statische latente diffusiemodellen, met behulp van tools zoals ControleNetHet behouden van achtergrondconsistentie in video is echter een veel grotere uitdaging, zelfs wanneer gemaskeerde gebieden het model creatieve flexibiliteit bieden, zoals hieronder wordt weergegeven:

Klik om te spelen. Een verandering van soort, met de nieuwe VideoPainter-methode. Raadpleeg de bronvideo's, indien beschikbaar, voor een betere resolutie en meer details, of bekijk de voorbeelden in de overzichtsvideo van het project op https://www.youtube.com/watch?v=HYzNfsD3A0s

De auteurs van het nieuwe werk beschouwen hun methode in relatie tot Tencent's eigen BorstelNet architectuur (die we hebben vorig jaar behandeld) en ControlNet, die beide werken met een architectuur met twee takken, die de generatie op de voorgrond en op de achtergrond kan isoleren.

Het is echter een goed idee om deze methode direct toe te passen op de zeer productieve Diffusion Transformers (DiT)-aanpak. voorgestelde door Sora van OpenAI, brengt specifieke uitdagingen met zich mee, zoals de auteurs opmerken”

'[De architectuur van BrushNet en ControlNet] rechtstreeks toepassen op video DiT's brengt verschillende uitdagingen met zich mee: [Ten eerste, gezien] de robuuste generatieve basis van Video DiT en de grote modelgrootte, zou het repliceren van de volledige/half-reuzen Video DiT-backbone als context-encoder onnodig en rekenkundig belemmerend zijn.

'[Ten tweede, in tegenstelling tot] BrushNet's zuivere convolutionele controletak, bevatten DiT's tokens in gemaskeerde regio's inherent achtergrondinformatie vanwege de wereldwijde aandacht, wat het onderscheid tussen gemaskeerde en ongemaskeerde regio's in DiT-backbones compliceert.

'[Tenslotte] mist ControlNet functie-injectie op alle lagen, waardoor dichte achtergrondcontrole voor inpainting-taken wordt belemmerd.'

Daarom hebben de onderzoekers een plug-and-play-benadering ontwikkeld in de vorm van een raamwerk met twee takken, getiteld Videoschilder.

VideoPainter biedt een dual-branch video-inpainting-framework dat vooraf getrainde DiT's verrijkt met een lichtgewicht contextencoder. Deze encoder is goed voor slechts 6% van de parameters van de backbone, wat de aanpak volgens de auteurs efficiënter maakt dan conventionele methoden.

Het model stelt drie belangrijke innovaties voor: een gestroomlijnde contextencoder met twee lagen voor efficiënte achtergrondbegeleiding; een maskerselectief functie-integratiesysteem dat gemaskeerde en ongemaskeerde tokens scheidt; en een resamplingtechniek voor inpainting-regio-ID's die de identiteitsconsistentie over lange videosequenties heen behoudt.

By bevriezing VideoPainter combineert zowel de vooraf getrainde DiT als de context-encoder en introduceert een ID-adapter. VideoPainter zorgt ervoor dat de inpainting-regiotokens van eerdere clips in een video behouden blijven, waardoor flikkeringen en inconsistenties worden verminderd.

Het framework is bovendien ontworpen voor plug-and-play-compatibiliteit, waardoor gebruikers het naadloos kunnen integreren in bestaande workflows voor het genereren en bewerken van video.

Ter ondersteuning van het werk dat gebruik maakt van CogVideo-5B-I2V als generatieve motor hebben de auteurs wat zij noemen de grootste video-inpainting-dataset tot nu toe samengesteld. Getiteld VPData, de collectie bestaat uit meer dan 390,000 clips, voor een totale videoduur van meer dan 886 uur. Ze ontwikkelden ook een gerelateerd benchmarking-framework met de titel VPBench.

Klik om te spelen. Uit de voorbeelden op de projectwebsite blijkt dat de segmentatiemogelijkheden van de VPData-collectie en de VPBench-testsuite optimaal zijn. Raadpleeg de bronvideo's, indien beschikbaar, voor een betere resolutie en meer details. U kunt ook de voorbeelden bekijken in de overzichtsvideo van het project op https://www.youtube.com/watch?v=HYzNfsD3A0s

Ocuco's Medewerkers nieuw werk is getiteld VideoPainter: video-inpainting en -bewerking van elke lengte met plug-and-play contextcontroleen is afkomstig van zeven auteurs van het Tencent ARC Lab, de Chinese Universiteit van Hongkong, de Universiteit van Tokio en de Universiteit van Macau.

Naast de eerder genoemde projectsite hebben de auteurs ook een toegankelijker YouTube-overzicht, ook een Knuffelen Gezicht pagina.

Methode

De gegevensverzamelingspijplijn voor VPData bestaat uit verzamelen, annoteren, splitsen, selecteren en bijschriften toevoegen:

Schema voor de datasetconstructiepijplijn. Bron: https://arxiv.org/pdf/2503.05639

Schema voor de pijplijn voor de constructie van de dataset. Bron: https://arxiv.org/pdf/2503.05639

De broncollecties die voor deze compilatie zijn gebruikt, zijn afkomstig van Videvo en Pexels, met een initiële opbrengst van ongeveer 450,000 verkregen video's.

Meerdere bijdragende bibliotheken en methoden vormden de pre-processing fase: de Herken alles raamwerk werd gebruikt om open-set video tagging te bieden, met als taak het identificeren van primaire objecten; Aarding Dino werd gebruikt voor het detecteren van begrenzende kaders rond de geïdentificeerde objecten; en de Segmenteer alles Model 2 (SAM 2)-framework werd gebruikt om deze grove selecties te verfijnen tot hoogwaardige maskersegmentaties.

Om scèneovergangen te beheren en consistentie in video-inpainting te garanderen, gebruikt VideoPainter PySceneDetect om clips te identificeren en segmenteren op natuurlijke breekpunten, om de verstorende verschuivingen te vermijden die vaak worden veroorzaakt door het volgen van hetzelfde object vanuit meerdere hoeken. De clips werden verdeeld in intervallen van 10 seconden, waarbij alles korter dan zes seconden werd weggelaten.

Voor de gegevensselectie werden drie filtercriteria toegepast: esthetische kwaliteit, beoordeeld met de Laion-esthetische scorevoorspeller; bewegingssterkte, gemeten via optische stroming gebruik VLOTund inhoudsveiligheid, geverifieerd via Stable Diffusion's Veiligheidscontroleur.

Een belangrijke beperking van bestaande datasets voor videosegmentatie is het ontbreken van gedetailleerde tekstuele aantekeningen, die cruciaal zijn voor het sturen van generatieve modellen:

De onderzoekers benadrukken het ontbreken van video-ondertiteling in vergelijkbare collecties.

Daarom omvat het VideoPainter-datacuratieproces diverse toonaangevende visie-taalmodellen, waaronder TandwielVLM2 en Chat GPT-4o om op sleutelframes gebaseerde bijschriften en gedetailleerde beschrijvingen van gemaskeerde gebieden te genereren.

VideoPainter verbetert vooraf getrainde DiTs door een aangepaste lichtgewicht contextencoder te introduceren die de extractie van achtergrondcontext scheidt van de generatie van voorgrondcontext, zoals u rechtsboven in het onderstaande illustratieve schema kunt zien:

Conceptueel schema voor VideoPainter. De context-encoder van VideoPainter verwerkt ruisende latenten, downsampled masks en gemaskeerde videolatenten via VAE, waarbij alleen achtergrondtokens in de vooraf getrainde DiT worden geïntegreerd om dubbelzinnigheid te voorkomen. De ID Resample Adapter zorgt voor identiteitsconsistentie door gemaskeerde regiotokens tijdens de training te concatenaten en ze tijdens de inferentie opnieuw te samplen uit eerdere clips.

Conceptueel schema voor VideoPainter. De contextencoder van VideoPainter verwerkt ruisende latenten, gedownsampelde maskers en gemaskeerde videolatenten via VAE en integreert alleen achtergrondtokens in de vooraf getrainde DiT om dubbelzinnigheid te voorkomen. De ID Resample Adapter zorgt voor identiteitsconsistentie door gemaskeerde regiotokens tijdens de training te concatenaten en ze tijdens de inferentie opnieuw te samplen uit eerdere clips.

In plaats van de backbone te belasten met redundante verwerking, werkt deze encoder op een gestroomlijnde invoer: een combinatie van ruisige latente, gemaskeerde video latente (geëxtraheerd via een Variabele auto-encoder, of VAE) en gedownsampelde maskers.

De ruisende latent biedt generatiecontext en de gemaskeerde videolatent sluit aan bij de bestaande distributie van DiT, met als doel de compatibiliteit te verbeteren.

In plaats van grote delen van het model te dupliceren, wat volgens de auteurs in eerdere werken is gebeurd, integreert VideoPainter alleen de eerste twee lagen van de DiT. Deze geëxtraheerde kenmerken worden opnieuw geïntroduceerd in de bevroren DiT op een gestructureerde, groepsgewijze manier - kenmerken van de vroege laag informeren de eerste helft van het model, terwijl latere kenmerken de tweede helft verfijnen.

Bovendien zorgt een token-selectief mechanisme ervoor dat alleen achtergrondrelevante kenmerken opnieuw worden geïntegreerd, waardoor verwarring tussen gemaskeerde en ongemaskeerde regio's wordt voorkomen. Deze aanpak, zo beweren de auteurs, stelt VideoPainter in staat om een hoge getrouwheid in achtergrondbehoud te behouden en tegelijkertijd de efficiëntie van voorgrondinpainting te verbeteren.

De auteurs merken op dat de methode die zij voorstellen diverse stileringsmethoden ondersteunt, waaronder de meest populaire, Aanpassing van lage rang (LoRA-bestand).

Gegevens en testen

VideoPainter werd getraind met behulp van het CogVideo-5B-I2V-model, samen met het equivalent van tekst naar video. Het samengestelde VPData-corpus werd gebruikt op 480x720px, op een leersnelheid van 1 x 10^-5.

De ID Resample Adapter werd getraind voor 2,000 stappen en de context encoder voor 80,000 stappen, beide met behulp van de Adam W optimizer. De training vond plaats in twee fasen met behulp van een formidabele 64 NVIDIA V100 GPU's (hoewel het artikel niet specificeert of deze 16 GB of 32 GB VRAM hadden).

Voor benchmarking, Davis werd gebruikt voor willekeurige maskers en de eigen VPBench van de auteurs voor op segmentatie gebaseerde maskers.

De VPBench-dataset bevat objecten, dieren, mensen, landschappen en diverse taken en bestrijkt vier acties: toevoegen, verwijderen, veranderingen ruilenDe collectie bevat 45 video's van 6 seconden en negen video's die gemiddeld 30 seconden duren.

Er werden acht metrieken gebruikt voor het proces. Voor Masked Region Preservation gebruikten de auteurs Maximale signaal-ruisverhouding (PSNR); Geleerde perceptuele gelijkenismetrieken (LPIPS); Structurele gelijkenisindex (SSIM); en Gemiddelde absolute fout (MAE).

Voor de tekstuitlijning gebruikten de onderzoekers CLIP-gelijkenis zowel om de semantische afstand tussen het onderschrift van de clip en de daadwerkelijk waargenomen inhoud te evalueren, als om de nauwkeurigheid van gemaskeerde gebieden te evalueren.

Om de algemene kwaliteit van de outputvideo's te beoordelen, Fréchet Video Afstand (FVD) werd gebruikt.

Voor een kwantitatieve vergelijkingsronde voor video-inpainting hebben de auteurs hun systeem vergeleken met eerdere benaderingen ProPainter, CoCoCo en Cog-Inp (CogVideoX). De test bestond uit het inkleuren van het eerste frame van een clip met behulp van image inpainting-modellen, en vervolgens het gebruik van een image-to-video (I2V)-backbone om de resultaten te propageren in een latente blend-bewerking, in overeenstemming met een methode voorgesteld door een 2023 papier uit Israël.

Omdat de projectwebsite op het moment van schrijven nog niet volledig functioneel is en de bijbehorende YouTube-video mogelijk niet alle voorbeelden op de projectwebsite bevat, is het vrij lastig om videovoorbeelden te vinden die zeer specifiek zijn voor de resultaten die in het artikel worden beschreven. Daarom tonen we gedeeltelijk statische resultaten die in het artikel worden genoemd en sluiten we het artikel af met enkele aanvullende videovoorbeelden die we van de projectwebsite hebben kunnen halen.

Kwantitatieve vergelijking van VideoPainter vs. ProPainter, COCOCO en Cog-Inp op VPBench (segmentatiemaskers) en Davis (willekeurige maskers). Metrieken omvatten behoud van gemaskeerde regio's, tekstuitlijning en videokwaliteit. Rood = beste, blauw = op één na beste.

Over deze kwalitatieve resultaten merken de auteurs het volgende op:

'In de op segmentatie gebaseerde VPBench vertonen ProPainter en COCOCO de slechtste prestaties op de meeste meetpunten, voornamelijk vanwege het onvermogen om volledig gemaskeerde objecten in te kleuren en de moeite die de single-backbone-architectuur heeft om respectievelijk de concurrerende achtergrondbehoud- en voorgrondgeneratie in evenwicht te brengen.

'In de benchmark voor willekeurige maskers, Davis, laat ProPainter verbetering zien door gebruik te maken van gedeeltelijke achtergrondinformatie. VideoPainter behaalt echter optimale prestaties op het gebied van segmentatie (standaard en lange lengte) en willekeurige maskers dankzij de dual-branch-architectuur die achtergrondbehoud en voorgrondgeneratie effectief ontkoppelt.'

De auteurs presenteren vervolgens statische voorbeelden van kwalitatieve tests, waarvan we hieronder een selectie presenteren. In alle gevallen verwijzen we de lezer naar de projectsite en YouTube-video voor een betere resolutie.

Een vergelijking met inpainting-methoden in eerdere frameworks.

Klik om te spelen. Door ons aaneengeschakelde voorbeelden uit de 'resultaten'-video's op de projectsite.

Met betrekking tot deze kwalitatieve ronde voor video-inpainting merken de auteurs het volgende op:

'VideoPainter laat consequent uitzonderlijke resultaten zien in de videocoherentie, kwaliteit en uitlijning met tekstbijschrift. ProPainter slaagt er met name niet in om volledig gemaskeerde objecten te genereren omdat het alleen afhankelijk is van achtergrondpixelpropagatie in plaats van genereren.

'COCOCO vertoont weliswaar basisfunctionaliteit, maar slaagt er niet in om een consistente ID te behouden in de ingekleurde gebieden (inconsistente vaartuiguitstraling en abrupte veranderingen in het terrein) vanwege de enkelvoudige backbone-architectuur die probeert een evenwicht te vinden tussen het behoud van de achtergrond en het genereren van de voorgrond.

'Cog-Inp bereikt basale inpaintingresultaten, maar het onvermogen van de blending-bewerking om maskergrenzen te detecteren, leidt tot aanzienlijke artefacten.

Bovendien kan VideoPainter samenhangende video's van meer dan een minuut genereren, waarbij de ID-consistentie behouden blijft dankzij onze ID-resampling.'

De onderzoekers testten bovendien het vermogen van VideoPainter om ondertitels te verbeteren en via deze methode betere resultaten te verkrijgen, waarbij ze het systeem tegenover elkaar stelden. UniEdit, DiTCtrlen OpnieuwVideo.

Resultaten van videobewerking vergeleken met drie eerdere benaderingen.

De auteurs geven commentaar:

'Voor zowel standaard- als lange video's in VPBench levert VideoPainter superieure prestaties, en overtreft zelfs de end-to-end ReVideo. Dit succes is te danken aan de dual-branch architectuur, die zorgt voor uitstekende achtergrondbehoud en voorgrondgeneratie, waardoor de hoge getrouwheid in niet-bewerkte regio's behouden blijft en bewerkte regio's nauw aansluiten op de bewerkingsinstructies. Dit wordt aangevuld met resampling van de inpainting-regio-ID, waardoor de ID-consistentie in lange video's behouden blijft.'

Hoewel het artikel statische kwalitatieve voorbeelden voor deze metriek bevat, zijn deze niet verhelderend. In plaats daarvan verwijzen we de lezer naar de diverse voorbeelden die verspreid zijn over de verschillende video's die voor dit project zijn gepubliceerd.

Ten slotte werd een menselijke studie uitgevoerd, waarbij dertig gebruikers werd gevraagd om 50 willekeurig geselecteerde generaties uit de VPBench en bewerkingssubsets te evalueren. De voorbeelden benadrukten achtergrondbehoud, uitlijning met prompt en algemene videokwaliteit.

Resultaten van het gebruikersonderzoek voor VideoPainter.

De auteurs stellen:

'VideoPainter presteerde aanzienlijk beter dan bestaande basislijnen en behaalde hogere voorkeurspercentages voor alle evaluatiecriteria in beide taken.'

Ze geven echter toe dat de kwaliteit van de generaties van VideoPainter afhankelijk is van het basismodel, dat moeite kan hebben met complexe bewegingen en natuurkunde. Ook merken ze op dat het basismodel slecht presteert met maskers van lage kwaliteit of verkeerd uitgelijnde ondertitels.

Conclusie

VideoPainter lijkt een waardevolle toevoeging aan de literatuur. Typisch voor recente oplossingen, maar het stelt aanzienlijke rekeneisen. Bovendien schieten veel van de voorbeelden die zijn gekozen voor presentatie op de projectsite ver tekort ten opzichte van de beste voorbeelden; het zou daarom interessant zijn om dit framework te vergelijken met toekomstige inzendingen en een breder scala aan eerdere benaderingen.

* Het is de moeite waard om te vermelden dat 'videobewerking' in deze zin niet betekent 'het samenstellen van diverse clips tot een reeks', wat de traditionele betekenis van deze term is; maar eerder het direct veranderen of op een of andere manier aanpassen van de interne inhoud van bestaande videoclips, met behulp van machine learning-technieken.

Eerste publicatie maandag 10 maart 2025

Gerelateerde onderwerpen:AI-video AI-videocreatie

Van Evo 1 naar Evo 2: hoe NVIDIA genomisch onderzoek en AI-gestuurde biologische innovaties opnieuw definieert

Mis het niet

Worden AI-modellen een gemeengoed?

Martin Anderson

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai

Verenig.AI

De weg naar betere AI-gebaseerde videobewerking

Methode

Gegevens en testen

Conclusie

Misschien vind je het leuk