L'angolo di Anderson

La strada verso un migliore editing video basato sull'intelligenza artificiale

Pubblicato il 10 Marzo 2025

Martin Anderson

Immagini tratte dall'articolo 'VideoPainter: inserimento e modifica di video di qualsiasi lunghezza con controllo contestuale Plug-and-Play'.

Il settore della ricerca sulla sintesi di video/immagini produce regolarmente architetture di video-editing* e, negli ultimi nove mesi, uscite di questa natura sono diventate ancora più frequenti. Detto questo, la maggior parte di esse rappresenta solo progressi incrementali rispetto allo stato dell'arte, poiché le sfide principali sono sostanziali.

Tuttavia, una nuova collaborazione tra Cina e Giappone avvenuta questa settimana ha prodotto alcuni esempi che meritano un esame più approfondito dell'approccio, anche se non si tratta necessariamente di un lavoro di riferimento.

Nel videoclip qui sotto (dal sito del progetto associato al documento, che - attenzione - potrebbe mettere a dura prova il vostro browser) vediamo che, sebbene le capacità di deepfaking del sistema siano inesistenti nella configurazione attuale, il sistema fa un ottimo lavoro nell'alterare in modo plausibile e significativo l'identità della giovane donna nella foto, basandosi su una maschera video (in basso a sinistra):

Clicca per giocare. Sulla base della maschera di segmentazione semantica visualizzata in basso a sinistra, la donna originale (in alto a sinistra) viene trasformata in un'identità notevolmente diversa, anche se questo processo non realizza lo scambio di identità indicato nel prompt. Fonte: https://yxbian23.github.io/project/video-painter/ (tenete presente che al momento della stesura di questo articolo, questo sito con riproduzione automatica e pieno di video tendeva a bloccare il mio browser). Fate riferimento ai video originali, se potete accedervi, per una migliore risoluzione e maggiori dettagli, oppure date un'occhiata agli esempi nel video di presentazione del progetto all'indirizzo https://www.youtube.com/watch?v=HYzNfsD3A0s

L'editing basato su maschera di questo tipo è ben consolidato in statica modelli di diffusione latente, utilizzando strumenti come Rete di controlloTuttavia, mantenere la coerenza dello sfondo nel video è molto più impegnativo, anche quando le aree mascherate forniscono al modello flessibilità creativa, come mostrato di seguito:

Clicca per giocare. Un cambio di specie, con il nuovo metodo VideoPainter. Per una migliore risoluzione e maggiori dettagli, consultate i video originali, se disponibili, oppure date un'occhiata agli esempi nel video di presentazione del progetto all'indirizzo https://www.youtube.com/watch?v=HYzNfsD3A0s

Gli autori del nuovo lavoro considerano il loro metodo sia in relazione alla propria Tencent BrushNet architettura (che ne abbiamo parlato l'anno scorso) e ControlNet, entrambi basati su un'architettura a doppio ramo in grado di isolare la generazione in primo piano e in background.

Tuttavia, applicando questo metodo direttamente all'approccio dei trasformatori di diffusione (DiT) molto produttivo proposto di Sora di OpenAI, comporta sfide particolari, come notano gli autori”

"L'applicazione diretta dell'architettura di BrushNet e ControlNet ai DiT video presenta diverse sfide: in primo luogo, data la solida base generativa e le grandi dimensioni del modello Video DiT, replicare l'intera struttura portante del DiT Video DiT come codificatore di contesto sarebbe inutile e proibitivo dal punto di vista computazionale.

[In secondo luogo, a differenza] del ramo di controllo convoluzionale puro di BrushNet, i token di DiT nelle regioni mascherate contengono intrinsecamente informazioni di base dovute all'attenzione globale, complicando la distinzione tra regioni mascherate e non mascherate nelle dorsali DiT.

'[Infine,] ControlNet non dispone di funzionalità di iniezione su tutti i livelli, ostacolando il controllo di uno sfondo denso per le attività di inpainting.'

Pertanto i ricercatori hanno sviluppato un approccio plug-and-play sotto forma di un framework a doppio ramo denominato VideoPittore.

VideoPainter offre un framework di inpainting video a doppio ramo che potenzia i DiT pre-addestrati con un encoder di contesto leggero. Questo encoder rappresenta solo il 6% dei parametri del backbone, il che, secondo gli autori, rende l'approccio più efficiente rispetto ai metodi convenzionali.

Il modello propone tre innovazioni chiave: un codificatore di contesto semplificato a due livelli per una guida efficiente in background; un sistema di integrazione delle funzionalità selettivo della maschera che separa i token mascherati da quelli non mascherati; e una tecnica di ricampionamento dell'ID della regione di inpainting che mantiene la coerenza dell'identità attraverso lunghe sequenze video.

By congelamento Utilizzando sia il DiT pre-addestrato che il codificatore di contesto, introducendo al contempo un adattatore ID, VideoPainter garantisce che i token di regione di inpainting delle clip precedenti persistano in tutto il video, riducendo sfarfallio e incongruenze.

Il framework è inoltre progettato per la compatibilità plug-and-play, consentendo agli utenti di integrarlo perfettamente nei flussi di lavoro di generazione e modifica video esistenti.

Per sostenere il lavoro, che utilizza CogVideo-5B-I2V come motore generativo, gli autori hanno curato quello che affermano essere il più grande dataset di video inpainting fino ad oggi. Intitolato Dati VPP, la collezione è composta da oltre 390,000 clip, per una durata video totale di oltre 886 ore. Hanno anche sviluppato un framework di benchmarking correlato intitolato Banco VPP.

Clicca per giocare. Dagli esempi presenti sul sito web del progetto, possiamo osservare le capacità di segmentazione offerte dalla raccolta VPData e dalla suite di test VPBench. Per una migliore risoluzione e maggiori dettagli, si prega di fare riferimento ai video originali, se disponibili, oppure di dare un'occhiata agli esempi nel video di presentazione del progetto all'indirizzo https://www.youtube.com/watch?v=HYzNfsD3A0s.

. nuovo lavoro è intitolato VideoPainter: Inpainting e modifica di video di qualsiasi lunghezza con controllo contestuale Plug-and-Playe proviene da sette autori del Tencent ARC Lab, della Chinese University of Hong Kong, della University of Tokyo e della University of Macau.

Oltre al sito del progetto sopra menzionato, gli autori hanno anche rilasciato una versione più accessibile Panoramica di YouTube, come Pagina di Hugging Face.

Metodo

La pipeline di raccolta dati per VPData è composta da raccolta, annotazione, suddivisione, selezione e didascalia:

Schema per la pipeline di costruzione del dataset. Fonte: https://arxiv.org/pdf/2503.05639

Schema per la pipeline di costruzione del set di dati. Fonte: https://arxiv.org/pdf/2503.05639

Le raccolte di fonti utilizzate per questa compilazione provengono da Video e Pexels, con un bottino iniziale di circa 450,000 video ottenuti.

La fase di pre-elaborazione è stata composta da più librerie e metodi contributivi: Riconoscere qualsiasi cosa è stato utilizzato il framework per fornire il tagging video open-set, incaricato di identificare gli oggetti primari; Dino a terra è stato utilizzato per il rilevamento di riquadri di delimitazione attorno agli oggetti identificati; e il Segmentare qualsiasi cosa, modello 2 È stato utilizzato il framework (SAM 2) per perfezionare queste selezioni grossolane in segmentazioni di maschere di alta qualità.

Per gestire le transizioni di scena e garantire la coerenza nell'inpainting video, VideoPainter utilizza PySceneDetect per identificare e segmentare le clip in punti di interruzione naturali, evitando gli spostamenti dirompenti spesso causati dal tracciamento dello stesso oggetto da più angolazioni. Le clip sono state divise in intervalli di 10 secondi, con qualsiasi durata inferiore a sei secondi scartata.

Per la selezione dei dati sono stati applicati tre criteri di filtraggio: qualità estetica, valutato con il Predittore del punteggio estetico Laion; forza di movimento, misurato tramite flusso ottico utilizzando ZATTERA, E sicurezza dei contenuti, verificato tramite Stable Diffusion Controllo di sicurezza.

Una delle principali limitazioni degli attuali set di dati di segmentazione video è la mancanza di annotazioni testuali dettagliate, che sono fondamentali per guidare i modelli generativi:

I ricercatori sottolineano la mancanza di sottotitoli nei video in raccolte comparabili.

Pertanto il processo di cura dei dati di VideoPainter incorpora diversi modelli di linguaggio visivo leader, tra cui CogVLM2 e Chatta GPT-4o per generare didascalie basate sui fotogrammi chiave e descrizioni dettagliate delle regioni mascherate.

VideoPainter migliora i DiT pre-addestrati introducendo un codificatore di contesto leggero personalizzato che separa l'estrazione del contesto di sfondo dalla generazione di primo piano, visibile in alto a destra dello schema illustrativo seguente:

Schema concettuale per VideoPainter. Il codificatore di contesto di VideoPainter elabora latenti rumorose, maschere sottocampionate e latenti video mascherate tramite VAE, integrando solo token di background nel DiT pre-addestrato per evitare ambiguità. L'adattatore di ricampionamento ID garantisce la coerenza dell'identità concatenando i token delle regioni mascherate durante l'addestramento e ricampionandoli dalle clip precedenti durante l'inferenza.

Invece di appesantire la dorsale con elaborazioni ridondanti, questo codificatore opera su un input semplificato: una combinazione di latenza rumorosa, latenza video mascherata (estratta tramite un codificatore automatico variazionale, o VAE) e maschere sottocampionate.

La latenza rumorosa fornisce il contesto di generazione, mentre la latenza video mascherata si allinea alla distribuzione esistente del DiT, con l'obiettivo di migliorare la compatibilità.

Invece di duplicare ampie sezioni del modello, come gli autori affermano sia avvenuto in lavori precedenti, VideoPainter integra solo i primi due strati del DiT. Queste feature estratte vengono reintrodotte nel DiT congelato in modo strutturato e per gruppo: le feature del primo strato informano la metà iniziale del modello, mentre le feature successive perfezionano la seconda metà.

Inoltre, un meccanismo selettivo di token assicura che solo le caratteristiche rilevanti per lo sfondo siano reintegrate, impedendo la confusione tra regioni mascherate e non mascherate. Questo approccio, sostengono gli autori, consente a VideoPainter di mantenere un'elevata fedeltà nella conservazione dello sfondo migliorando al contempo l'efficienza dell'inpainting in primo piano.

Gli autori notano che il metodo da loro proposto supporta diversi metodi di stilizzazione, tra cui il più popolare, Adattamento di basso rango Italiano:

Dati e test

VideoPainter è stato addestrato utilizzando il modello CogVideo-5B-I2V, insieme al suo equivalente testo-video. Il corpus curato VPData è stato utilizzato a 480x720px, a tasso di apprendimento di 1 × 10^-5.

L'adattatore ID Resample è stato addestrato per 2,000 passaggi e il codificatore di contesto per 80,000 passaggi, entrambi utilizzando Adam W ottimizzatore. L'addestramento è avvenuto in due fasi utilizzando ben 64 GPU NVIDIA V100 (anche se il documento non specifica se queste avessero 16 GB o 32 GB di VRAM).

Per il benchmarking, Davis è stato utilizzato per le maschere casuali e il VPBench degli autori per le maschere basate sulla segmentazione.

Il set di dati VPBench comprende oggetti, animali, esseri umani, paesaggi e attività diverse e copre quattro azioni: aggiungere, rimuovere, il cambiamentoe swapLa raccolta comprende 45 video da 6 secondi e nove video della durata media di 30 secondi.

Per il processo sono state utilizzate otto metriche. Per la Masked Region Preservation, gli autori hanno utilizzato Rapporto segnale/rumore di picco (PSNR); Metriche di similarità percettiva apprese (LPIPS); Indice di similarità strutturale (SSIM); e Errore assoluto medio (MAE).

Per l'allineamento del testo, i ricercatori hanno utilizzato Somiglianza CLIP sia per valutare la distanza semantica tra la didascalia della clip e il suo contenuto effettivamente percepito, sia per valutare l'accuratezza delle regioni mascherate.

Per valutare la qualità generale dei video in uscita, Distanza video Fréchet è stato utilizzato (FVD).

Per un round di confronto quantitativo per l'inpainting video, gli autori hanno confrontato il loro sistema con approcci precedenti Professionista, COCOCO e Cog-Inp (CogVideoX). Il test consisteva nell'inpainting del primo fotogramma di una clip utilizzando modelli di inpainting di immagini, e quindi utilizzando un backbone immagine-video (I2V) per propagare i risultati in un'operazione di fusione latente, in accordo con un metodo proposto da un carta 2023 da Israele.

Poiché il sito web del progetto non è completamente funzionante al momento della stesura di questo articolo e poiché il video YouTube associato al progetto potrebbe non includere tutti gli esempi presenti sul sito, è piuttosto difficile trovare esempi video che siano molto specifici per i risultati descritti nel documento. Pertanto, mostreremo risultati statici parziali presentati nel documento e concluderemo l'articolo con alcuni esempi video aggiuntivi che siamo riusciti a estrarre dal sito del progetto.

Confronto quantitativo di VideoPainter vs. ProPainter, COCOCO e Cog-Inp su VPBench (maschere di segmentazione) e Davis (maschere casuali). Le metriche riguardano la conservazione della regione mascherata, l'allineamento del testo e la qualità video. Rosso = migliore, Blu = secondo migliore.

Di questi risultati qualitativi, gli autori commentano:

Nel VPBench basato sulla segmentazione, ProPainter e COCOCO mostrano le peggiori prestazioni nella maggior parte delle metriche, principalmente a causa dell'impossibilità di ridipingere oggetti completamente mascherati e della difficoltà dell'architettura single-backbone nel bilanciare rispettivamente la conservazione dello sfondo e la generazione del primo piano.

Nel benchmark Davis con maschera casuale, ProPainter mostra miglioramenti sfruttando informazioni parziali di background. Tuttavia, VideoPainter raggiunge prestazioni ottimali su segmentazione (standard e lunga lunghezza) e maschere casuali grazie alla sua architettura a doppio ramo che separa efficacemente la conservazione dello sfondo dalla generazione di foreground.

Gli autori presentano poi esempi statici di test qualitativi, di cui presentiamo una selezione di seguito. In tutti i casi rimandiamo il lettore al sito del progetto e al video di YouTube per una migliore risoluzione.

Un confronto con i metodi di ritocco pittorico utilizzati nei framework precedenti.

Clicca per giocare. Esempi da noi concatenati dai video dei "risultati" presenti sul sito del progetto.

Riguardo a questo ciclo qualitativo di video-pittura, gli autori commentano:

'VideoPainter mostra costantemente risultati eccezionali nella coerenza video, nella qualità e nell'allineamento con la didascalia del testo. In particolare, ProPainter non riesce a generare oggetti completamente mascherati perché dipende solo dalla propagazione dei pixel di sfondo invece di generare.

"Sebbene COCOCO dimostri funzionalità di base, non riesce a mantenere un'identificazione coerente nelle regioni dipinte (aspetto incoerente delle navi e bruschi cambiamenti del terreno) a causa della sua architettura a spina dorsale singola che tenta di bilanciare la conservazione dello sfondo e la generazione del primo piano.

'Cog-Inp ottiene risultati di ritocco di base; tuttavia, l'incapacità della sua operazione di fusione di rilevare i confini della maschera porta ad artefatti significativi.

'Inoltre, VideoPainter è in grado di generare video coerenti di durata superiore a un minuto, mantenendo la coerenza degli ID attraverso il nostro ricampionamento degli ID.'

I ricercatori hanno inoltre testato la capacità di VideoPainter di aumentare le didascalie e ottenere risultati migliori con questo metodo, mettendo il sistema contro Modifica Uni, Controllo di Ctrle Ri-video.

Risultati del montaggio video confrontati con tre approcci precedenti.

Gli autori commentano:

"Sia per i video standard che per quelli lunghi in VPBench, VideoPainter raggiunge prestazioni superiori, superando persino ReVideo end-to-end. Questo successo è attribuibile alla sua architettura a doppio ramo, che garantisce eccellenti capacità di conservazione dello sfondo e di generazione del primo piano, mantenendo un'elevata fedeltà nelle aree non modificate e assicurando che le aree modificate siano strettamente allineate alle istruzioni di editing, il tutto completato dal ricampionamento degli ID delle aree di inpainting che mantiene la coerenza degli ID nei video lunghi."

Sebbene il documento contenga esempi qualitativi statici per questa metrica, essi non sono illuminanti e rimandiamo piuttosto il lettore ai diversi esempi distribuiti nei vari video pubblicati per questo progetto.

Infine, è stato condotto uno studio umano, in cui è stato chiesto a trenta utenti di valutare 50 generazioni selezionate casualmente da VPBench e sottoinsiemi di editing. Gli esempi hanno evidenziato la conservazione dello sfondo, l'allineamento al prompt e la qualità video generale.

Risultati dello studio condotto dagli utenti su VideoPainter.

Gli autori affermano:

'VideoPainter ha superato significativamente i valori di riferimento esistenti, ottenendo tassi di preferenza più elevati in tutti i criteri di valutazione in entrambi i compiti.'

Ammettono, tuttavia, che la qualità delle generazioni di VideoPainter dipende dal modello base, che può avere difficoltà con movimenti e fisica complessi; e osservano che ha anche prestazioni scadenti con maschere di bassa qualità o didascalie non allineate.

Conclusione

VideoPainter sembra un'aggiunta degna di nota alla letteratura. Tipico delle soluzioni recenti, tuttavia, ha notevoli richieste di elaborazione. Inoltre, molti degli esempi scelti per la presentazione sul sito del progetto sono molto lontani dagli esempi migliori; sarebbe quindi interessante vedere questo framework messo a confronto con voci future e una gamma più ampia di approcci precedenti.

* Vale la pena ricordare che "video-editing" in questo senso non significa "assemblare diverse clip in una sequenza", che è il significato tradizionale di questo termine; ma piuttosto cambiare direttamente o in qualche modo modificare il contenuto interno di videoclip esistenti, utilizzando tecniche di apprendimento automatico.

Prima pubblicazione lunedì 10 marzo 2025

Argomenti correlati:Video AI Creazione di video AI

Avanti il prossimo

Da Evo 1 a Evo 2: come NVIDIA sta ridefinendo la ricerca genomica e le innovazioni biologiche basate sull'intelligenza artificiale

Da non perdere

I modelli di intelligenza artificiale stanno diventando delle commodity?

Martin Anderson

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai

Unite.AI

La strada verso un migliore editing video basato sull'intelligenza artificiale

Metodo

Dati e test

Conclusione

Ti potrebbe piacere