Intelligenza Artificiale
Rimozione di oggetti dai video in modo più efficiente con l'apprendimento automatico

Una nuova ricerca dalla Cina riporta risultati all'avanguardia, oltre a un notevole miglioramento dell'efficienza, per un nuovo sistema di video inpainting in grado di rimuovere abilmente oggetti dal filmato.

L'imbracatura di un deltaplano viene verniciata con la nuova procedura. Guarda il video originale per una migliore risoluzione e altri esempi. Fonte: https://www.youtube.com/watch?v=N–qC3T2wc4
La tecnica, chiamata framework End-to-End per l'Inpainting video guidato dal flusso (E2FGVI), è anche in grado di rimuovere filigrane e vari altri tipi di occlusione dai contenuti video.

E2FGVI calcola le previsioni per i contenuti che si trovano dietro le occlusioni, consentendo la rimozione anche di filigrane notevoli e altrimenti intrattabili. Fonte: https://github.com/MCG-NKU/E2FGVI
(Per vedere altri esempi in una risoluzione migliore, dai un'occhiata a il video)
Sebbene il modello descritto nell'articolo pubblicato sia stato addestrato su video di 432 x 240 pixel (di solito dimensioni di input basse, vincolate dallo spazio GPU disponibile rispetto a dimensioni batch ottimali e altri fattori), da allora gli autori hanno rilasciato E2FGVI-QG, che può gestire i video con una risoluzione arbitraria.
Il codice per la versione corrente è disponibile su GitHub, mentre la versione HQ, rilasciata domenica scorsa, può essere scaricata da Google drive e Disco Baidu.

Il ragazzo rimane nella foto.
E2FGVI è in grado di elaborare video 432 × 240 a 0.12 secondi per fotogramma su una GPU Titan XP (12 GB di VRAM) e gli autori riferiscono che il sistema funziona quindici volte più velocemente rispetto ai precedenti metodi all'avanguardia basati su flusso ottico.

Un giocatore di tennis fa un'uscita inaspettata.
Testato su set di dati standard per questo sottosettore della ricerca sulla sintesi delle immagini, il nuovo metodo è stato in grado di superare i rivali nei cicli di valutazione sia qualitativa che quantitativa.

Test contro approcci precedenti. Fonte: https://arxiv.org/pdf/2204.02663.pdf
. carta è intitolato Verso un framework end-to-end per l'inpainting video guidato dal flusso, ed è una collaborazione tra quattro ricercatori della Nankai University, insieme a un ricercatore di Hisilicon Technologies.
Cosa manca in questa immagine
Oltre alle sue ovvie applicazioni per gli effetti visivi, il video inpainting di alta qualità è destinato a diventare una caratteristica fondamentale della nuova sintesi di immagini basata sull'intelligenza artificiale e delle tecnologie di alterazione delle immagini.
Questo è particolarmente vero per le applicazioni di moda che alterano il corpo e altri framework che cercare di 'dimagrire' o alterare in altro modo le scene in immagini e video. In questi casi, è necessario "riempire" in modo convincente lo sfondo extra esposto dalla sintesi.

Da un recente articolo, un algoritmo di "rimodellamento" del corpo ha il compito di ridipingere lo sfondo appena rivelato quando un soggetto viene ridimensionato. In questo caso, questa mancanza è rappresentata dal contorno rosso che (nella vita reale, vedi immagine a sinistra) occupava in precedenza la figura più formosa. Basato su materiale di partenza da https://arxiv.org/pdf/2203.10496.pdf
Flusso ottico coerente
Il flusso ottico (OF) è diventato una tecnologia fondamentale nello sviluppo della rimozione di oggetti video. Come un atlanteOF fornisce una mappa one-shot di una sequenza temporale. Spesso utilizzato per misurare la velocità nelle iniziative di visione artificiale, OF può anche consentire un'elaborazione interna temporalmente coerente, in cui la somma complessiva del compito può essere considerata in un singolo passaggio, anziché con l'attenzione "per-frame" in stile Disney, che inevitabilmente porta a discontinuità temporale.
I metodi di videoinpainting fino ad oggi si sono incentrati su un processo in tre fasi: completamento del flusso, dove il video è essenzialmente mappato in un'entità discreta ed esplorabile; propagazione dei pixel, dove i buchi nei video "corrotti" vengono riempiti da pixel che si propagano bidirezionalmente; e allucinazione di contenuto (un'invenzione di pixel che la maggior parte di noi conosce dai deepfake e dai framework di conversione testo-immagine come la serie DALL-E) in cui il contenuto "mancante" stimato viene inventato e inserito nel filmato.
L'innovazione centrale di E2FGVI è quello di combinare queste tre fasi in un sistema end-to-end, ovviando alla necessità di effettuare operazioni manuali sul contenuto o sul processo.

Il documento osserva che la necessità di un intervento manuale richiede che i processi meno recenti non traggano vantaggio da una GPU, il che li rende piuttosto dispendiosi in termini di tempo. Dal giornale*:
'Prendendo DFVI ad esempio, completando un video con le dimensioni di 432 × 240 da DAVIS, che contiene circa 70 frame, richiede circa 4 minuti, il che è inaccettabile nella maggior parte delle applicazioni reali. Inoltre, a parte gli svantaggi sopra menzionati, l'utilizzo di una rete di inpainting delle immagini pre-addestrata nella fase di allucinazione del contenuto ignora le relazioni di contenuto tra i vicini temporali, portando a contenuti generati incoerenti nei video.
Unendo le tre fasi del video inpainting, E2FGVI è in grado di sostituire la seconda fase, la propagazione dei pixel, con la propagazione delle caratteristiche. Nei processi più segmentati dei lavori precedenti, le funzionalità non sono così ampiamente disponibili, perché ogni fase è relativamente ermetica e il flusso di lavoro è solo semi-automatizzato.
Inoltre, i ricercatori hanno ideato a trasformatore focale temporale per la fase di allucinazione del contenuto, che considera non solo i vicini diretti dei pixel nel fotogramma corrente (ovvero ciò che sta accadendo in quella parte del fotogramma nell'immagine precedente o successiva), ma anche i vicini distanti che si trovano a molti fotogrammi di distanza, e tuttavia influenzerà l'effetto di coesione di qualsiasi operazione eseguita sul video nel suo complesso.
La nuova sezione centrale del flusso di lavoro basata sulle funzionalità è in grado di sfruttare più processi a livello di funzionalità e offset di campionamento apprendibili, mentre il nuovo trasformatore focale del progetto, secondo gli autori, estende le dimensioni delle finestre focali "da 2D a 3D".
Test e dati
Per testare E2FGVI, i ricercatori hanno valutato il sistema rispetto a due popolari set di dati di segmentazione di oggetti video: YouTube-VOSe DAVIS. YouTube-VOS offre 3741 video clip di formazione, 474 clip di convalida e 508 clip di test, mentre DAVIS offre 60 video clip di formazione e 90 clip di test.
E2FGVI è stato addestrato su YouTube-VOS e valutato su entrambi i set di dati. Durante l'addestramento, le maschere degli oggetti (le aree verdi nelle immagini sopra e video di YouTube di accompagnamento) sono stati generati per simulare il completamento del video.
Per le metriche, i ricercatori hanno adottato Peak signal-to-noise ratio (PSNR), Structural similarity (SSIM), Video-based Fréchet Inception Distance (VFID) e Flow Warping Error, quest'ultimo per misurare la stabilità temporale nel video interessato.
Le architetture precedenti rispetto alle quali è stato testato il sistema erano VINet, DFVI, LGTSM, CAP, FGVC, STNe FuseFormer.

Dalla sezione dei risultati quantitativi del documento. Le frecce su e giù indicano rispettivamente che i numeri più alti o più bassi sono migliori. E2FGVI ottiene i migliori punteggi su tutta la linea. I metodi sono valutati secondo FuseFormer, sebbene DFVI, VINet e FGVC non siano sistemi end-to-end, rendendo impossibile stimare i loro FLOP.
Oltre a ottenere i punteggi migliori rispetto a tutti i sistemi concorrenti, i ricercatori hanno condotto uno studio qualitativo sugli utenti, in cui i video trasformati con cinque metodi rappresentativi sono stati mostrati individualmente a venti volontari, ai quali è stato chiesto di valutarli in termini di qualità visiva.

L'asse verticale rappresenta la percentuale di partecipanti che ha preferito la E2Risultati FGVI in termini di qualità visiva.
Gli autori notano che, nonostante la preferenza unanime per il loro metodo, uno dei risultati, FGVC, non riflette i risultati quantitativi, e suggeriscono che questo indica che E2FGVI potrebbe, in modo artificioso, generare "risultati visivamente più piacevoli".
In termini di efficienza, gli autori notano che il loro sistema riduce notevolmente le operazioni in virgola mobile al secondo (FLOP) e il tempo di inferenza su una singola GPU Titan sul set di dati DAVIS e osservano che i risultati mostrano E2FGVI in esecuzione x15 più veloce rispetto ai metodi basati sul flusso.
Commentano:
'[E2FGVI] presenta i FLOP più bassi rispetto a tutti gli altri metodi. Ciò indica che il metodo proposto è altamente efficiente per l'inpainting video.
*La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.
Pubblicato per la prima volta il 19 maggio 2022.
Modificato martedì 28 ottobre 2025 per rimuovere il video incorporato errato e correggere i riferimenti al video incorporato nel corpo dell'articolo.













