Connect with us

Intelligenza artificiale

Rimozione di oggetti da video in modo più efficiente con l’apprendimento automatico

mm

Nuove ricerche dalla Cina riportano risultati all’avanguardia – così come un’impressionante miglioramento dell’efficienza – per un nuovo sistema di inpainting video in grado di rimuovere abilmente gli oggetti dalle riprese.

L'imbracatura di un aliante è stata dipinta con il nuovo procedimento. Vedi il video originale (inserito in fondo a questo articolo) per una risoluzione migliore e altri esempi. Fonte: https://www.youtube.com/watch?v=N--qC3T2wc4

L’imbracatura di un aliante è stata dipinta con il nuovo procedimento. Vedi il video originale per una risoluzione migliore e altri esempi. Fonte: https://www.youtube.com/watch?v=N–qC3T2wc4

La tecnica, chiamata End-to-End framework for Flow-Guided video Inpainting (E2FGVI), è anche in grado di rimuovere i watermark e vari altri tipi di occlusione dal contenuto video.

E2FGVI calcola le previsioni per il contenuto che si trova dietro le occlusione, consentendo la rimozione anche di watermark notevoli e altrimenti intractabili. Fonte: https://github.com/MCG-NKU/E2FGVI

E2FGVI calcola le previsioni per il contenuto che si trova dietro le occlusione, consentendo la rimozione anche di watermark notevoli e altrimenti intractabili. Fonte: https://github.com/MCG-NKU/E2FGVI

(Per vedere altri esempi in risoluzione migliore, consulta il video)

Sebbene il modello presentato nel paper pubblicato sia stato addestrato su video di 432px x 240px (dimensioni di input comunemente basse, limitate dalla disponibilità di spazio GPU rispetto alle dimensioni di batch ottimali e altri fattori), gli autori hanno successivamente rilasciato E2FGVI-HQ, che può gestire video di qualsiasi risoluzione.

Il codice per la versione attuale è disponibile su GitHub, mentre la versione HQ, rilasciata l’ultima domenica, può essere scaricata da Google Drive e Baidu Disk.

Il bambino rimane nell'immagine.

Il bambino rimane nell’immagine.

E2FGVI può elaborare un video di 432×240 in 0,12 secondi per frame su una GPU Titan XP (12GB VRAM), e gli autori riportano che il sistema funziona quindici volte più velocemente dei metodi precedenti basati su flusso ottico.

Un giocatore di tennis fa una uscita inaspettata.

Un giocatore di tennis fa una uscita inaspettata.

Testato su set di dati standard per questo sottosettore di ricerca sulla sintesi di immagini, il nuovo metodo è stato in grado di superare i rivali in entrambe le valutazioni qualitative e quantitative.

Test contro approcci precedenti. Fonte: https://arxiv.org/pdf/2204.02663.pdf

Test contro approcci precedenti. Fonte: https://arxiv.org/pdf/2204.02663.pdf

Il paper è intitolato Verso un framework End-to-End per il video Inpainting guidato da flusso, e è una collaborazione tra quattro ricercatori dell’Università di Nankai, insieme a un ricercatore di Hisilicon Technologies.

Cosa manca in questa immagine

Oltre alle sue ovvie applicazioni per gli effetti visivi, l’inpainting video di alta qualità è destinato a diventare una caratteristica fondamentale delle nuove tecnologie di sintesi di immagini e alterazione di immagini basate su intelligenza artificiale.

Questo è particolarmente vero per le applicazioni di moda che alterano il corpo, e altri framework che cercano di ‘dimagrire’ o alterare in altro modo le scene in immagini e video. In tali casi, è necessario ‘riempire’ in modo convincente lo sfondo aggiuntivo che viene esposto dalla sintesi.

Da un paper recente, un algoritmo di 'riaggiustamento' del corpo è incaricato di inpainting lo sfondo appena rivelato quando un soggetto viene ridimensionato. Qui, quel difetto è rappresentato dal contorno rosso che la persona (più formosa, vedi immagine a sinistra) occupava in precedenza. Basato su materiale di fonte https://arxiv.org/pdf/2203.10496.pdf

Da un paper recente, un algoritmo di ‘riaggiustamento’ del corpo è incaricato di inpainting lo sfondo appena rivelato quando un soggetto viene ridimensionato. Qui, quel difetto è rappresentato dal contorno rosso che la persona (più formosa, vedi immagine a sinistra) occupava in precedenza. Basato su materiale di fonte https://arxiv.org/pdf/2203.10496.pdf

Flusso ottico coerente

Il flusso ottico (OF) è diventato una tecnologia fondamentale nello sviluppo della rimozione di oggetti da video. Come un atlante, OF fornisce una mappa unica di una sequenza temporale. Spesso utilizzato per misurare la velocità nelle iniziative di visione computerizzata, OF può anche consentire un inpainting temporalmente coerente, dove la somma aggregata del compito può essere considerata in un’unica passata, invece dell’attenzione ‘per frame’ alla Disney, che inevitabilmente porta a discontinuità temporale.

‘[E2FGVI] detiene il minor numero di FLOPs in confronto a tutti gli altri metodi. Ciò indica che il metodo proposto è altamente efficiente per l’inpainting video.’

*La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

 

Pubblicato per la prima volta il 19 maggio 2022.

Modificato martedì 28 ottobre 2025, per rimuovere il video incorporato difettoso e modificare i riferimenti al video incorporato nel corpo dell’articolo.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.