Intelligenza Artificiale

Rimozione di oggetti dai video in modo più efficiente con l'apprendimento automatico

aggiornato on Dicembre 9, 2022

Una nuova ricerca dalla Cina riporta risultati all'avanguardia, oltre a un notevole miglioramento dell'efficienza, per un nuovo sistema di video inpainting in grado di rimuovere abilmente oggetti dal filmato.

L'imbracatura di un deltaplano viene verniciata con la nuova procedura. Guarda il video sorgente (incorporato in fondo a questo articolo) per una migliore risoluzione e altri esempi. Fonte: https://www.youtube.com/watch?v=N–qC3T2wc4

La tecnica, chiamata framework End-to-End per l'Inpainting video guidato dal flusso (E²FGVI), è anche in grado di rimuovere filigrane e vari altri tipi di occlusione dai contenuti video.

E2FGVI calcola le previsioni per i contenuti che si trovano dietro le occlusioni, consentendo la rimozione anche di filigrane notevoli e intrattabili. Fonte: https://github.com/MCG-NKU/E2FGVI

E2FGVI calcola le previsioni per i contenuti che si trovano dietro le occlusioni, consentendo la rimozione anche di filigrane notevoli e altrimenti intrattabili. Fonte: https://github.com/MCG-NKU/E2FGVI

Per vedere altri esempi con una risoluzione migliore, guarda il video incorporato alla fine dell'articolo.

Sebbene il modello descritto nell'articolo pubblicato sia stato addestrato su video di 432 x 240 pixel (di solito dimensioni di input basse, vincolate dallo spazio GPU disponibile rispetto a dimensioni batch ottimali e altri fattori), da allora gli autori hanno rilasciato E²FGVI-QG, che può gestire i video con una risoluzione arbitraria.

Il codice per la versione corrente è disponibile su GitHub, mentre la versione HQ, rilasciata domenica scorsa, può essere scaricata da Google drive ed Disco Baidu.

Il ragazzo rimane nella foto.

E²FGVI è in grado di elaborare video 432 × 240 a 0.12 secondi per fotogramma su una GPU Titan XP (12 GB di VRAM) e gli autori riferiscono che il sistema funziona quindici volte più velocemente rispetto ai precedenti metodi all'avanguardia basati su flusso ottico.

Un giocatore di tennis fa un'uscita inaspettata.

Testato su set di dati standard per questo sottosettore della ricerca sulla sintesi delle immagini, il nuovo metodo è stato in grado di superare i rivali nei cicli di valutazione sia qualitativa che quantitativa.

Test contro approcci precedenti. Fonte: https://arxiv.org/pdf/2204.02663.pdf

I carta è intitolato Verso un framework end-to-end per l'inpainting video guidato dal flusso, ed è una collaborazione tra quattro ricercatori della Nankai University, insieme a un ricercatore di Hisilicon Technologies.

Cosa manca in questa immagine

Oltre alle sue ovvie applicazioni per gli effetti visivi, il video inpainting di alta qualità è destinato a diventare una caratteristica fondamentale della nuova sintesi di immagini basata sull'intelligenza artificiale e delle tecnologie di alterazione delle immagini.

Questo è particolarmente vero per le applicazioni di moda che alterano il corpo e altri framework che cerca di "dimagrire" o altrimenti alterare scene in immagini e video. In tali casi, è necessario 'riempire' in modo convincente lo sfondo extra esposto dalla sintesi.

Da un articolo recente, un algoritmo di "rimodellamento" del corpo ha il compito di imbiancare lo sfondo appena rivelato quando un soggetto viene ridimensionato. Qui, quel deficit è rappresentato dal contorno rosso che occupava la persona con la figura più piena (nella vita reale, vedi immagine a sinistra). Basato su materiale di partenza da https://arxiv.org/pdf/2203.10496.pdf

Da un articolo recente, un algoritmo di "rimodellamento" del corpo ha il compito di ricolorare lo sfondo appena rivelato quando un soggetto viene ridimensionato. Qui, quel deficit è rappresentato dal contorno rosso che occupava la persona con la figura più piena (nella vita reale, vedi immagine a sinistra). Basato su materiale di partenza da https://arxiv.org/pdf/2203.10496.pdf

Flusso ottico coerente

Il flusso ottico (OF) è diventato una tecnologia fondamentale nello sviluppo della rimozione di oggetti video. Come un atlante, OF fornisce una mappa one-shot di una sequenza temporale. Spesso utilizzato per misurare la velocità nelle iniziative di visione artificiale, OF può anche consentire un'in-painting temporalmente coerente, in cui la somma aggregata dell'attività può essere considerata in un singolo passaggio, invece dell'attenzione "per fotogramma" in stile Disney, che inevitabilmente porta alla discontinuità temporale.

I metodi di videoinpainting fino ad oggi si sono incentrati su un processo in tre fasi: completamento del flusso, dove il video è essenzialmente mappato in un'entità discreta ed esplorabile; propagazione dei pixel, dove i buchi nei video "corrotti" vengono riempiti da pixel che si propagano in modo bidirezionale; E allucinazione di contenuto ("invenzione" dei pixel che è familiare alla maggior parte di noi grazie ai deepfake e ai framework text-to-image come la serie DALL-E) in cui il contenuto "mancante" stimato viene inventato e inserito nel filmato.

L'innovazione centrale di E²FGVI è quello di combinare queste tre fasi in un sistema end-to-end, ovviando alla necessità di effettuare operazioni manuali sul contenuto o sul processo.

Il documento osserva che la necessità di un intervento manuale richiede che i processi meno recenti non traggano vantaggio da una GPU, il che li rende piuttosto dispendiosi in termini di tempo. Dal giornale*:

'Prendendo DFVI ad esempio, completando un video con le dimensioni di 432 × 240 da DAVIS, che contiene circa 70 fotogrammi, richiede circa 4 minuti, il che è inaccettabile nella maggior parte delle applicazioni del mondo reale. Inoltre, ad eccezione degli inconvenienti sopra menzionati, solo l'utilizzo di una rete di inpainting di immagini preaddestrata nella fase di allucinazione del contenuto ignora le relazioni di contenuto tra i vicini temporali, portando a contenuti generati incoerenti nei video.'

Unendo le tre fasi del video inpainting, E²FGVI è in grado di sostituire la seconda fase, la propagazione dei pixel, con la propagazione delle caratteristiche. Nei processi più segmentati dei lavori precedenti, le funzionalità non sono così ampiamente disponibili, perché ogni fase è relativamente ermetica e il flusso di lavoro è solo semi-automatizzato.

Inoltre, i ricercatori hanno ideato a trasformatore focale temporale per la fase di allucinazione del contenuto, che considera non solo i vicini diretti dei pixel nel fotogramma corrente (ovvero ciò che sta accadendo in quella parte del fotogramma nell'immagine precedente o successiva), ma anche i vicini distanti che si trovano a molti fotogrammi di distanza, e tuttavia influenzerà l'effetto di coesione di qualsiasi operazione eseguita sul video nel suo complesso.

Architettura di E2FGVI.

La nuova sezione centrale del flusso di lavoro basata sulle funzionalità è in grado di sfruttare più processi a livello di funzionalità e offset di campionamento apprendibili, mentre il nuovo trasformatore focale del progetto, secondo gli autori, estende la dimensione delle finestre focali "dal 2D al 3D" .

Test e dati

Per testare E²FGVI, i ricercatori hanno valutato il sistema rispetto a due popolari set di dati di segmentazione di oggetti video: YouTube-VOSe DAVIS. YouTube-VOS offre 3741 video clip di formazione, 474 clip di convalida e 508 clip di test, mentre DAVIS offre 60 video clip di formazione e 90 clip di test.

E²FGVI è stato addestrato su YouTube-VOS e valutato su entrambi i set di dati. Durante l'addestramento, sono state generate maschere degli oggetti (le aree verdi nelle immagini sopra e il video incorporato sotto) per simulare il completamento del video.

Per le metriche, i ricercatori hanno adottato Peak signal-to-noise ratio (PSNR), Structural similarity (SSIM), Video-based Fréchet Inception Distance (VFID) e Flow Warping Error, quest'ultimo per misurare la stabilità temporale nel video interessato.

Le architetture precedenti rispetto alle quali è stato testato il sistema erano VINet, DFVI, LGTSM, CAP, FGVC, STNe FuseFormer.

Dalla sezione dei risultati quantitativi del documento. Le frecce su e giù indicano rispettivamente che i numeri più alti o più bassi sono migliori. E2FGVI ottiene i migliori punteggi su tutta la linea. I metodi sono valutati secondo FuseFormer, sebbene DFVI, VINet e FGVC non siano sistemi end-to-end, rendendo impossibile stimare i loro FLOP.

Oltre a ottenere i punteggi migliori rispetto a tutti i sistemi concorrenti, i ricercatori hanno condotto uno studio qualitativo sugli utenti, in cui i video trasformati con cinque metodi rappresentativi sono stati mostrati individualmente a venti volontari, ai quali è stato chiesto di valutarli in termini di qualità visiva.

L'asse verticale rappresenta la percentuale di partecipanti che hanno preferito l'output E2FGVI in termini di qualità visiva.

L'asse verticale rappresenta la percentuale di partecipanti che ha preferito la E²Risultati FGVI in termini di qualità visiva.

Gli autori notano che, nonostante la preferenza unanime per il loro metodo, uno dei risultati, FGVC, non riflette i risultati quantitativi, e suggeriscono che questo indica che E²FGVI potrebbe, speciosamente, generare "risultati visivamente più piacevoli".

In termini di efficienza, gli autori notano che il loro sistema riduce notevolmente le operazioni in virgola mobile al secondo (FLOP) e il tempo di inferenza su una singola GPU Titan sul set di dati DAVIS e osservano che i risultati mostrano E²FGVI in esecuzione x15 più veloce rispetto ai metodi basati sul flusso.

Commentano:

'[E²FGVI] detiene i FLOP più bassi rispetto a tutti gli altri metodi. Ciò indica che il metodo proposto è altamente efficiente per il video inpainting.'

http://www.youtube.com/watch?v=N–qC3T2wc4

*La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta il 19 maggio 2022.