Intelligenza artificiale

Editing di contenuti video AI coerenti con input guidato da testo

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Mentre la comunità professionale di VFX è intrigata – e occasionalmente si sente un po’ minacciata – dalle nuove innovazioni nella sintesi di immagini e video, la mancanza di continuità temporale nella maggior parte dei progetti di editing video basati su AI relega molti di questi sforzi alla sfera “psichedelica”, con testure e strutture che scintillano e si alterano rapidamente , effetti inconsistenti e il tipo di tecnologia grezza che ricorda l’era fotochimica degli effetti visivi.

Se si desidera modificare qualcosa di molto specifico in un video che non rientra nel regno dei deepfake (ad esempio, imporre una nuova identità su footage esistente di una persona), la maggior parte delle soluzioni attuali operano sotto limitazioni piuttosto severe, in termini di precisione richiesta per effetti visivi di produzione di alta qualità.

Un’eccezione è il lavoro in corso di un’associazione di accademici del Weizmann Institute of Science. Nel 2021, tre dei suoi ricercatori, in associazione con Adobe, hanno annunciato un nuovo metodo per decomporre video e sovrapporre una mappatura interna coerente – un atlante neurale stratificato – in un output composito, completo di canali alpha e output temporale coeso.

Dalla carta del 2021: una stima del percorso completo della strada nel clip di origine è modificata tramite una rete neurale in un modo che tradizionalmente richiederebbe un’estesa rotoscopia e match-moving. Poiché gli elementi di sfondo e primo piano sono gestiti da reti diverse, le maschere sono veramente ‘automatiche’. Source: https://layered-neural-atlases.github.io/

Sebbene cada in qualche modo nel regno coperto da flusso ottico nelle pipeline VFX, l’atlante stratificato non ha un equivalente diretto nei flussi di lavoro CGI tradizionali, poiché costituisce essenzialmente una ‘mappa di texture temporale’ che può essere prodotta e modificata attraverso metodi software tradizionali. Nella seconda immagine nella figura sopra, lo sfondo della superficie stradale è rappresentato (figurativamente) in tutta la durata del video. Modificare quell’immagine di base (terza immagine da sinistra nella figura sopra) produce un cambiamento coerente nello sfondo.

Le immagini dell’atlante ‘sviluppato’ sopra rappresentano solo frame interpretati individualmente; i cambiamenti coerenti in qualsiasi frame di destinazione del video sono mappati indietro al frame originale, mantenendo eventuali occlusioni e altri effetti di scena necessari, come ombre o riflessi.

L’architettura principale utilizza un Multilayer Perceptron (MLP) per rappresentare gli atlanti sviluppati, i canali alpha e le mappe, tutti ottimizzati in concerto, e interamente in uno spazio 2D, eliminando la necessità di conoscenze priori di punti di geometria 3D, mappe di profondità e altri tratti CGI-style.

L’atlante di riferimento di oggetti individuali può anche essere modificato in modo affidabile:

Cambiamento coerente in un oggetto in movimento sotto il framework del 2021. Source: https://www.youtube.com/watch?v=aQhakPFC4oQ

In sostanza, il sistema del 2021 combina allineamento della geometria, match-moving, mappatura, re-texturizing e rotoscopia in un processo neurale discreto.

Text2Live

I tre ricercatori originali della carta del 2021, insieme a NVIDIA research, sono tra i contributori a una nuova innovazione sulla tecnica che combina il potere degli atlanti stratificati con il tipo di tecnologia CLIP guidata da testo che è tornata alla ribalta questa settimana con il rilascio di OpenAI di DALL-E 2.

La nuova architettura, intitolata Text2Live, consente a un utente finale di creare modifiche localizzate a contenuti video reali in base a prompt di testo:

Due esempi di editing del primo piano. Per una risoluzione e una definizione migliori, consultare i video originali su https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live offre editing semantico e altamente localizzato senza l’uso di un generatore pre-addestrato, sfruttando un database interno specifico per il clip video interessato.

Trasformazioni di sfondo e primo piano (oggetto) sotto Text2Live. Source: https://text2live.github.io/sm/pages/video_results_atlases.html

La tecnica non richiede maschere fornite dall’utente, come un flusso di lavoro di rotoscopia o green-screen tipico, ma piuttosto stima mappe di rilevanza attraverso una tecnica di bootstrapping basata su ricerca del 2021 della School of Computer Science dell’Università di Tel Aviv e Facebook AI Research (FAIR).

Mappe di output generate tramite un modello di attenzione generico basato su transformer.

Il nuovo documento è intitolato Text2LIVE: Text-Driven Layered Image and Video Editing. Il team originale del 2021 è raggiunto da Omer Bar-Tal del Weizmann e Yoni Kasten di NVIDIA Research.

Architettura

Text2Live comprende un generatore addestrato su una sola immagine di input e prompt di testo di destinazione. Un modello CLIP pre-addestrato su 400 milioni di coppie testo/immagine fornisce materiale visivo associato da cui le trasformazioni dell’utente possono essere interpretate.

Il generatore accetta un’immagine di input (frame) e produce un layer RGBA di destinazione che contiene informazioni di colore e opacità. Questo layer è quindi composito nel footage originale con ulteriori aumentazioni.

Il canale alpha nel layer RGBA generato fornisce una funzione di composizione interna senza ricorrere a pipeline tradizionali che coinvolgono software basato su pixel come After Effects.

Addestrando immagini interne rilevanti per il video o l’immagine di destinazione, Text2Live evita la necessità di invertire l’immagine di input nello spazio latente di una rete Generative Adversarial (GAN), una pratica che attualmente è lontana dall’essere abbastanza esatta per requisiti di editing video di produzione, o utilizzare un modello di diffusione più preciso e configurabile, ma non può mantenere la fedeltà al video di destinazione.

Varie modifiche di trasformazione basate su prompt da Text2Live.

Gli approcci precedenti hanno utilizzato metodi basati sulla propagazione o approcci basati sul flusso ottico. Poiché queste tecniche sono in qualche modo basate su frame, nessuna di esse è in grado di creare un aspetto temporale coerente dei cambiamenti nel video di output. Un atlante neurale stratificato, invece, fornisce uno spazio unico in cui affrontare i cambiamenti, che possono poi rimanere fedeli al cambiamento commesso mentre il video procede.

Nessun ‘sizzling’ o allucinazioni casuali: Text2Live ottiene un’interpretazione del prompt di testo ‘jeep arrugginito’ e lo applica una volta all’atlante neurale stratificato dell’auto nel video, invece di riavviare la trasformazione per ogni frame interpretato.

Flusso di lavoro della trasformazione coerente di una Jeep in un relitto arrugginito con Text2Live.

Text2Live è più vicino a una svolta nell’editing basato su AI, piuttosto che nello spazio fertile testo-immagine che ha attirato molta attenzione questa settimana con il rilascio della seconda generazione del framework DALL-E di OpenAI (che può incorporare immagini di destinazione come parte del processo di trasformazione, ma rimane limitato nella sua capacità di intervenire direttamente in una foto, oltre alla censura dei dati di training di origine e l’imposizione di filtri, progettati per prevenire abusi degli utenti).

Invece, Text2Live consente all’utente finale di estrarre un atlante e quindi modificarlo in un’unica passata in ambienti a controllo elevato basati su pixel come Photoshop (e argomentabilmente anche in framework di sintesi di immagini più astratti come NeRF), prima di reinserirlo in un ambiente correttamente orientato che non si basa su stime 3D o approcci CGI basati sul passato.

Inoltre, Text2Live, secondo gli autori, è il primo framework comparabile a raggiungere mascheramento e composizione in modo completamente automatico.

Pubblicato per la prima volta il 7 aprile 2022.