taló Edició coherent de contingut de vídeo d'IA amb entrada guiada per text - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Edició coherent de contingut de vídeo d'IA amb entrada guiada per text

mm
actualitzat on

Tot i que la comunitat professional de VFX està intrigada i de tant en tant se sent una mica amenaçat – gràcies a les noves innovacions en la síntesi d'imatge i vídeo, la manca de continuïtat temporal en la majoria de projectes d'edició de vídeo basats en IA relega molts d'aquests esforços a l'esfera "psicodèlica", amb brillant i canviant ràpidament textures i estructures, efectes inconsistents i el tipus de baralla tecnològica crua que recorda el era fotoquímica d'efectes visuals.

Si voleu canviar alguna cosa molt específica en un vídeo que no entra en l'àmbit dels deepfakes (és a dir, imposar una nova identitat a les imatges existents d'una persona), la majoria de les solucions actuals funcionen amb limitacions força severes, en termes de la precisió necessària per als efectes visuals de qualitat de producció.

Una excepció és el treball en curs d'una associació solta d'acadèmics de l'Institut de Ciència Weizmann. El 2021, tres dels seus investigadors, en associació amb Adobe, anunciat un mètode nou per descompondre vídeo i superposar un mapeig intern consistent: a atles neural en capes – en una sortida composta, completa amb canals alfa i sortida temporalment cohesionada.

A partir del document de 2021: una estimació del recorregut complet de la carretera al clip d'origen s'edita a través d'una xarxa neuronal d'una manera que tradicionalment requeriria una rotoscòpia extensa i un moviment de partit. Com que els elements de fons i primer pla són gestionats per xarxes diferents, les màscares són realment "automàtiques". Font: https://layered-neural-atlases.github.io/

A partir del document de 2021: una estimació del recorregut complet de la carretera al clip d'origen s'edita a través d'una xarxa neuronal d'una manera que tradicionalment requeriria una rotoscòpia extensa i un moviment de partit. Com que els elements de fons i primer pla són gestionats per xarxes diferents, les màscares són realment "automàtiques". Font: https://layered-neural-atlases.github.io/

Encara que cau en algun lloc del regne cobert per flux òptic a les pipelines VFX, l'atles en capes no té cap equivalent directe en els fluxos de treball CGI tradicionals, ja que constitueix essencialment un "mapa de textura temporal" que es pot produir i editar mitjançant mètodes de programari tradicionals. A la segona imatge de la il·lustració de dalt, el fons de la superfície de la carretera es representa (figuradament) durant tot el temps d'execució del vídeo. Alterar aquesta imatge base (la tercera imatge des de l'esquerra a la il·lustració de dalt) produeix un canvi consistent en el fons.

Les imatges de l'atles "desplegat" de dalt només representen marcs interpretats individualment; els canvis consistents en qualsevol fotograma de vídeo objectiu es tornen a mapejar al fotograma original, conservant les oclusions necessàries i altres efectes d'escena necessaris, com ara ombres o reflexos.

L'arquitectura central utilitza un perceptró multicapa (MLP) per representar els atles desplegats, els canals alfa i els mapes, tots optimitzats conjuntament i completament en un espai 2D, obviant el coneixement previ a l'estil NeRF de punts de geometria 3D, mapes de profunditat, i trampes similars d'estil CGI.

L'atles de referència d'objectes individuals també es pot alterar de manera fiable:

Canvi consistent a un objecte en moviment sota el marc del 2021. Font: https://www.youtube.com/watch?v=aQhakPFC4oQ

Canvi consistent a un objecte en moviment sota el marc del 2021. Font: https://www.youtube.com/watch?v=aQhakPFC4oQ

Essencialment, el sistema 2021 combina l'alineació de la geometria, el moviment de coincidències, el mapeig, la retexturització i el rotoscoping en un procés neural discret.

Text2Live

Els tres investigadors originals del document de 2021, juntament amb la investigació de NVIDIA, es troben entre els col·laboradors d'una nova innovació en la tècnica que combina el poder dels atles en capes amb el tipus de tecnologia CLIP guiada per text que ha tornat a tenir protagonisme aquesta setmana amb OpenAI's alliberar del marc DALL-E 2.

La nova arquitectura, titulada Text2Live, permet a un usuari final crear edicions localitzades al contingut de vídeo real en funció de les indicacions de text:

Dos exemples d'edició en primer pla. Per obtenir una millor resolució i definició, mireu els vídeos originals a https://text2live.github.io/sm/pages/video_results_atlases.html

Dos exemples d'edició en primer pla. Per a una millor resolució i definició, mireu els vídeos originals a https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live ofereix edició semàntica i altament localitzada sense l'ús d'un generador pre-entrenat, fent ús d'una base de dades interna específica del videoclip afectat.

Transformacions de fons i primer pla (objecte) sota Text2Live. Font: https://text2live.github.io/sm/pages/video_results_atlases.html

Transformacions de fons i primer pla (objecte) sota Text2Live. Font: https://text2live.github.io/sm/pages/video_results_atlases.html

La tècnica no requereix màscares proporcionades per l'usuari, com ara un flux de treball típic de rotoscòpia o pantalla verda, sinó estimacions mapes de rellevància mitjançant una tècnica d'arrencada basada en Investigació del 2021 de l'Escola d'Informàtica de la Universitat de Tel Aviv i Facebook AI Research (FAIR).

Mapes de sortida generats mitjançant un model d'atenció genèric basat en transformadors.

Mapes de sortida generats mitjançant un model d'atenció genèric basat en transformadors.

El nou paper es titula Text2LIVE: edició d'imatges i vídeos en capes basada en text. A l'equip original de 2021 s'uneixen Omer Bar-Tal de Weizmann i Yoni Kasten de NVIDIA Research.

arquitectura

Text2Live inclou un generador entrenat en una única imatge d'entrada i indicacions de text de destinació. Un model de preentrenament de llenguatge-imatge contrastant (CLIP) preentrenat en 400 milions de parells de text/imatge proporciona material visual associat des del qual es poden interpretar les transformacions d'entrada de l'usuari.

El generador accepta una imatge d'entrada (marc) i emet una capa RGBA objectiu que conté informació de color i opacitat. A continuació, aquesta capa es composa a la imatge original amb augments addicionals.

El canal alfa de la capa RGBA generada proporciona una funció de composició interna sense recórrer a canalitzacions tradicionals que involucren programari basat en píxels, com ara After Effects.

El canal alfa de la capa RGBA generada proporciona una funció de composició interna sense recórrer a canalitzacions tradicionals que involucren programari basat en píxels, com ara After Effects.

Mitjançant la formació en imatges internes rellevants per al vídeo o la imatge objectiu, Text2Live evita el requisit de fer-ho invertir la imatge d'entrada a l'espai latent d'una Xarxa Adversarial Generativa (GAN), una pràctica que és actualment lluny de ser prou exacte per als requisits d'edició de vídeo de producció, o bé utilitzeu un model de difusió que sigui més precís i configurable, però no pot mantenir la fidelitat al vídeo objectiu.

Diverses edicions de transformació basades en missatges de Text2Live.

Diverses edicions de transformació basades en missatges de Text2Live.

S'han utilitzat enfocaments anteriors mètodes basats en la propagació or basat en flux òptic enfocaments. Com que aquestes tècniques es basen en una o altra mesura en fotogrames, cap de les dues és capaç de crear una aparença temporal coherent dels canvis en el vídeo de sortida. En canvi, un atles en capes neuronals ofereix un únic espai on abordar els canvis, que després poden romandre fidels al canvi compromès a mesura que avança el vídeo.

Sense al·lucinacions a l'atzar: Text2Live obté una interpretació del missatge de text "jeep rovellat" i l'aplica una vegada a l'atles de capes neuronals del cotxe del vídeo, en lloc de reiniciar la transformació per a cada fotograma interpretat.

Sense al·lucinacions a l'atzar: Text2Live obté una interpretació del missatge de text "jeep rovellat" i l'aplica una vegada a l'atles de capes neuronals del cotxe del vídeo, en lloc de reiniciar la transformació per a cada fotograma interpretat.

Flux de treball de la transformació consistent de Text2Live d'un Jeep en una relíquia rovellada.

Flux de treball de la transformació consistent de Text2Live d'un Jeep en una relíquia rovellada.

Text2Live està més a prop d'un avenç en la composició basada en IA, més que en el fèrtil espai de text a imatge que ha cridat tanta atenció aquesta setmana amb el llançament del segona generació del marc DALL-E d'OpenAI (que pot incorporar imatges objectiu com a part del procés transformador, però continua limitada en la seva capacitat d'intervenir directament en una foto, a més de la censura de les dades d'entrenament font i imposició de filtres, dissenyat per evitar l'abús dels usuaris).

Més aviat, Text2Live permet a l'usuari final extreure un atles i després editar-lo d'una sola passada en entorns basats en píxels d'alt control com ara Photoshop (i possiblement marcs de síntesi d'imatges més abstractes com ara NeRF), abans de tornar-lo a alimentar a un entorn orientat correctament que, tanmateix, no depèn de l'estimació 3D ni d'enfocaments basats en CGI enrere.

A més, Text2Live, afirmen els autors, és el primer marc comparable per aconseguir l'emmascarament i la composició d'una manera totalment automàtica.

 

Publicat per primera vegada el 7 d'abril de 2022.