Intel·ligència Artificial
Edició coherent de contingut de vídeo d'IA amb entrada guiada per text
Tot i que la comunitat professional de VFX està intrigada i de tant en tant se sent una mica amenaçat – gràcies a les noves innovacions en la síntesi d'imatge i vídeo, la manca de continuïtat temporal en la majoria de projectes d'edició de vídeo basats en IA relega molts d'aquests esforços a l'esfera "psicodèlica", amb brillant i canviant ràpidament textures i estructures, efectes inconsistents i el tipus de baralla tecnològica crua que recorda el era fotoquímica d'efectes visuals.
Si voleu canviar alguna cosa molt específica en un vídeo que no entra en l'àmbit dels deepfakes (és a dir, imposar una nova identitat a les imatges existents d'una persona), la majoria de les solucions actuals funcionen amb limitacions força severes, en termes de la precisió necessària per als efectes visuals de qualitat de producció.
Una excepció és el treball en curs d'una associació solta d'acadèmics de l'Institut de Ciència Weizmann. El 2021, tres dels seus investigadors, en associació amb Adobe, anunciat un mètode nou per descompondre vídeo i superposar un mapeig intern consistent: a atles neural en capes – en una sortida composta, completa amb canals alfa i sortida temporalment cohesionada.
Encara que cau en algun lloc del regne cobert per flux òptic a les pipelines VFX, l'atles en capes no té cap equivalent directe en els fluxos de treball CGI tradicionals, ja que constitueix essencialment un "mapa de textura temporal" que es pot produir i editar mitjançant mètodes de programari tradicionals. A la segona imatge de la il·lustració de dalt, el fons de la superfície de la carretera es representa (figuradament) durant tot el temps d'execució del vídeo. Alterar aquesta imatge base (la tercera imatge des de l'esquerra a la il·lustració de dalt) produeix un canvi consistent en el fons.
Les imatges de l'atles "desplegat" de dalt només representen marcs interpretats individualment; els canvis consistents en qualsevol fotograma de vídeo objectiu es tornen a mapejar al fotograma original, conservant les oclusions necessàries i altres efectes d'escena necessaris, com ara ombres o reflexos.
L'arquitectura central utilitza un perceptró multicapa (MLP) per representar els atles desplegats, els canals alfa i els mapes, tots optimitzats conjuntament i completament en un espai 2D, obviant el coneixement previ a l'estil NeRF de punts de geometria 3D, mapes de profunditat, i trampes similars d'estil CGI.
L'atles de referència d'objectes individuals també es pot alterar de manera fiable:
Essencialment, el sistema 2021 combina l'alineació de la geometria, el moviment de coincidències, el mapeig, la retexturització i el rotoscoping en un procés neural discret.
Text2Live
Els tres investigadors originals del document de 2021, juntament amb la investigació de NVIDIA, es troben entre els col·laboradors d'una nova innovació en la tècnica que combina el poder dels atles en capes amb el tipus de tecnologia CLIP guiada per text que ha tornat a tenir protagonisme aquesta setmana amb OpenAI's alliberar del marc DALL-E 2.
La nova arquitectura, titulada Text2Live, permet a un usuari final crear edicions localitzades al contingut de vídeo real en funció de les indicacions de text:
Text2Live ofereix edició semàntica i altament localitzada sense l'ús d'un generador pre-entrenat, fent ús d'una base de dades interna específica del videoclip afectat.
La tècnica no requereix màscares proporcionades per l'usuari, com ara un flux de treball típic de rotoscòpia o pantalla verda, sinó estimacions mapes de rellevància mitjançant una tècnica d'arrencada basada en Investigació del 2021 de l'Escola d'Informàtica de la Universitat de Tel Aviv i Facebook AI Research (FAIR).
El nou paper es titula Text2LIVE: edició d'imatges i vídeos en capes basada en text. A l'equip original de 2021 s'uneixen Omer Bar-Tal de Weizmann i Yoni Kasten de NVIDIA Research.
arquitectura
Text2Live inclou un generador entrenat en una única imatge d'entrada i indicacions de text de destinació. Un model de preentrenament de llenguatge-imatge contrastant (CLIP) preentrenat en 400 milions de parells de text/imatge proporciona material visual associat des del qual es poden interpretar les transformacions d'entrada de l'usuari.
El generador accepta una imatge d'entrada (marc) i emet una capa RGBA objectiu que conté informació de color i opacitat. A continuació, aquesta capa es composa a la imatge original amb augments addicionals.
Mitjançant la formació en imatges internes rellevants per al vídeo o la imatge objectiu, Text2Live evita el requisit de fer-ho invertir la imatge d'entrada a l'espai latent d'una Xarxa Adversarial Generativa (GAN), una pràctica que és actualment lluny de ser prou exacte per als requisits d'edició de vídeo de producció, o bé utilitzeu un model de difusió que sigui més precís i configurable, però no pot mantenir la fidelitat al vídeo objectiu.
S'han utilitzat enfocaments anteriors mètodes basats en la propagació or basat en flux òptic enfocaments. Com que aquestes tècniques es basen en una o altra mesura en fotogrames, cap de les dues és capaç de crear una aparença temporal coherent dels canvis en el vídeo de sortida. En canvi, un atles en capes neuronals ofereix un únic espai on abordar els canvis, que després poden romandre fidels al canvi compromès a mesura que avança el vídeo.
Text2Live està més a prop d'un avenç en la composició basada en IA, més que en el fèrtil espai de text a imatge que ha cridat tanta atenció aquesta setmana amb el llançament del segona generació del marc DALL-E d'OpenAI (que pot incorporar imatges objectiu com a part del procés transformador, però continua limitada en la seva capacitat d'intervenir directament en una foto, a més de la censura de les dades d'entrenament font i imposició de filtres, dissenyat per evitar l'abús dels usuaris).
Més aviat, Text2Live permet a l'usuari final extreure un atles i després editar-lo d'una sola passada en entorns basats en píxels d'alt control com ara Photoshop (i possiblement marcs de síntesi d'imatges més abstractes com ara NeRF), abans de tornar-lo a alimentar a un entorn orientat correctament que, tanmateix, no depèn de l'estimació 3D ni d'enfocaments basats en CGI enrere.
A més, Text2Live, afirmen els autors, és el primer marc comparable per aconseguir l'emmascarament i la composició d'una manera totalment automàtica.
Publicat per primera vegada el 7 d'abril de 2022.