taló DynamiCrafter: animació d'imatges de domini obert amb anteriors de difusió de vídeo - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

DynamiCrafter: animació d'imatges de domini obert amb anteriors de difusió de vídeo

mm

publicat

 on

DynamiCrafter: animació d'imatges de domini obert amb anteriors de difusió de vídeo

Computer vision és un dels camps més interessants i més investigats de la comunitat d'IA actual, i malgrat la ràpida millora dels models de visió per ordinador, un repte de llarga data que encara preocupa als desenvolupadors és l'animació d'imatges. Encara avui, els marcs d'animació d'imatges lluiten per convertir imatges fixes en els seus respectius homòlegs de vídeo que mostren dinàmiques naturals alhora que conserven l'aspecte original de les imatges. Tradicionalment, els marcs d'animació d'imatges se centren principalment en animar escenes naturals amb moviments específics del domini, com els moviments del cabell o del cos humà, o dinàmiques estocàstiques com els fluids i els núvols. Tot i que aquest enfocament funciona fins a cert punt, limita l'aplicabilitat d'aquests marcs d'animació a contingut visual més genèric. 

A més, els enfocaments convencionals d'animació d'imatges es concentren principalment en sintetitzar moviments oscil·lants i estocàstics, o en personalitzar categories d'objectes específiques. No obstant això, un defecte notable de l'enfocament són els supòsits forts que s'imposen a aquests mètodes que, en última instància, limiten la seva aplicabilitat, especialment en escenaris generals com l'animació d'imatges de domini obert. Durant els últims anys, Models T2V o de text a vídeo han demostrat un èxit notable en la generació de vídeos vívids i diversos mitjançant indicacions textuals, i aquesta demostració dels models T2V és la base del marc DynamiCrafter. 

El marc DynamiCrafter és un intent de superar les limitacions actuals dels models d'animació d'imatges i ampliar la seva aplicabilitat a escenaris genèrics que impliquen imatges de món obert. El marc DynamiCrafter intenta sintetitzar contingut dinàmic per a imatges de domini obert, convertint-les en vídeos animats. La idea clau darrere de DynamiCrafter és incorporar la imatge com a guia en el procés generatiu en un intent d'utilitzar el moviment previ del text ja existent als models de difusió de vídeo. Per a una imatge determinada, el model DynamiCrafter implementa primer un transformador de consulta que projecta la imatge en un espai de representació de context ric alineat amb text, facilitant que el model de vídeo digeri el contingut de la imatge d'una manera compatible. No obstant això, el model DynamiCrafter encara lluita per preservar alguns detalls visuals en els vídeos resultants, un problema que el model DynamiCrafter supera alimentant la imatge completa al model de difusió mitjançant la concatenació de la imatge amb els sorolls inicials, complementant així el model amb una imatge més precisa. informació. 

Aquest article pretén cobrir el marc de DynamiCrafter en profunditat, i explorem el mecanisme, la metodologia, l'arquitectura del marc juntament amb la seva comparació amb els marcs de generació d'imatges i vídeos d'última generació. Així que comencem. 

DynamiCrafter: animació d'imatges de domini obert

Animar una imatge fixa sovint ofereix una experiència visual atractiva per al públic, ja que sembla donar vida a la imatge fixa. Al llarg dels anys, nombrosos marcs han explorat diversos mètodes per animar imatges fixes. Els marcs d'animació inicials van implementar enfocaments basats en simulació física que es van centrar a simular el moviment d'objectes específics. Tanmateix, a causa del modelatge independent de cada categoria d'objectes, aquests enfocaments no eren efectius ni tenien generalització. Per replicar moviments més realistes, van sorgir mètodes basats en referències que transferien informació de moviment o aparença des de senyals de referència com els vídeos al procés de síntesi. Tot i que els enfocaments basats en referència van oferir millors resultats amb una millor coherència temporal en comparació amb els enfocaments basats en simulació, necessitaven una guia addicional que limitava les seves aplicacions pràctiques. 

En els darrers anys, la majoria de marcs d'animació se centren principalment en animar escenes naturals amb moviments estocàstics, específics de domini o oscil·lants. Tot i que l'enfocament implementat per aquests marcs funciona fins a cert punt, els resultats que generen aquests marcs no són satisfactoris, amb un marge de millora important. Els resultats notables aconseguits pels models generatius de text a vídeo en els últims anys han inspirat els desenvolupadors del marc DynamiCrafter a aprofitar les potents capacitats generatives dels models de text a vídeo per a l'animació d'imatges. 

La base clau del marc DynamiCrafter és incorporar una imatge condicional en un intent de governar el procés de generació de vídeo de Models de difusió de text a vídeo. Tanmateix, l'objectiu final de l'animació d'imatges encara no és trivial, ja que l'animació d'imatges requereix la preservació dels detalls, així com la comprensió de contextos visuals essencials per crear dinàmiques. Tanmateix, els models de difusió de vídeo controlables multimodals com VideoComposer han intentat permetre la generació de vídeo amb una guia visual a partir d'una imatge. Tanmateix, aquests enfocaments no són adequats per a l'animació d'imatges, ja que o bé donen lloc a canvis temporals bruscos o a una baixa conformitat visual amb la imatge d'entrada a causa dels seus mecanismes d'injecció d'imatge menys complets. Per contrarestar aquest obstacle, el marc de DyaniCrafter proposa un enfocament d'injecció de doble flux, que consisteix en una guia de detall visual i una representació del context alineada amb el text. L'enfocament d'injecció de doble flux permet que el marc DynamiCrafter garanteixi que el model de difusió de vídeo sintetitzi contingut dinàmic conservat en detalls de manera complementària. 

Per a una imatge determinada, el marc DynamiCrafter projecta primer la imatge a l'espai de representació del context alineat amb el text mitjançant una xarxa d'aprenentatge de context dissenyada especialment. Per ser més específics, l'espai de representació de context consisteix en un transformador de consultes que es pot aprendre per promoure encara més la seva adaptació als models de difusió i un codificador d'imatges CLIP entrenat prèviament per extreure característiques d'imatge alineades al text. Aleshores, el model utilitza les característiques de context ric mitjançant capes d'atenció creuada, i el model utilitza la fusió de gated per combinar aquestes característiques de text amb les capes d'atenció creuada. Tanmateix, aquest enfocament intercanvia les representacions del context apresos amb detalls visuals alineats amb el text que facilita la comprensió semàntica del context de la imatge permetent sintetitzar dinàmiques raonables i vívides. A més, en un intent de complementar detalls visuals addicionals, el marc concatena la imatge completa amb el soroll inicial al model de difusió. Com a resultat, l'enfocament de doble injecció implementat pel marc DynamiCrafter garanteix la conformitat visual així com un contingut dinàmic plausible a la imatge d'entrada. 

Avançant, els models de difusió o DM han demostrat un rendiment notable i una habilitat generativa en la generació de T2I o de text a imatge. Per replicar l'èxit dels models T2I a la generació de vídeo, es proposen models VDM o de difusió de vídeo que utilitzen una arquitectura U-New factoritzada espai-temps a l'espai de píxels per modelar vídeos de baixa resolució. Transferir els aprenentatges dels marcs T2I als marcs T2V ajudarà a reduir els costos de formació. Tot i que els models VDM o de difusió de vídeo tenen la capacitat de generar vídeos d'alta qualitat, només accepten sol·licituds de text com a única guia semàntica que pot no reflectir les veritables intencions d'un usuari o pot ser vaga. Tanmateix, els resultats de la majoria de models VDM poques vegades s'adhereixen a la imatge d'entrada i pateixen el problema de la variació temporal poc realista. L'enfocament de DynamiCrafter es basa en models de difusió de vídeo condicionats amb text que aprofiten la seva rica dinàmica prèvia per animar imatges de domini obert. Ho fa incorporant dissenys a mida per a una millor comprensió semàntica i conformitat amb la imatge d'entrada. 

DynamiCrafter: Mètode i Arquitectura

Per a una imatge fixa determinada, el marc DyanmiCrafter intenta animar el imatge a vídeo és a dir, produir un videoclip curt. El videoclip hereta el contingut visual de la imatge i mostra dinàmiques naturals. Tanmateix, hi ha la possibilitat que la imatge aparegui a la ubicació arbitrària de la seqüència de fotogrames resultant. L'aparició d'una imatge en una ubicació arbitrària és un tipus de repte especial que s'observa en tasques de generació de vídeos condicionats amb imatges amb alts requisits de conformitat visual. El marc DynamiCrafter supera aquest repte utilitzant els anteriors generatius dels models de difusió de vídeo prèviament entrenats. 

Dinàmica d'imatge de Video Diffusion Prior

Normalment, se sap que els models de difusió de text a vídeo de domini obert mostren contingut visual dinàmic modelat condicionant les descripcions de text. Per animar una imatge fixa amb anteriors generatius de text a vídeo, els marcs primer haurien d'injectar la informació visual en el procés de generació de vídeo d'una manera integral. A més, per a la síntesi dinàmica, el model T2V hauria de digerir la imatge per a la comprensió del context, alhora que també hauria de ser capaç de preservar els detalls visuals dels vídeos generats. 

Representació de context alineat amb text

Per guiar la generació de vídeo amb el context d'imatge, el marc de DynamiCrafter intenta projectar la imatge en un espai d'inserció alineat que permet que el model de vídeo utilitzi la informació de la imatge d'una manera compatible. Després d'això, el marc DynamiCrafter utilitza el codificador d'imatge per extreure les característiques de la imatge de la imatge d'entrada, ja que les incrustacions de text es generen mitjançant un codificador de text CLIP pre-entrenat. Ara, tot i que els testimonis semàntics globals del codificador d'imatges CLIP estan alineats amb els subtítols de la imatge, representa principalment el contingut visual a nivell semàntic, per la qual cosa no aconsegueix capturar tota l'extensió de la imatge. El marc DynamiCrafter implementa fitxes visuals completes de l'última capa del codificador CLIP per extreure informació més completa, ja que aquests testimonis visuals demostren alta fidelitat en les tasques de generació d'imatges condicionals. A més, el marc utilitza incrustacions de text i context per interactuar amb les característiques intermèdies d'U-Net mitjançant les capes d'atenció creuada duals. El disseny d'aquest component facilita la capacitat del model d'absorbir les condicions d'imatge de manera dependent de la capa. A més, atès que les capes intermèdies de l'arquitectura U-Net s'associen més amb posicions o formes d'objectes, s'espera que les característiques de la imatge influeixin en l'aspecte dels vídeos principalment, sobretot perquè les capes de dos extrems estan més vinculades a l'aparença. 

Guia de detall visual

El marc de DyanmiCrafter empra una representació de context rica en informació que permet que el model de difusió de vídeo en la seva arquitectura produeixi vídeos que s'assemblen molt a la imatge d'entrada. Tanmateix, com es demostra a la imatge següent, el contingut generat pot mostrar algunes discrepàncies a causa de la capacitat limitada del codificador CLIP pre-entrenat per preservar completament la informació d'entrada, ja que ha estat dissenyat per alinear el llenguatge i les característiques visuals. 

Per millorar la conformitat visual, el marc DynamiCrafter proposa proporcionar al model de difusió de vídeo detalls visuals addicionals extrets de la imatge d'entrada. Per aconseguir-ho, el model DyanmiCrafter concatena la imatge condicional amb el soroll inicial per fotograma i les alimenta al component U-Net de reducció de soroll com a guia. 

Paradigma de formació

El marc DynamiCrafter integra la imatge condicional a través de dos fluxos complementaris que tenen un paper important en la guia detallada i el control del context. Per facilitar el mateix, el model DynamiCrafter empra un procés d'entrenament de tres passos

  1. En el primer pas, el model entrena la xarxa de representació del context de la imatge. 
  2. En el segon pas, el model adapta la xarxa de representació del context de la imatge al model Text to Video. 
  3. En el tercer i últim pas, el model afina la xarxa de representació del context de la imatge conjuntament amb el component Visual Detail Guidance. 

Per adaptar la informació de la imatge per a la compatibilitat amb el model Text-to-Video (T2V), el marc DynamiCrafter suggereix desenvolupar una xarxa de representació de context, P, dissenyada per capturar detalls visuals alineats al text de la imatge donada. Reconeixent que P requereix molts passos d'optimització per a la convergència, l'enfocament del marc implica entrenar-lo inicialment mitjançant un model de text a imatge (T2I) més senzill. Aquesta estratègia permet que la xarxa de representació del context es concentri a aprendre sobre el context de la imatge abans d'integrar-lo amb el model T2V mitjançant un entrenament conjunt amb P i les capes espacials, en contraposició a les capes temporals, del model T2V. 

Per garantir la compatibilitat amb T2V, el marc DyanmiCrafter fusiona la imatge d'entrada amb el soroll per fotograma, procedint a afinar les capes espacials tant P com del Model de discriminació visual (VDM). Aquest mètode es tria per mantenir la integritat de les idees temporals existents del model T2V sense els efectes adversos de la fusió d'imatges denses, que podria comprometre el rendiment i divergir del nostre objectiu principal. A més, el marc utilitza una estratègia de seleccionar aleatòriament un fotograma de vídeo com a condició d'imatge per assolir dos objectius: (i) evitar que la xarxa desenvolupi un patró previsible que associ directament la imatge fusionada amb una ubicació específica del fotograma, i (ii) Fomentar una representació del context més adaptable evitant el subministrament d'informació massa rígida per a qualsevol marc concret. 

DynamiCrafter: Experiments i resultats

El marc DynamiCrafter entrena primer la xarxa de representació del context i les capes d'atenció creuada d'imatges en Stable Diffusion. Aleshores, el marc substitueix el Difusió estable component amb VideoCrafter i afina encara més la xarxa de representació del context i les capes espacials per a l'adaptació, i amb la concatenació d'imatges. En inferència, el marc adopta el mostreig DDIM amb una guia lliure de classificadors de diverses condicions. A més, per avaluar la coherència temporal i la qualitat dels vídeos sintetitzats tant en el domini temporal com en l'espai, el marc informa FVD o Frechet Video Distance, així com KVD o Kernel Video Distance, i avalua el rendiment zero-shot de tots els mètodes. dels punts de referència MSR-VTT i UCF-101. Per investigar la conformitat perceptiva entre els resultats generats i la imatge d'entrada, el marc introdueix PIC o Conformitat d'entrada perceptiva i adopta la mètrica de distància perceptiva DreamSim com a funció de la distància. 

La figura següent mostra la comparació visual del contingut animat generat amb diferents estils i continguts. 

Com es pot observar, entre tots els diferents mètodes, el framework DynamiCrafter s'adhereix bé a la condició de la imatge d'entrada i genera vídeos temporalment coherents. La taula següent conté les estadístiques d'un estudi d'usuaris amb 49 participants de la taxa de preferència per a la coherència temporal (TC) i la qualitat del moviment (MC) juntament amb la taxa de selecció de conformitat visual amb la imatge d'entrada. (I C). Com es pot observar, el marc DynamiCrafter és capaç de superar els mètodes existents per un marge considerable. 

La figura següent mostra els resultats aconseguits mitjançant el mètode d'injecció de doble flux i el paradigma d'entrenament. 

Consideracions finals

En aquest article, hem parlat de DynamiCrafter, un intent de superar les limitacions actuals dels models d'animació d'imatges i ampliar la seva aplicabilitat a escenaris genèrics que impliquen imatges de món obert. El marc DynamiCrafter intenta sintetitzar contingut dinàmic per a imatges de domini obert, convertint-les en vídeos animats. La idea clau darrere de DynamiCrafter és incorporar la imatge com a guia en el procés generatiu en un intent d'utilitzar el moviment previ del text ja existent als models de difusió de vídeo. Per a una imatge determinada, el model DynamiCrafter implementa primer un transformador de consulta que projecta la imatge en un espai de representació de context ric alineat amb text, facilitant que el model de vídeo digeri el contingut de la imatge d'una manera compatible. No obstant això, el model DynamiCrafter encara lluita per preservar alguns detalls visuals en els vídeos resultants, un problema que el model DynamiCrafter supera alimentant la imatge completa al model de difusió mitjançant la concatenació de la imatge amb els sorolls inicials, complementant així el model amb una imatge més precisa. informació. 

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.