Artificiell intelligens

DynamiCrafter: Animera bilder med öppen domän med videospridningsföregångar

publicerade

1 månad sedan

Mars 25, 2024

DynamiCrafter: Animera bilder med öppen domän med videospridningsföregångar

Datorsyn är ett av de mest spännande och väl undersökta områdena inom AI-gemenskapen idag, och trots den snabba förbättringen av datorseendemodellerna är bildanimering en långvarig utmaning som fortfarande bekymrar utvecklare. Än idag kämpar ramverk för bildanimering med att konvertera stillbilder till sina respektive videomotsvarigheter som visar naturlig dynamik samtidigt som bildernas ursprungliga utseende bevaras. Traditionellt fokuserar ramverk för bildanimering främst på att animera naturliga scener med domänspecifika rörelser som människohår eller kroppsrörelser, eller stokastisk dynamik som vätskor och moln. Även om detta tillvägagångssätt fungerar till viss del, begränsar det tillämpligheten av dessa animationsramverk till mer generiskt visuellt innehåll.

Dessutom koncentrerar konventionella tillvägagångssätt för bildanimering främst på att syntetisera oscillerande och stokastiska rörelser, eller på att anpassa för specifika objektkategorier. En anmärkningsvärd brist med tillvägagångssättet är dock de starka antaganden som läggs på dessa metoder som i slutändan begränsar deras tillämpbarhet, särskilt över allmänna scenarier som bildanimering med öppen domän. Under de senaste åren, T2V eller text till video-modeller har visat anmärkningsvärda framgångar med att skapa levande och mångsidiga videor med hjälp av textuppmaningar, och denna demonstration av T2V-modeller är det som utgör grunden för DynamiCrafter-ramverket.

DynamiCrafter-ramverket är ett försök att övervinna de nuvarande begränsningarna för bildanimeringsmodeller och utöka deras tillämpbarhet till generiska scenarier som involverar bilder i öppen värld. DynamiCrafter-ramverket försöker syntetisera dynamiskt innehåll för bilder med öppna domäner och konvertera dem till animerade videor. Nyckelidén bakom DynamiCrafter är att införliva bilden som vägledning i den generativa processen i ett försök att använda rörelsen före de redan existerande text-till-video-diffusionsmodellerna. För en given bild implementerar DynamiCrafter-modellen först en frågetransformator som projicerar bilden till ett textjusterat utrymme för rik kontextrepresentation, vilket underlättar videomodellen att smälta bildinnehållet på ett kompatibelt sätt. Men DynamiCrafter-modellen kämpar fortfarande för att bevara vissa visuella detaljer i de resulterande videorna, ett problem som DynamiCrafter-modellen övervinner genom att mata hela bilden till diffusionsmodellen genom att sammanfoga bilden med de initiala brusen, och därför kompletterar modellen med mer exakt bild information.

Den här artikeln syftar till att täcka DynamiCrafter-ramverket på djupet, och vi utforskar mekanismen, metodiken, arkitekturen för ramverket tillsammans med dess jämförelse med toppmoderna ramverk för bild- och videogenerering. Så låt oss börja.

DynamiCrafter: Open-Domain Images Animation

Att animera en stillbild erbjuder ofta en engagerande visuell upplevelse för publiken eftersom det verkar ge stillbilden liv. Under åren har många ramverk utforskat olika metoder för att animera stillbilder. Initiala animationsramverk implementerade fysiska simuleringsbaserade tillvägagångssätt som fokuserade på att simulera rörelsen hos specifika objekt. Men på grund av den oberoende modelleringen av varje objektkategori var dessa tillvägagångssätt varken effektiva eller de hade generaliserbarhet. För att replikera mer realistiska rörelser uppstod referensbaserade metoder som överförde rörelse- eller utseendeinformation från referenssignaler som videor till syntesprocessen. Även om referensbaserade tillvägagångssätt gav bättre resultat med bättre tidsmässig koherens jämfört med simuleringsbaserade tillvägagångssätt, behövde de ytterligare vägledning som begränsade deras praktiska tillämpningar.

Under de senaste åren fokuserar en majoritet av animationsramverken främst på att animera naturliga scener med stokastiska, domänspecifika eller oscillerande rörelser. Även om tillvägagångssättet som implementeras av dessa ramverk fungerar till viss del, är resultaten som dessa ramverk genererar inte tillfredsställande, med betydande utrymme för förbättringar. De anmärkningsvärda resultat som uppnåtts av text till video-generativa modeller under de senaste åren har inspirerat utvecklarna av DynamiCrafter-ramverket att utnyttja de kraftfulla generativa funktionerna hos text till video-modeller för bildanimering.

Nyckelgrunden för DynamiCrafter-ramverket är att införliva en villkorad bild i ett försök att styra videogenereringsprocessen för Text till video diffusionsmodeller. Det slutliga målet med bildanimering är dock fortfarande icke-trivialt eftersom bildanimering kräver bevarande av detaljer samt förståelse av visuella sammanhang som är avgörande för att skapa dynamik. Men multimodala kontrollerbara videodiffusionsmodeller som VideoComposer har försökt möjliggöra videogenerering med visuell vägledning från en bild. Dessa tillvägagångssätt är dock inte lämpliga för bildanimering eftersom de antingen resulterar i plötsliga tidsförändringar eller låg visuell överensstämmelse med ingångsbilden på grund av deras mindre omfattande bildinjektionsmekanismer. För att motverka detta hinder föreslår DyaniCrafter-ramverket en dubbelströmsinjektion, bestående av visuell detaljvägledning och textjusterad kontextrepresentation. Dual-stream-injektionsmetoden tillåter DynamiCrafter-ramverket att säkerställa att videodiffusionsmodellen syntetiserar detaljbevarat dynamiskt innehåll på ett komplementärt sätt.

För en given bild projicerar DynamiCrafter-ramverket först bilden in i det textjusterade kontextrepresentationsutrymmet med hjälp av ett speciellt utformat nätverk för kontextinlärning. För att vara mer specifik består kontextrepresentationsutrymmet av en inlärbar frågetransformator för att ytterligare främja dess anpassning till diffusionsmodellerna, och en förtränad CLIP-bildkodare för att extrahera textjusterade bildfunktioner. Modellen använder sedan de rika kontextfunktionerna med hjälp av korsuppmärksamhetslager, och modellen använder gated fusion för att kombinera dessa textfunktioner med korsuppmärksamhetslagren. Detta tillvägagångssätt byter emellertid ut de inlärda kontextrepresentationerna med textjusterade visuella detaljer som underlättar semantisk förståelse av bildkontext, vilket gör att rimlig och levande dynamik kan syntetiseras. Dessutom, i ett försök att komplettera ytterligare visuella detaljer, sammanfogar ramverket hela bilden med det initiala bruset till diffusionsmodellen. Som ett resultat garanterar den dubbla injektionsmetoden som implementeras av DynamiCrafter-ramverket visuell överensstämmelse såväl som rimligt dynamiskt innehåll till ingångsbilden.

När du rör på dig har diffusionsmodeller eller DM:er visat anmärkningsvärd prestanda och generativ skicklighet i T2I- eller text-till-bild-generering. För att replikera framgången för T2I-modeller till videogenerering, föreslås VDM- eller Videodiffusionsmodeller som använder en rum-tidsfaktoriserad U-New-arkitektur i pixelutrymme för att modellera lågupplösta videor. Att överföra lärdomarna från T2I-ramverk till T2V-ramverk kommer att hjälpa till att minska utbildningskostnaderna. Även om VDM- eller videodiffusionsmodeller har förmågan att generera högkvalitativa videor, accepterar de bara textmeddelanden som den enda semantiska vägledningen som kanske inte speglar en användares verkliga avsikter eller kan vara vaga. Resultaten av en majoritet av VDM-modellerna ansluter sig dock sällan till ingångsbilden och lider av den orealistiska tidsvariationen. DynamiCrafter-metoden bygger på textkonditionerade videodiffusionsmodeller som utnyttjar sin rika dynamik för att animera bilder med öppna domäner. Det gör det genom att integrera skräddarsydda designs för bättre semantisk förståelse och överensstämmelse med ingångsbilden.

DynamiCrafter: Metod och arkitektur

För en given stillbild försöker DyanmiCrafter-ramverket att animera bild till video dvs producera ett kort videoklipp. Videoklippet ärver det visuella innehållet från bilden och uppvisar naturlig dynamik. Det finns dock en möjlighet att bilden kan visas på den godtyckliga platsen för den resulterande bildsekvensen. Utseendet av en bild på en godtycklig plats är en speciell sorts utmaning som observeras i bildkonditionerade videogenereringsuppgifter med höga krav på visuell överensstämmelse. Ramverket DynamiCrafter övervinner denna utmaning genom att använda de generativa prioriteringarna för förtränade videodiffusionsmodeller.

Bilddynamik från Video Diffusion Prior

Vanligtvis är modeller för spridning av text till video med öppen domän kända för att visa dynamiskt visuellt innehåll modellerad konditionering på textbeskrivningar. För att animera en stillbild med text till video-generativa prioriteringar bör ramverken först injicera den visuella informationen i videogenereringsprocessen på ett heltäckande sätt. Vidare, för dynamisk syntes, bör T2V-modellen smälta bilden för att förstå sammanhanget, samtidigt som den också ska kunna bevara de visuella detaljerna i de genererade videorna.

Textjusterad kontextrepresentation

För att vägleda videogenerering med bildsammanhang försöker DynamiCrafter-ramverket att projicera bilden i ett anpassat inbäddningsutrymme så att videomodellen kan använda bildinformationen på ett kompatibelt sätt. Efter detta använder DynamiCrafter-ramverket bildkodaren för att extrahera bildegenskaper från inmatningsbilden eftersom textinbäddningarna genereras med en förtränad CLIP-textkodare. Nu, även om de globala semantiska tokens från CLIP-bildkodaren är inriktade med bildtexterna, representerar den i första hand det visuella innehållet på semantisk nivå, och lyckas således inte fånga hela bildens omfattning. DynamiCrafter-ramverket implementerar fullständiga visuella tokens från det sista lagret av CLIP-kodaren för att extrahera mer fullständig information eftersom dessa visuella tokens visar högtrohet i villkorliga bildgenereringsuppgifter. Dessutom använder ramverket kontext- och textinbäddningar för att interagera med U-Nets mellanfunktioner genom att använda de dubbla korsuppmärksamhetslagren. Designen av denna komponent underlättar modellens förmåga att absorbera bildförhållanden på ett lagerberoende sätt. Dessutom, eftersom de mellanliggande skikten av U-Net-arkitekturen associerar mer med objektpositioner eller former, förväntas det att bildegenskaperna kommer att påverka utseendet på videorna till övervägande del, särskilt eftersom de två ändlagren är mer kopplade till utseendet.

Visuell detaljvägledning

Ramverket DyanmiCrafter använder rik-informativ kontextrepresentation som gör att videodiffusionsmodellen i sin arkitektur kan producera videor som liknar ingångsbilden. Men, som visas i följande bild, kan det genererade innehållet visa vissa avvikelser på grund av den begränsade förmågan hos den förtränade CLIP-kodaren att bevara den inmatade informationen helt, eftersom den har utformats för att anpassa språk och visuella funktioner.

För att förbättra visuell överensstämmelse föreslår DynamiCrafter-ramverket att förse videodiffusionsmodellen med ytterligare visuella detaljer extraherade från ingångsbilden. För att uppnå detta sammanfogar DyanmiCrafter-modellen den villkorliga bilden med initialt brus per bildruta och matar dem till den brusreducerande U-Net-komponenten som vägledning.

Träningsparadigm

DynamiCrafter-ramverket integrerar den villkorliga bilden genom två kompletterande strömmar som spelar en betydande roll i detaljstyrning och kontextkontroll. För att underlätta detsamma använder DynamiCrafter-modellen en träningsprocess i tre steg

I det första steget tränar modellen bildkontextrepresentationsnätverket.
I det andra steget anpassar modellen bildkontextrepresentationsnätverket till Text to Video-modellen.
I det tredje och sista steget finjusterar modellen nätverket för bildkontextrepresentation tillsammans med komponenten Visual Detail Guidance.

För att anpassa bildinformation för kompatibilitet med Text-to-Video (T2V)-modellen föreslår DynamiCrafter-ramverket att man utvecklar ett nätverk för kontextrepresentation, P, utformat för att fånga textjusterade visuella detaljer från den givna bilden. Inse att P kräver många optimeringssteg för konvergens, innebär ramverkets tillvägagångssätt att initialt träna det med en enklare Text-to-Image (T2I) modell. Denna strategi tillåter kontextrepresentationsnätverket att koncentrera sig på att lära sig om bildkontexten innan det integreras med T2V-modellen genom gemensam träning med P och de rumsliga skikten, i motsats till de tidsmässiga skikten, i T2V-modellen.

För att säkerställa T2V-kompatibilitet slår DyanmiCrafter-ramverket samman ingångsbilden med brus per bildruta, och fortsätter att finjustera både P och Visual Discrimination Models (VDM) rumsliga lager. Denna metod är vald för att bibehålla integriteten hos T2V-modellens befintliga tidsmässiga insikter utan de negativa effekterna av tät bildsammanslagning, vilket kan äventyra prestandan och avvika från vårt primära mål. Dessutom använder ramverket en strategi att slumpmässigt välja en videoram som bildvillkor för att uppnå två mål: (i) att undvika att nätverket utvecklar ett förutsägbart mönster som direkt associerar den sammanslagna bilden med en specifik bildruteplats, och (ii) till uppmuntra en mer anpassningsbar kontextrepresentation genom att förhindra tillhandahållandet av alltför stel information för en viss ram.

DynamiCrafter: Experiment och resultat

DynamiCrafter-ramverket tränar först kontextrepresentationsnätverket och bildkorsuppmärksamhetslagren på Stable Diffusion. Ramverket ersätter då Stabil diffusion komponent med VideoCrafter och finjusterar ytterligare nätverket för kontextrepresentation och rumsliga lager för anpassning och med bildsammansättning. Vid slutsatsen antar ramverket DDIM-samplaren med flertillståndsklassificerarefri vägledning. Dessutom, för att utvärdera den tidsmässiga koherensen och kvaliteten på videorna som syntetiseras i både de tidsmässiga och rumsliga domänerna, rapporterar ramverket FVD eller Frechet Video Distance, såväl som KVD eller Kernel Video Distance, och utvärderar nollbildsprestandan på alla metoder av MSR-VTT och UCF-101 riktmärken. För att undersöka den perceptuella överensstämmelsen mellan de genererade resultaten och ingångsbilden introducerar ramverket PIC eller Perceptual Input Conformity, och antar det perceptuella avståndsmåttet DreamSim som funktion av avstånd.

Följande figur visar den visuella jämförelsen av genererat animerat innehåll med olika stilar och innehåll.

Som det kan observeras, bland alla olika metoder, ansluter DynamiCrafter-ramverket väl till ingångsbildens tillstånd och genererar tidsmässigt koherenta videor. Följande tabell innehåller statistik från en användarstudie med 49 deltagare av preferensgraden för Temporal Coherence (TC) och Motion Quality (MC) tillsammans med urvalsfrekvensen för visuell överensstämmelse med ingångsbilden. (IC). Som det kan observeras kan DynamiCrafter-ramverket överträffa befintliga metoder med avsevärd marginal.

Följande figur visar de resultat som uppnåtts med dual-stream-injektionsmetoden och träningsparadigmet.

Avslutande tankar

I den här artikeln har vi pratat om DynamiCrafter, ett försök att övervinna de nuvarande begränsningarna för bildanimationsmodeller och utöka deras tillämpbarhet till generiska scenarier som involverar bilder i öppen värld. DynamiCrafter-ramverket försöker syntetisera dynamiskt innehåll för bilder med öppna domäner och konvertera dem till animerade videor. Nyckelidén bakom DynamiCrafter är att införliva bilden som vägledning i den generativa processen i ett försök att använda rörelsen före de redan existerande text-till-video-diffusionsmodellerna. För en given bild implementerar DynamiCrafter-modellen först en frågetransformator som projicerar bilden till ett textjusterat utrymme för rik kontextrepresentation, vilket underlättar videomodellen att smälta bildinnehållet på ett kompatibelt sätt. Men DynamiCrafter-modellen kämpar fortfarande för att bevara vissa visuella detaljer i de resulterande videorna, ett problem som DynamiCrafter-modellen övervinner genom att mata hela bilden till diffusionsmodellen genom att sammanfoga bilden med de initiala brusen, och därför kompletterar modellen med mer exakt bild information.

Strax

En fullständig guide för att finjustera stora språkmodeller

Missa inte

Ny neural modell möjliggör AI-till-AI språklig kommunikation

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.

Unite.AI

DynamiCrafter: Animera bilder med öppen domän med videospridningsföregångar

Artificiell intelligens

DynamiCrafter: Animera bilder med öppen domän med videospridningsföregångar

Innehållsförteckning

DynamiCrafter: Open-Domain Images Animation