Connect with us

Artificiell intelligens

DynamiCrafter: Animerar öppen-domänbilder med video-diffusionspriorer

mm
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Datorseende är ett av de mest spännande och väl forskade områdena inom AI-gemenskapen idag, och trots den snabba förbättringen av datorseendemodellerna, är en långvarig utmaning som fortfarande plågar utvecklare bildanimation. Även idag kämpar bildanimationsramverk för att konvertera stillbilder till sina respektive videomotsvarigheter som visar naturlig dynamik samtidigt som de bevarar den ursprungliga utseendet på bilderna. Traditionellt fokuserar bildanimationsramverk främst på att animera naturliga scener med domänspecifika rörelser som människohår eller kroppsrörelser, eller stokastiska dynamiker som vätskor och moln. Även om denna metod fungerar till viss del, begränsar den tillämpbarheten av dessa animationsramverk till mer generisk visuell innehåll. 

Dessutom fokuserar konventionella bildanimationsmetoder främst på att syntetisera oscillerande och stokastiska rörelser, eller på anpassning för specifika objektkategorier. Men ett anmärkningsvärt fel med metoden är de starka antaganden som påförs dessa metoder, vilket slutligen begränsar deras tillämpbarhet, särskilt i allmänna scenarier som öppen-domänbildanimation. Under de senaste åren har T2V eller Text-till-video-modeller visat en anmärkningsvärd framgång i att generera livfulla och varierade videor med hjälp av textprompt, och detta är grunden för DynamiCrafter-ramverket. 

DynamiCrafter-ramverket är ett försök att övervinna de nuvarande begränsningarna för bildanimationsmodeller och utöka deras tillämpbarhet till generiska scenarier som involverar öppen-världsbilder. DynamiCrafter-ramverket försöker syntetisera dynamiskt innehåll för öppen-domänbilder, och omvandla dem till animerade videor. Den viktigaste idén bakom DynamiCrafter är att inkorporera bilden som vägledning i den generativa processen i ett försök att utnyttja rörelseprioriteten för de redan existerande text-till-video-diffusionsmodellerna. För en given bild, implementerar DynamiCrafter-modellen först en frågetransformator som projicerar bilden till ett text-justerat rikt context-representationsutrymme, vilket möjliggör för videomodellen att smälta bildinnehållet på ett kompatibelt sätt. Men DynamiCrafter-modellen kämpar fortfarande för att bevara vissa visuella detaljer i de resulterande videorna, ett problem som DynamiCrafter-modellen övervinner genom att mata in den fullständiga bilden till diffusionsmodellen genom att konkatenera bilden med de initiala brusen, och därmed komplettera modellen med mer exakt bildinformation. 

… (rest of the translation remains the same, following the exact structure and format as the original)

En ingenjör till yrket, en författare av hjärtat. Kunal är en teknisk skribent med ett djupt kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa begrepp inom dessa områden genom sin engagerande och informativa dokumentation.