Yapay Zekâ
DynamiCrafter: Açık Alan Görsellerini Video Diffusion Priors ile Canlandırması
Bilgisayarlı görü bugün AI topluluğu içinde en heyecan verici ve iyi araştırılan alanlardan biridir ve bilgisayarlı görü modellerinin hızlı şekilde geliştirilmesine rağmen, geliştiricileri hala rahatsız eden uzun süredir devam eden bir zorluk vardır: görüntü animasyonu. Bugün bile, görüntü animasyonu çerçeveleri, doğal dinamikleri korurken orijinal görüntülerin görünümünü koruyarak still görüntüleri karşılık gelen video karşılıklarına dönüştürmekte mücadele etmektedir. Geleneksel olarak, görüntü animasyonu çerçeveleri, insan saçları veya vücut hareketleri gibi doğal sahneleri animasyonlaştırmaya veya sıvılar ve bulutlar gibi stokastik dinamikler gibi alan özgü hareketlere odaklanmaktadır. Bu yaklaşım belirli bir ölçüde işe yarasa da, bu animasyon çerçevelerinin uygulanabilirliğini daha genel görsel içeriğe sınırlar.
Ayrıca, geleneksel görüntü animasyonu yaklaşımları, osilasyonlu ve stokastik hareketlerin sentezlenmesine veya belirli nesne kategorileri için özelleştirilmesine odaklanmaktadır. Ancak, bu yaklaşımın önemli bir kusuru, bu yöntemlere dayatılan güçlü varsayımların, özellikle açık alan görüntü animasyonu gibi genel senaryolarda, onların uygulanabilirliğini sınırlamasıdır. Son birkaç yılda, T2V veya Metinden Videoya modelleri, metinsel.promptlar kullanarak canlı ve çeşitli videolar oluşturmakta önemli bir başarı göstermiştir ve bu T2V modellerinin gösterdiği bu başarı, DynamiCrafter çerçevesinin temelini oluşturmaktadır.
DynamiCrafter çerçevesi, mevcut görüntü animasyonu modellerinin sınırlılıklarını aşma ve onların uygulanabilirliğini açık dünya görüntüleri içeren genel senaryolara genişletme girişimidir. DynamiCrafter çerçevesi, açık alan görüntülerini canlandırarak onları animasyonlu videolara dönüştürmeyi amaçlamaktadır. DynamiCrafter’ın arkasındaki temel fikir, görüntüyü yönlendirme olarak generatif sürece entegre etmek ve zaten mevcut metinden videoya difüzyon modellerinin hareket önceliğini kullanmaktır. Verilen bir görüntü için, DynamiCrafter modeli ilk olarak görüntüyü, video modelinin görüntü içeriğini uyumlu bir şekilde sindirebilmesi için, metinle hizalanmış zengin bir bağlam temsil alanı içine yansıtan özel bir sorgu dönüştürücüsünü uygular. Ancak, DynamiCrafter modeli, stiller videolarda bazı görsel ayrıntıları korumakta hala mücadele etmektedir, bu problemi, görüntüyü difüzyon modeline, gürültü ile birleştiren ve böylece modeli daha kesin görüntü bilgisi ile destekleyen bir şekilde çözmektedir.
… (Translation continues in the same format, following the exact structure and rules provided)












