saplama DynamiCrafter: Açık Alan Görüntülerini Video Yayılım Öncelikleri ile Canlandırma - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

DynamiCrafter: Açık Alan Görüntülerini Video Yayılım Öncelikleri ile Canlandırma

mm

Yayınlanan

 on

DynamiCrafter: Açık Alan Görüntülerini Video Yayılım Öncelikleri ile Canlandırma

Bilgisayar görüşü günümüzün yapay zeka topluluğu içindeki en heyecan verici ve en iyi araştırılmış alanlarından biridir ve bilgisayarla görme modellerinin hızlı bir şekilde geliştirilmesine rağmen, görüntü animasyonu, geliştiricileri hala rahatsız eden uzun süredir devam eden bir zorluktur. Bugün bile görüntü animasyon çerçeveleri, durağan görüntüleri, görüntülerin orijinal görünümünü korurken doğal dinamikleri sergileyen ilgili video karşılıklarına dönüştürmekte zorlanıyor. Geleneksel olarak görüntü animasyon çerçeveleri öncelikle doğal sahneleri insan saçı veya vücut hareketleri gibi alana özgü hareketlerle veya sıvılar ve bulutlar gibi stokastik dinamiklerle canlandırmaya odaklanır. Bu yaklaşım bir dereceye kadar işe yarasa da, bu animasyon çerçevelerinin uygulanabilirliğini daha genel görsel içeriklere sınırlıyor. 

Ayrıca, geleneksel görüntü animasyonu yaklaşımları öncelikle salınımlı ve stokastik hareketlerin sentezlenmesine veya belirli nesne kategorileri için özelleştirmeye odaklanır. Bununla birlikte, yaklaşımın dikkate değer bir kusuru, bu yöntemlere uygulanan ve özellikle açık alan görüntü animasyonu gibi genel senaryolarda uygulanabilirliğini sonuçta sınırlayan güçlü varsayımlardır. Geçtiğimiz birkaç yılda, T2V veya Metinden Videoya modelleri metinsel istemleri kullanarak canlı ve çeşitli videolar oluşturma konusunda dikkate değer bir başarı gösterdiler ve T2V modellerinin bu gösterimi, DynamiCrafter çerçevesinin temelini oluşturan şeydir. 

DynamiCrafter çerçevesi, görüntü animasyon modellerinin mevcut sınırlamalarının üstesinden gelme ve bunların uygulanabilirliğini açık dünya görüntülerini içeren genel senaryolara genişletme girişimidir. DynamiCrafter çerçevesi, açık alan görüntüleri için dinamik içeriği sentezleyerek bunları animasyonlu videolara dönüştürmeye çalışır. DynamiCrafter'ın ardındaki temel fikir, halihazırda var olan metinden videoya yayılma modellerinden önceki hareketi kullanmak amacıyla görüntüyü üretken sürece kılavuz olarak dahil etmektir. Belirli bir görüntü için DynamiCrafter modeli ilk önce görüntüyü metin hizalı zengin bağlam temsil alanına yansıtan bir sorgu dönüştürücüyü uygular ve video modelinin görüntü içeriğini uyumlu bir şekilde sindirmesini kolaylaştırır. Bununla birlikte, DynamiCrafter modeli hala elde edilen videolarda bazı görsel ayrıntıları korumakta zorlanmaktadır; bu sorun DynamiCrafter modelinin, görüntüyü ilk gürültülerle birleştirerek tam görüntüyü difüzyon modeline besleyerek ve dolayısıyla modeli daha kesin görüntüyle tamamlayarak üstesinden geldiği bir sorundur. bilgi. 

Bu makale DynamiCrafter çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve bunun en son teknolojiye sahip görüntü ve video oluşturma çerçeveleriyle karşılaştırmasını araştırıyoruz. Öyleyse başlayalım. 

DynamiCrafter: Açık Alan Görüntüleri Animasyonu

Hareketsiz bir görüntüyü canlandırmak, genellikle izleyiciye ilgi çekici bir görsel deneyim sunar çünkü hareketsiz görüntüyü hayata geçiriyor gibi görünür. Yıllar boyunca çok sayıda çerçeve, hareketsiz görüntüleri canlandırmanın çeşitli yöntemlerini araştırdı. İlk animasyon çerçeveleri, belirli nesnelerin hareketini simüle etmeye odaklanan fiziksel simülasyon tabanlı yaklaşımları uyguladı. Ancak her nesne kategorisinin bağımsız modellenmesi nedeniyle bu yaklaşımlar ne etkili ne de genellenebilirliğe sahip olmuştur. Daha gerçekçi hareketleri kopyalamak için, hareket veya görünüm bilgilerini videolar gibi referans sinyallerinden sentez sürecine aktaran referans tabanlı yöntemler ortaya çıktı. Her ne kadar referansa dayalı yaklaşımlar, simülasyona dayalı yaklaşımlarla karşılaştırıldığında daha iyi zamansal tutarlılıkla daha iyi sonuçlar sunsa da, pratik uygulamalarını sınırlayan ek rehberliğe ihtiyaç duyuyorlardı. 

Son yıllarda, animasyon çerçevelerinin çoğunluğu öncelikle doğal sahneleri stokastik, alana özgü veya salınımlı hareketlerle canlandırmaya odaklanıyor. Bu çerçevelerin uyguladığı yaklaşım bir dereceye kadar işe yarasa da, bu çerçevelerin ürettiği sonuçlar tatmin edici değildir ve önemli ölçüde geliştirilmeye açıktır. Geçtiğimiz birkaç yılda Metinden Videoya üretken modellerle elde edilen olağanüstü sonuçlar, DynamiCrafter çerçevesinin geliştiricilerine görüntü animasyonu için Metinden Videoya modellerinin güçlü üretken özelliklerinden yararlanma konusunda ilham verdi. 

DynamiCrafter çerçevesinin temel temeli, video oluşturma sürecini yönetmek amacıyla koşullu bir görüntüyü dahil etmektir. Metinden Videoya yayılma modelleri. Bununla birlikte, görüntü animasyonunun nihai hedefi hala önemsiz değildir, çünkü görüntü animasyonu, dinamiklerin yaratılması için gerekli olan görsel bağlamların anlaşılmasının yanı sıra ayrıntıların korunmasını da gerektirir. Bununla birlikte, VideoComposer gibi çok modlu kontrol edilebilir video dağıtım modelleri, bir görüntüden görsel rehberlikle video oluşturulmasını mümkün kılmaya çalışmıştır. Ancak bu yaklaşımlar görüntü animasyonu için uygun değildir çünkü ya ani zamansal değişikliklere neden olurlar ya da daha az kapsamlı görüntü enjeksiyon mekanizmaları nedeniyle girdi görüntüsüne düşük görsel uyum sağlarlar. Bu engeli aşmak için DyaniCrafter çerçevesi, görsel ayrıntı rehberliği ve metin hizalı bağlam gösteriminden oluşan çift akışlı bir enjeksiyon yaklaşımı önermektedir. Çift akışlı enjeksiyon yaklaşımı, DynamiCrafter çerçevesinin video dağıtım modelinin ayrıntıları korunan dinamik içeriği tamamlayıcı bir şekilde sentezlemesini sağlamasına olanak tanır. 

Belirli bir görüntü için, DynamiCrafter çerçevesi öncelikle özel olarak tasarlanmış bir bağlam öğrenme ağını kullanarak görüntüyü metin hizalı bağlam temsil alanına yansıtır. Daha spesifik olmak gerekirse, bağlam temsil alanı, yayılma modellerine adaptasyonunu daha da geliştirmek için öğrenilebilir bir sorgu transformatöründen ve metin hizalı görüntü özelliklerini çıkarmak için önceden eğitilmiş bir CLIP görüntü kodlayıcıdan oluşur. Model daha sonra çapraz dikkat katmanlarını kullanarak zengin bağlam özelliklerini kullanır ve model, bu metin özelliklerini çapraz dikkat katmanlarıyla birleştirmek için kapılı birleştirmeyi kullanır. Bununla birlikte, bu yaklaşım, öğrenilen bağlam temsillerini, görüntü bağlamının semantik olarak anlaşılmasını kolaylaştıran, makul ve canlı dinamiklerin sentezlenmesine olanak tanıyan metin hizalı görsel ayrıntılarla değiştirir. Ayrıca, ek görsel ayrıntıları tamamlamak amacıyla çerçeve, tam görüntüyü başlangıç ​​gürültüsüyle birlikte yayılma modeline birleştirir. Sonuç olarak, DynamiCrafter çerçevesi tarafından uygulanan çift enjeksiyon yaklaşımı, giriş görüntüsüne görsel uygunluğun yanı sıra makul dinamik içeriği de garanti eder. 

Devam edersek, yayılma modelleri veya DM'ler, T2I veya Metinden Görüntüye oluşturmada olağanüstü performans ve üretken yetenek sergilemiştir. T2I modellerinin başarısını video üretimine kopyalamak için, düşük çözünürlüklü videoları modellemek üzere piksel uzayında uzay-zaman faktörlü U-Yeni mimarisini kullanan VDM veya Video Yayılım Modelleri önerilmektedir. T2I çerçevelerinden edinilen bilgilerin T2V çerçevelerine aktarılması, eğitim maliyetlerinin azaltılmasına yardımcı olacaktır. VDM veya Video Dağıtım Modelleri, yüksek kaliteli videolar oluşturma yeteneğine sahip olsa da, kullanıcının gerçek niyetini yansıtmayabilecek veya belirsiz olabilecek tek anlamsal kılavuz olarak yalnızca metin istemlerini kabul ederler. Bununla birlikte, VDM modellerinin çoğunluğunun sonuçları nadiren girdi görüntüsüne uymakta ve gerçekçi olmayan zamansal değişim sorunu yaşamaktadır. DynamiCrafter yaklaşımı, açık alan görüntülerini canlandırmak için zengin dinamiklerinden yararlanan metin koşullu Video Dağıtım Modelleri üzerine kurulmuştur. Bunu, daha iyi anlamsal anlayış ve giriş görüntüsüne uygunluk için özel tasarımlar dahil ederek yapar. 

DynamiCrafter : Yöntem ve Mimari

Belirli bir hareketsiz görüntü için, DyanmiCrafter çerçevesi görüntüyü canlandırmaya çalışır. görüntüden videoya yani kısa bir video klip oluşturun. Video klip, görsel içeriğini görüntüden devralır ve doğal dinamikler sergiler. Ancak görüntünün, ortaya çıkan kare dizisinin rastgele konumunda görünme olasılığı vardır. Bir görüntünün rastgele bir konumda ortaya çıkması, yüksek görsel uyumluluk gereksinimleri olan görüntü koşullu video oluşturma görevlerinde gözlemlenen özel bir zorluk türüdür. DynamiCrafter çerçevesi, önceden eğitilmiş video dağıtım modellerinin üretken önceliklerini kullanarak bu zorluğun üstesinden gelir. 

Video Difüzyon Öncesinden Görüntü Dinamikleri

Genellikle, açık alanlı metinden videoya yayılma modellerinin, metin açıklamalarında dinamik görsel içerik modelli koşullandırmayı gösterdiği bilinmektedir. Hareketsiz bir görüntüyü Metinden Videoya oluşturma öncelikleriyle canlandırmak için çerçevelerin öncelikle görsel bilgiyi video oluşturma sürecine kapsamlı bir şekilde enjekte etmesi gerekir. Ayrıca dinamik sentez için T2V modelinin bağlamı anlamak amacıyla görüntüyü sindirmesi ve aynı zamanda oluşturulan videolardaki görsel ayrıntıları koruabilmesi gerekir. 

Metinle Hizalanmış Bağlam Gösterimi

DynamiCrafter çerçevesi, video oluşturmaya görüntü bağlamıyla rehberlik etmek için görüntüyü hizalanmış bir yerleştirme alanına yansıtmaya çalışır ve video modelinin görüntü bilgilerini uyumlu bir şekilde kullanmasına olanak tanır. Bunu takiben, DynamiCrafter çerçevesi, metin yerleştirmeleri önceden eğitilmiş bir CLIP metin kodlayıcı kullanılarak oluşturulduğundan, giriş görüntüsünden görüntü özelliklerini çıkarmak için görüntü kodlayıcıyı kullanır. Şimdi, CLIP görüntü kodlayıcının küresel anlamsal belirteçleri görüntü başlıklarıyla hizalanmış olmasına rağmen, öncelikle görsel içeriği anlamsal düzeyde temsil eder, dolayısıyla görüntünün tam boyutunu yakalayamaz. DynamiCrafter çerçevesi, daha eksiksiz bilgi elde etmek için CLIP kodlayıcının son katmanından tam görsel belirteçler uygular; çünkü bu görsel belirteçler, koşullu görüntü oluşturma görevlerinde yüksek doğruluk gösterir. Ayrıca çerçeve, ikili çapraz dikkat katmanlarını kullanarak U-Net ara özellikleriyle etkileşime geçmek için bağlam ve metin yerleştirmelerini kullanır. Bu bileşenin tasarımı, modelin görüntü koşullarını katmana bağlı bir şekilde absorbe etme yeteneğini kolaylaştırır. Ayrıca, U-Net mimarisinin ara katmanları nesne pozları veya şekilleriyle daha fazla ilişkilendirildiğinden, özellikle iki uç katmanların görünümle daha fazla bağlantılı olması nedeniyle görüntü özelliklerinin videoların görünümünü ağırlıklı olarak etkilemesi beklenmektedir. 

Görsel Detay Kılavuzu

DyanmiCrafter çerçevesi, mimarisindeki video dağıtım modelinin giriş görüntüsüne yakından benzeyen videolar üretmesine olanak tanıyan zengin bilgilendirici bağlam temsilini kullanır. Ancak, aşağıdaki görüntüde gösterildiği gibi, dil ve görsel özellikleri hizalamak üzere tasarlandığından, önceden eğitilmiş CLIP kodlayıcının giriş bilgilerini tamamen koruma konusundaki sınırlı kapasitesi nedeniyle oluşturulan içerik bazı farklılıklar gösterebilir. 

Görsel uygunluğu geliştirmek için DynamiCrafter çerçevesi, video dağıtım modeline giriş görüntüsünden çıkarılan ek görsel ayrıntılar sağlamayı önerir. Bunu başarmak için DyanmiCrafter modeli, koşullu görüntüyü kare başına başlangıç ​​gürültüsüyle birleştirir ve bunları kılavuz olarak gürültü giderici U-Net bileşenine besler. 

Eğitim Paradigması

DynamiCrafter çerçevesi, koşullu görüntüyü, ayrıntı rehberliği ve bağlam kontrolünde önemli bir rol oynayan iki tamamlayıcı akış aracılığıyla birleştirir. Bunu kolaylaştırmak için DynamiCrafter modeli üç adımlı bir eğitim süreci kullanıyor

  1. İlk adımda model, görüntü bağlamı temsil ağını eğitir. 
  2. İkinci adımda model, görüntü bağlamı temsil ağını Metinden Videoya modeline uyarlar. 
  3. Üçüncü ve son adımda model, Görsel Ayrıntı Rehberliği bileşeniyle birlikte görüntü bağlamı temsil ağına ince ayar yapar. 

DynamiCrafter çerçevesi, görüntü bilgilerini Metinden Videoya (T2V) modeliyle uyumlu olacak şekilde uyarlamak için, verilen görüntüden metne hizalanmış görsel ayrıntıları yakalamak üzere tasarlanmış bir bağlam temsil ağı (P) geliştirmeyi önerir. P'nin yakınsama için birçok optimizasyon adımı gerektirdiğini kabul eden çerçevenin yaklaşımı, başlangıçta onu daha basit bir Metinden Görüntüye (T2I) modeli kullanarak eğitmeyi içerir. Bu strateji, bağlam temsili ağının, T2V modelinin zamansal katmanlarının aksine P ve uzaysal katmanlarla ortak eğitim yoluyla görüntü bağlamını T2V modeliyle entegre etmeden önce görüntü bağlamı hakkında bilgi edinmeye odaklanmasına olanak tanır. 

T2V uyumluluğunu sağlamak için DyanmiCrafter çerçevesi, giriş görüntüsünü kare başına gürültüyle birleştirerek hem P hem de Görsel Ayrım Modelinin (VDM) uzamsal katmanlarına ince ayar yapmaya devam ediyor. Bu yöntem, performansı tehlikeye atabilecek ve birincil amacımızdan sapabilecek yoğun görüntü birleştirmenin olumsuz etkileri olmadan T2V modelinin mevcut zamansal içgörülerinin bütünlüğünü korumak için seçilmiştir. Ayrıca çerçeve, iki hedefe ulaşmak için görüntü koşulu olarak rastgele bir video karesi seçme stratejisi kullanır: (i) ağın, birleştirilmiş görüntüyü belirli bir çerçeve konumuyla doğrudan ilişkilendiren öngörülebilir bir model geliştirmesini önlemek ve (ii) Herhangi bir çerçeve için aşırı katı bilgilerin sağlanmasını önleyerek daha uyarlanabilir bir bağlam temsilini teşvik edin. 

DynamiCrafter : Deneyler ve Sonuçlar

DynamiCrafter çerçevesi ilk olarak bağlam temsil ağını ve görüntü çapraz dikkat katmanlarını Kararlı Yayılma konusunda eğitir. Çerçeve daha sonra yerine geçer Kararlı Difüzyon VideoCrafter bileşenini kullanır ve uyarlama ve görüntü birleştirme için bağlam temsili ağına ve uzamsal katmanlara daha fazla ince ayar yapar. Çıkarım olarak, çerçeve, çok koşullu sınıflandırıcı içermeyen rehberlikle DDIM örnekleyiciyi benimser. Ayrıca, hem zamansal hem de uzaysal alanlarda sentezlenen videoların zamansal tutarlılığını ve kalitesini değerlendirmek için çerçeve, FVD veya Frechet Video Uzaklığının yanı sıra KVD veya Çekirdek Video Uzaklığını da rapor eder ve tüm yöntemlerde sıfır atış performansını değerlendirir. MSR-VTT ve UCF-101 kriterleri. Oluşturulan sonuçlar ile giriş görüntüsü arasındaki algısal uygunluğu araştırmak için çerçeve, PIC veya Algısal Giriş Uygunluğunu sunar ve mesafenin fonksiyonu olarak algısal mesafe metriği DreamSim'i benimser. 

Aşağıdaki şekil, oluşturulan animasyonlu içeriğin farklı stil ve içeriklerle görsel karşılaştırmasını göstermektedir. 

Görülebileceği gibi, tüm farklı yöntemler arasında DynamiCrafter çerçevesi, giriş görüntüsü durumuna iyi uyum sağlar ve zamansal olarak tutarlı videolar üretir. Aşağıdaki tablo, Giriş görüntüsüne görsel uygunluk için seçim oranının yanı sıra Zamansal Tutarlılık (TC) ve Hareket Kalitesi (MC) tercih oranına ilişkin 49 katılımcıyla yapılan bir kullanıcı çalışmasından elde edilen istatistikleri içerir. (IC). Görülebileceği gibi DynamiCrafter çerçevesi mevcut yöntemlerden önemli ölçüde daha iyi performans gösterebilmektedir. 

Aşağıdaki şekil, çift akışlı enjeksiyon yöntemi ve eğitim paradigması kullanılarak elde edilen sonuçları göstermektedir. 

Son Düşüncelerimiz

Bu makalede, görüntü animasyonu modellerinin mevcut sınırlamalarının üstesinden gelme ve açık dünya görüntülerini içeren genel senaryolara uygulanabilirliğini genişletme girişimi olan DynamiCrafter'dan bahsettik. DynamiCrafter çerçevesi, açık alan görüntüleri için dinamik içeriği sentezleyerek bunları animasyonlu videolara dönüştürmeye çalışır. DynamiCrafter'ın ardındaki temel fikir, halihazırda var olan metinden videoya yayılma modellerinden önceki hareketi kullanmak amacıyla görüntüyü üretken sürece kılavuz olarak dahil etmektir. Belirli bir görüntü için DynamiCrafter modeli ilk önce görüntüyü metin hizalı zengin bağlam temsil alanına yansıtan bir sorgu dönüştürücüyü uygular ve video modelinin görüntü içeriğini uyumlu bir şekilde sindirmesini kolaylaştırır. Bununla birlikte, DynamiCrafter modeli hala elde edilen videolarda bazı görsel ayrıntıları korumakta zorlanmaktadır; bu sorun DynamiCrafter modelinin, görüntüyü ilk gürültülerle birleştirerek tam görüntüyü difüzyon modeline besleyerek ve dolayısıyla modeli daha kesin görüntüyle tamamlayarak üstesinden geldiği bir sorundur. bilgi. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.