potongan DynamiCrafter: Menganimasikan Gambar Domain Terbuka dengan Video Diffusion Priors - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

DynamiCrafter: Menganimasikan Gambar Domain Terbuka dengan Video Diffusion Priors

mm

Diterbitkan

 on

DynamiCrafter: Menganimasikan Gambar Domain Terbuka dengan Video Diffusion Priors

Visi komputer adalah salah satu bidang yang paling menarik dan paling banyak diteliti dalam komunitas AI saat ini, dan meskipun model visi komputer mengalami peningkatan pesat, tantangan lama yang masih menjadi masalah bagi pengembang adalah animasi gambar. Bahkan saat ini, kerangka animasi gambar berjuang untuk mengubah gambar diam menjadi video masing-masing yang menampilkan dinamika alami sambil mempertahankan tampilan asli gambar. Secara tradisional, kerangka animasi gambar berfokus terutama pada animasi pemandangan alam dengan gerakan spesifik domain seperti rambut manusia atau gerakan tubuh, atau dinamika stokastik seperti cairan dan awan. Meskipun pendekatan ini berhasil sampai batas tertentu, pendekatan ini membatasi penerapan kerangka animasi ini pada konten visual yang lebih umum. 

Selain itu, pendekatan animasi gambar konvensional berkonsentrasi terutama pada sintesis gerakan osilasi dan stokastik, atau pada penyesuaian kategori objek tertentu. Namun, kelemahan penting dari pendekatan ini adalah asumsi kuat yang diterapkan pada metode ini yang pada akhirnya membatasi penerapannya terutama pada skenario umum seperti animasi gambar domain terbuka. Selama beberapa tahun terakhir, Model T2V atau Teks ke Video telah menunjukkan keberhasilan luar biasa dalam menghasilkan video yang jelas dan beragam menggunakan petunjuk tekstual, dan demonstrasi model T2V inilah yang menjadi landasan bagi kerangka kerja DynamiCrafter. 

Kerangka kerja DynamiCrafter adalah upaya untuk mengatasi keterbatasan model animasi gambar saat ini dan memperluas penerapannya pada skenario umum yang melibatkan gambar dunia terbuka. Kerangka kerja DynamiCrafter mencoba mensintesis konten dinamis untuk gambar domain terbuka, mengubahnya menjadi video animasi. Ide utama di balik DynamiCrafter adalah menggabungkan gambar sebagai panduan ke dalam proses generatif dalam upaya memanfaatkan gerakan sebelum model difusi teks ke video yang sudah ada. Untuk gambar tertentu, model DynamiCrafter pertama-tama mengimplementasikan transformator kueri yang memproyeksikan gambar ke dalam ruang representasi konteks kaya yang selaras dengan teks, sehingga memfasilitasi model video untuk mencerna konten gambar dengan cara yang kompatibel. Namun, model DynamiCrafter masih kesulitan untuk mempertahankan beberapa detail visual dalam video yang dihasilkan, masalah yang diatasi oleh model DynamiCrafter dengan memasukkan gambar penuh ke model difusi dengan menggabungkan gambar dengan noise awal, sehingga melengkapi model dengan gambar yang lebih presisi. informasi. 

Artikel ini bertujuan untuk membahas kerangka kerja DynamiCrafter secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur kerangka kerja beserta perbandingannya dengan kerangka pembuatan gambar dan video yang canggih. Jadi mari kita mulai. 

DynamiCrafter : Animasi Gambar Domain Terbuka

Menganimasikan gambar diam sering kali menawarkan pengalaman visual yang menarik bagi penontonnya karena seolah-olah membuat gambar diam menjadi hidup. Selama bertahun-tahun, banyak kerangka kerja telah mengeksplorasi berbagai metode menganimasikan gambar diam. Kerangka kerja animasi awal menerapkan pendekatan berbasis simulasi fisik yang berfokus pada simulasi gerakan objek tertentu. Namun, karena pemodelan independen dari setiap kategori objek, pendekatan ini tidak efektif dan tidak dapat digeneralisasikan. Untuk mereplikasi gerakan yang lebih realistis, muncul metode berbasis referensi yang mentransfer informasi gerakan atau tampilan dari sinyal referensi seperti video ke proses sintesis. Meskipun pendekatan berbasis referensi memberikan hasil yang lebih baik dengan koherensi temporal yang lebih baik jika dibandingkan dengan pendekatan berbasis simulasi, pendekatan berbasis referensi memerlukan panduan tambahan yang membatasi penerapan praktisnya. 

Dalam beberapa tahun terakhir, sebagian besar kerangka animasi berfokus terutama pada animasi adegan alam dengan gerakan stokastik, spesifik domain, atau berosilasi. Meskipun pendekatan yang diterapkan oleh kerangka kerja ini berhasil sampai batas tertentu, hasil yang dihasilkan oleh kerangka kerja ini masih belum memuaskan dan masih ada ruang untuk perbaikan yang signifikan. Hasil luar biasa yang dicapai model generatif Text to Video dalam beberapa tahun terakhir telah menginspirasi para pengembang kerangka kerja DynamiCrafter untuk memanfaatkan kemampuan generatif yang kuat dari model Text to Video untuk animasi gambar. 

Landasan utama kerangka kerja DynamiCrafter adalah menggabungkan gambar bersyarat dalam upaya mengatur proses pembuatan video Model difusi Teks ke Video. Namun, tujuan akhir dari animasi gambar masih tetap tidak sepele karena animasi gambar memerlukan pelestarian detail serta pemahaman konteks visual yang penting untuk menciptakan dinamika. Namun, model difusi video multimodal yang dapat dikontrol seperti VideoComposer telah berupaya memungkinkan pembuatan video dengan panduan visual dari sebuah gambar. Namun, pendekatan ini tidak cocok untuk animasi gambar karena dapat mengakibatkan perubahan temporal yang tiba-tiba atau rendahnya kesesuaian visual terhadap gambar masukan karena mekanisme injeksi gambar yang kurang komprehensif. Untuk mengatasi rintangan ini, kerangka kerja DyaniCrafter mengusulkan pendekatan injeksi aliran ganda, yang terdiri dari panduan detail visual, dan representasi konteks yang selaras dengan teks. Pendekatan injeksi aliran ganda memungkinkan kerangka kerja DynamiCrafter memastikan model difusi video menyintesis konten dinamis yang dijaga detailnya dengan cara yang saling melengkapi. 

Untuk gambar tertentu, kerangka kerja DynamiCrafter pertama-tama memproyeksikan gambar tersebut ke dalam ruang representasi konteks yang disejajarkan dengan teks menggunakan jaringan pembelajaran konteks yang dirancang khusus. Untuk lebih spesifiknya, ruang representasi konteks terdiri dari transformator kueri yang dapat dipelajari untuk lebih mempromosikan adaptasinya terhadap model difusi, dan encoder gambar CLIP yang telah dilatih sebelumnya untuk mengekstrak fitur gambar yang disejajarkan dengan teks. Model kemudian menggunakan fitur konteks kaya menggunakan lapisan perhatian silang, dan model menggunakan fusi yang terjaga keamanannya untuk menggabungkan fitur teks ini dengan lapisan perhatian silang. Namun, pendekatan ini memperdagangkan representasi konteks yang dipelajari dengan detail visual selaras teks yang memfasilitasi pemahaman semantik tentang konteks gambar sehingga memungkinkan sintesis dinamika yang masuk akal dan jelas. Selain itu, dalam upaya untuk melengkapi detail visual tambahan, kerangka kerja ini menggabungkan gambar penuh dengan noise awal ke model difusi. Hasilnya, pendekatan injeksi ganda yang diterapkan oleh kerangka kerja DynamiCrafter menjamin kesesuaian visual serta konten dinamis yang masuk akal terhadap gambar masukan. 

Selanjutnya, model difusi atau DM telah menunjukkan kinerja luar biasa dan kecakapan generatif dalam pembuatan T2I atau Teks ke Gambar. Untuk mereplikasi keberhasilan model T2I dalam pembuatan video, diusulkan VDM atau Model Difusi Video yang menggunakan arsitektur U-New dengan faktor ruang-waktu dalam ruang piksel untuk memodelkan video resolusi rendah. Mentransfer pembelajaran kerangka T2I ke kerangka T2V akan membantu mengurangi biaya pelatihan. Meskipun VDM atau Model Difusi Video memiliki kemampuan untuk menghasilkan video berkualitas tinggi, model tersebut hanya menerima perintah teks sebagai satu-satunya panduan semantik yang mungkin tidak mencerminkan maksud sebenarnya dari pengguna atau mungkin tidak jelas. Namun, hasil dari sebagian besar model VDM jarang sesuai dengan gambar masukan dan mengalami masalah variasi temporal yang tidak realistis. Pendekatan DynamiCrafter dibangun berdasarkan Model Difusi Video berkondisi teks yang memanfaatkan dinamika kaya sebelumnya untuk menganimasikan gambar domain terbuka. Ia melakukannya dengan menggabungkan desain yang disesuaikan untuk pemahaman semantik yang lebih baik dan kesesuaian dengan gambar masukan. 

DynamiCrafter: Metode dan Arsitektur

Untuk gambar diam tertentu, kerangka kerja DyanmiCrafter mencoba menganimasikannya gambar ke video yaitu menghasilkan klip video pendek. Klip video mewarisi konten visual dari gambar, dan memperlihatkan dinamika alami. Namun, ada kemungkinan gambar muncul di lokasi sembarang pada urutan bingkai yang dihasilkan. Kemunculan gambar di lokasi yang berubah-ubah merupakan jenis tantangan khusus yang diamati dalam tugas pembuatan video yang dikondisikan gambar dengan persyaratan kesesuaian visual yang tinggi. Kerangka kerja DynamiCrafter mengatasi tantangan ini dengan memanfaatkan model difusi video yang telah dilatih sebelumnya secara generatif. 

Dinamika Gambar dari Difusi Video Sebelumnya

Biasanya, model difusi teks ke video domain terbuka diketahui menampilkan pengkondisian model konten visual dinamis pada deskripsi teks. Untuk menganimasikan gambar diam dengan pendahuluan generatif Teks ke Video, kerangka kerja harus terlebih dahulu memasukkan informasi visual ke dalam proses pembuatan video secara komprehensif. Selain itu, untuk sintesis dinamis, model T2V harus mencerna gambar untuk memahami konteks, sekaligus mempertahankan detail visual dalam video yang dihasilkan. 

Representasi Konteks Selaras Teks

Untuk memandu pembuatan video dengan konteks gambar, kerangka kerja DynamiCrafter berupaya memproyeksikan gambar ke dalam ruang penyematan yang selaras sehingga memungkinkan model video menggunakan informasi gambar dengan cara yang kompatibel. Setelah itu, kerangka kerja DynamiCrafter menggunakan encoder gambar untuk mengekstrak fitur gambar dari gambar masukan karena penyematan teks dihasilkan menggunakan encoder teks CLIP yang telah dilatih sebelumnya. Sekarang, meskipun token semantik global dari encoder gambar CLIP disejajarkan dengan keterangan gambar, token tersebut terutama mewakili konten visual pada tingkat semantik, sehingga gagal menangkap keseluruhan gambar. Kerangka kerja DynamiCrafter mengimplementasikan token visual penuh dari lapisan terakhir encoder CLIP untuk mengekstrak informasi yang lebih lengkap karena token visual ini menunjukkan ketelitian tinggi dalam tugas pembuatan gambar bersyarat. Selain itu, kerangka kerja ini menggunakan penyematan konteks dan teks untuk berinteraksi dengan fitur perantara U-Net menggunakan lapisan perhatian silang ganda. Desain komponen ini memfasilitasi kemampuan model untuk menyerap kondisi gambar secara bergantung pada lapisan. Selain itu, karena lapisan tengah arsitektur U-Net lebih banyak dikaitkan dengan pose atau bentuk objek, fitur gambar diperkirakan akan lebih memengaruhi tampilan video, terutama karena lapisan kedua ujungnya lebih terkait dengan tampilan. 

Panduan Detail Visual

Kerangka kerja DyanmiCrafter menggunakan representasi konteks yang kaya dan informatif yang memungkinkan model difusi video dalam arsitekturnya menghasilkan video yang sangat mirip dengan gambar masukan. Namun, seperti yang ditunjukkan pada gambar berikut, konten yang dihasilkan mungkin menampilkan beberapa perbedaan karena terbatasnya kemampuan encoder CLIP yang telah dilatih sebelumnya untuk menyimpan informasi masukan sepenuhnya, karena konten tersebut telah dirancang untuk menyelaraskan fitur bahasa dan visual. 

Untuk meningkatkan kesesuaian visual, kerangka kerja DynamiCrafter mengusulkan untuk menyediakan model difusi video dengan detail visual tambahan yang diekstraksi dari gambar masukan. Untuk mencapai hal ini, model DyanmiCrafter menggabungkan gambar kondisional dengan noise awal per frame dan memasukkannya ke komponen denoising U-Net sebagai panduan. 

Paradigma Pelatihan

Kerangka kerja DynamiCrafter mengintegrasikan gambar kondisional melalui dua aliran yang saling melengkapi yang memainkan peran penting dalam panduan detail dan kontrol konteks. Untuk memfasilitasi hal yang sama, model DynamiCrafter menggunakan proses pelatihan tiga langkah

  1. Pada langkah pertama, model melatih jaringan representasi konteks gambar. 
  2. Pada langkah kedua, model mengadaptasi jaringan representasi konteks gambar ke model Text to Video. 
  3. Pada langkah ketiga dan terakhir, model menyempurnakan jaringan representasi konteks gambar bersama dengan komponen Panduan Detail Visual. 

Untuk mengadaptasi informasi gambar agar kompatibel dengan model Text-to-Video (T2V), kerangka kerja DynamiCrafter menyarankan pengembangan jaringan representasi konteks, P, yang dirancang untuk menangkap detail visual selaras teks dari gambar tertentu. Menyadari bahwa P memerlukan banyak langkah pengoptimalan untuk konvergensi, pendekatan kerangka kerja ini awalnya melibatkan pelatihan menggunakan model Text-to-Image (T2I) yang lebih sederhana. Strategi ini memungkinkan jaringan representasi konteks untuk berkonsentrasi mempelajari konteks gambar sebelum mengintegrasikannya dengan model T2V melalui pelatihan bersama dengan P dan lapisan spasial, dibandingkan dengan lapisan temporal, pada model T2V. 

Untuk memastikan kompatibilitas T2V, kerangka kerja DyanmiCrafter menggabungkan gambar input dengan noise per frame, kemudian menyempurnakan lapisan spasial P dan Model Diskriminasi Visual (VDM). Metode ini dipilih untuk menjaga integritas wawasan temporal model T2V yang ada tanpa efek buruk dari penggabungan gambar yang padat, yang dapat mengganggu kinerja dan menyimpang dari tujuan utama kami. Selain itu, kerangka kerja ini menggunakan strategi pemilihan bingkai video secara acak sebagai kondisi gambar untuk mencapai dua tujuan: (i) untuk menghindari jaringan mengembangkan pola yang dapat diprediksi yang secara langsung mengaitkan gambar yang digabungkan dengan lokasi bingkai tertentu, dan (ii) untuk mendorong representasi konteks yang lebih mudah beradaptasi dengan mencegah penyediaan informasi yang terlalu kaku untuk kerangka tertentu. 

DynamiCrafter: Eksperimen dan Hasil

Kerangka kerja DynamiCrafter pertama-tama melatih jaringan representasi konteks dan lapisan perhatian silang gambar pada Difusi Stabil. Kerangka kerja tersebut kemudian menggantikan Difusi Stabil komponen dengan VideoCrafter dan selanjutnya menyempurnakan jaringan representasi konteks dan lapisan spasial untuk adaptasi, dan dengan penggabungan gambar. Sebagai kesimpulan, kerangka kerja ini mengadopsi sampler DDIM dengan panduan bebas pengklasifikasi multi-kondisi. Selain itu, untuk mengevaluasi koherensi temporal dan kualitas video yang disintesis dalam domain temporal dan spasial, kerangka kerja melaporkan FVD atau Frechet Video Distance, serta KVD atau Kernel Video Distance, dan mengevaluasi kinerja zero-shot pada semua metode. tolok ukur MSR-VTT dan UCF-101. Untuk menyelidiki kesesuaian persepsi antara hasil yang dihasilkan dan gambar masukan, kerangka kerja ini memperkenalkan PIC atau Kesesuaian Input Perseptual, dan mengadopsi metrik jarak persepsi DreamSim sebagai fungsi jarak. 

Gambar berikut menunjukkan perbandingan visual konten animasi yang dihasilkan dengan gaya dan konten berbeda. 

Seperti yang dapat diamati, di antara semua metode yang berbeda, kerangka kerja DynamiCrafter mematuhi kondisi gambar masukan dengan baik, dan menghasilkan video yang koheren secara temporal. Tabel berikut berisi statistik dari studi pengguna dengan 49 peserta tentang tingkat preferensi untuk Koherensi Temporal (TC), dan Kualitas Gerakan (MC) serta tingkat pemilihan kesesuaian visual dengan gambar masukan. (IC). Seperti yang dapat diamati, kerangka kerja DynamiCrafter mampu mengungguli metode yang ada dengan selisih yang cukup besar. 

Gambar berikut menunjukkan hasil yang dicapai dengan menggunakan metode injeksi aliran ganda dan paradigma pelatihan. 

Final Thoughts

Dalam artikel ini, kita telah membahas tentang DynamiCrafter, sebuah upaya untuk mengatasi keterbatasan model animasi gambar saat ini dan memperluas penerapannya pada skenario umum yang melibatkan gambar dunia terbuka. Kerangka kerja DynamiCrafter mencoba mensintesis konten dinamis untuk gambar domain terbuka, mengubahnya menjadi video animasi. Ide utama di balik DynamiCrafter adalah menggabungkan gambar sebagai panduan ke dalam proses generatif dalam upaya memanfaatkan gerakan sebelum model difusi teks ke video yang sudah ada. Untuk gambar tertentu, model DynamiCrafter pertama-tama mengimplementasikan transformator kueri yang memproyeksikan gambar ke dalam ruang representasi konteks kaya yang selaras dengan teks, sehingga memfasilitasi model video untuk mencerna konten gambar dengan cara yang kompatibel. Namun, model DynamiCrafter masih kesulitan untuk mempertahankan beberapa detail visual dalam video yang dihasilkan, masalah yang diatasi oleh model DynamiCrafter dengan memasukkan gambar penuh ke model difusi dengan menggabungkan gambar dengan noise awal, sehingga melengkapi model dengan gambar yang lebih presisi. informasi. 

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.