Kecerdasan buatan

DynamiCrafter: Animasi Gambar Open-Domain dengan Prior Difusi Video

mm
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Penglihatan komputer adalah salah satu bidang yang paling menarik dan banyak diteliti dalam komunitas AI saat ini, dan meskipun peningkatan pesat dari model penglihatan komputer, tantangan lama yang masih mengganggu pengembang adalah animasi gambar. Bahkan saat ini, kerangka kerja animasi gambar masih berjuang untuk mengubah gambar diam menjadi video yang menampilkan dinamika alami sambil mempertahankan penampilan asli gambar. Secara tradisional, kerangka kerja animasi gambar fokus utama pada menganimasi adegan alami dengan gerakan domain-spesifik seperti rambut manusia atau gerakan tubuh, atau dinamika stokastik seperti fluida dan awan. Meskipun pendekatan ini bekerja sampai batas tertentu, hasil yang dihasilkan oleh kerangka kerja ini tidak memuaskan, dengan ruang yang signifikan untuk perbaikan.

Selain itu, pendekatan animasi gambar konvensional fokus utama pada mensintesis gerakan osilasi dan stokastik, atau pada mengkustomisasi untuk kategori objek tertentu. Namun, kelemahan yang signifikan dari pendekatan ini adalah asumsi yang kuat yang diberikan pada metode ini yang pada akhirnya membatasi kemampuan mereka, terutama dalam skenario umum seperti animasi gambar open-domain. Selama beberapa tahun terakhir, T2V atau Model Text-to-Video telah menunjukkan kesuksesan luar biasa dalam menghasilkan video yang hidup dan beragam menggunakan prompt teks, dan demonstrasi model T2V ini adalah dasar untuk kerangka kerja DynamiCrafter.

Kerangka kerja DynamiCrafter adalah upaya untuk mengatasi keterbatasan model animasi gambar saat ini dan memperluas kemampuan mereka untuk skenario umum yang melibatkan gambar open-domain. Kerangka kerja DynamiCrafter berusaha untuk mensintesis konten dinamis untuk gambar open-domain, mengubahnya menjadi video animasi. Ide utama di balik DynamiCrafter adalah untuk menggabungkan gambar sebagai panduan dalam proses generatif dalam upaya untuk memanfaatkan prior gerak dari model difusi teks-ke-video yang sudah ada. Untuk gambar yang diberikan, model DynamiCrafter pertama-tama mengimplementasikan transformer kueri yang memproyeksikan gambar ke dalam ruang representasi konteks yang kaya dan sesuai dengan teks, memfasilitasi model video untuk mencerna konten gambar dengan cara yang kompatibel. Namun, model DynamiCrafter masih berjuang untuk mempertahankan beberapa detail visual dalam video hasil, masalah yang diatasi oleh model DynamiCrafter dengan memberikan gambar penuh ke model difusi dengan menggabungkan gambar dengan kebisingan awal, sehingga melengkapi model dengan informasi gambar yang lebih akurat.

Artikel ini bertujuan untuk membahas kerangka kerja DynamiCrafter secara mendalam, dan kami menjelajahi mekanisme, metodologi, arsitektur kerangka kerja bersama dengan perbandingannya dengan kerangka kerja generasi gambar dan video yang ada. Jadi, mari kita mulai.

DynamiCrafter: Animasi Gambar Open-Domain

Menganimasi gambar diam sering menawarkan pengalaman visual yang menarik bagi audiens karena tampaknya membawa gambar diam ke hidup. Selama beberapa tahun, banyak kerangka kerja telah menjelajahi berbagai metode untuk menganimasi gambar diam. Kerangka kerja animasi awal mengimplementasikan pendekatan berbasis simulasi fisik yang fokus pada mensimulasikan gerakan objek tertentu. Namun, karena pemodelan independen dari setiap kategori objek, pendekatan ini tidak efektif dan tidak memiliki generalisasi. Untuk mereplikasi gerakan yang lebih realistis, metode berbasis referensi muncul yang mentransfer informasi gerakan atau penampilan dari sinyal referensi seperti video ke proses sintesis. Meskipun metode berbasis referensi menghasilkan hasil yang lebih baik dengan kohesi temporal yang lebih baik dibandingkan dengan pendekatan berbasis simulasi, mereka memerlukan panduan tambahan yang membatasi aplikasi praktis mereka.

Dalam beberapa tahun terakhir, sebagian besar kerangka kerja animasi fokus utama pada menganimasi adegan alami dengan gerakan stokastik, domain-spesifik, atau osilasi. Meskipun pendekatan yang diimplementasikan oleh kerangka kerja ini bekerja sampai batas tertentu, hasil yang dihasilkan oleh kerangka kerja ini tidak memuaskan, dengan ruang yang signifikan untuk perbaikan. Hasil yang luar biasa yang dicapai oleh model Text-to-Video generatif dalam beberapa tahun terakhir telah menginspirasi pengembang kerangka kerja DynamiCrafter untuk memanfaatkan kemampuan generatif yang kuat dari model Text-to-Video untuk animasi gambar.

Ide utama di balik kerangka kerja DynamiCrafter adalah untuk menggabungkan gambar kondisional dalam upaya untuk mengatur proses generasi video dari model difusi teks-ke-video. Namun, tujuan akhir dari animasi gambar masih tidak trivial karena animasi gambar memerlukan pelestarian detail serta pemahaman konteks visual yang penting untuk menciptakan dinamika. Namun, model difusi video yang dapat dikontrol multi-modal seperti VideoComposer telah berusaha untuk memungkinkan generasi video dengan panduan visual dari gambar. Namun, pendekatan ini tidak cocok untuk animasi gambar karena mereka menghasilkan perubahan temporal yang tiba-tiba atau konformitas visual yang rendah terhadap gambar input karena mekanisme injeksi gambar yang kurang komprehensif. Untuk mengatasi hambatan ini, kerangka kerja DynamiCrafter mengusulkan pendekatan injeksi dual-stream, yang terdiri dari panduan detail visual dan representasi konteks yang sesuai dengan teks. Pendekatan injeksi dual-stream memungkinkan kerangka kerja DynamiCrafter untuk memastikan model difusi video mensintesis konten dinamis yang dipertahankan detail dalam cara yang komplementer.

Untuk gambar yang diberikan, kerangka kerja DynamiCrafter pertama-tama memproyeksikan gambar ke dalam ruang representasi konteks yang sesuai dengan teks menggunakan jaringan pembelajaran konteks yang dirancang khusus. Lebih spesifik, ruang representasi konteks terdiri dari transformer kueri yang dapat dipelajari untuk lebih mempromosikan adaptasinya terhadap model difusi, dan encoder gambar CLIP pra-dilatih untuk mengekstrak fitur gambar yang sesuai dengan teks. Model kemudian menggunakan fitur konteks yang kaya dengan lapisan perhatian silang, dan model menggunakan fusi gerbang untuk menggabungkan fitur teks dengan lapisan perhatian silang. Namun, pendekatan ini menukar representasi konteks yang dipelajari dengan detail visual yang sesuai dengan teks yang memfasilitasi pemahaman semantik konteks gambar yang memungkinkan dinamika yang masuk akal dan hidup untuk disintesis. Selain itu, dalam upaya untuk melengkapi detail visual tambahan, kerangka kerja menggabungkan gambar penuh dengan kebisingan awal ke model difusi. Sebagai hasilnya, pendekatan injeksi dual-stream yang diimplementasikan oleh kerangka kerja DynamiCrafter menjamin konformitas visual serta konten dinamis yang masuk akal terhadap gambar input.

Melanjutkan, model difusi atau DM telah menunjukkan kinerja yang luar biasa dan kemampuan generatif dalam generasi gambar teks-ke-gambar. Untuk mereplikasi kesuksesan model T2I pada generasi video, model difusi video atau VDM diusulkan yang menggunakan arsitektur U-New yang difaktorkan ruang-waktu dalam ruang piksel untuk memodelkan video resolusi rendah. Mengalihkan pembelajaran dari kerangka T2I ke kerangka T2V akan membantu dalam mengurangi biaya pelatihan. Meskipun model VDM memiliki kemampuan untuk menghasilkan video berkualitas tinggi, mereka hanya menerima prompt teks sebagai panduan semantik tunggal yang mungkin tidak mencerminkan niat pengguna yang sebenarnya atau mungkin tidak jelas. Namun, hasil dari sebagian besar model VDM jarang mengikuti gambar input dan menderita masalah variasi temporal yang tidak realistis. Pendekatan DynamiCrafter dibangun atas model difusi video yang dikondisikan teks yang memanfaatkan prior dinamis yang kaya untuk menganimasi gambar open-domain. Ia melakukan ini dengan menggabungkan desain yang dirancang khusus untuk pemahaman semantik yang lebih baik dan konformitas terhadap gambar input.

DynamiCrafter: Metode dan Arsitektur

Untuk gambar diam yang diberikan, kerangka kerja DynamiCrafter berusaha untuk menganimasi gambar ke video, yaitu menghasilkan klip video pendek. Klip video ini mewarisi konten visual dari gambar dan menampilkan dinamika alami. Namun, ada kemungkinan bahwa gambar mungkin muncul di lokasi yang sewenang-wenang dalam urutan bingkai hasil. Kemunculan gambar di lokasi yang sewenang-wenang adalah tantangan khusus yang diamati dalam tugas generasi video yang dikondisikan gambar dengan persyaratan konformitas visual yang tinggi. Kerangka kerja DynamiCrafter mengatasi tantangan ini dengan menggunakan prior generatif dari model difusi video pra-dilatih.

Dinamika Gambar dari Prior Difusi Video

Biasanya, model difusi teks-ke-video open-domain dikenal menampilkan konten visual dinamis yang dikondisikan pada deskripsi teks. Untuk menganimasi gambar diam dengan prior generatif teks-ke-video, kerangka kerja harus menyuntikkan informasi visual ke dalam proses generasi video dalam cara yang komprehensif. Selain itu, untuk sintesis dinamis, model T2V harus mencerna gambar untuk pemahaman konteks, sementara juga harus dapat mempertahankan detail visual dalam video yang dihasilkan.

Representasi Konteks yang Sesuai dengan Teks

Untuk memandu generasi video dengan konteks gambar, kerangka kerja DynamiCrafter berusaha untuk memproyeksikan gambar ke dalam ruang penyematan yang sesuai dengan teks yang memungkinkan model video untuk menggunakan informasi gambar dalam cara yang kompatibel. Setelah itu, kerangka kerja menggunakan encoder gambar untuk mengekstrak fitur gambar dari gambar input karena penyematan teks dihasilkan menggunakan encoder teks CLIP pra-dilatih. Sekarang, meskipun token semantik global dari encoder gambar CLIP sesuai dengan caption gambar, mereka terutama mewakili konten visual pada tingkat semantik, sehingga gagal menangkap ekstensi penuh gambar. Kerangka kerja DynamiCrafter mengimplementasikan token visual penuh dari lapisan terakhir encoder CLIP untuk mengekstrak informasi yang lebih lengkap karena token visual ini menunjukkan kesetiaan yang tinggi dalam tugas generasi gambar yang dikondisikan. Selain itu, kerangka kerja menggunakan penyematan konteks dan teks untuk berinteraksi dengan fitur antara U-Net menggunakan lapisan perhatian silang ganda. Desain komponen ini memfasilitasi kemampuan model untuk menyerap kondisi gambar dalam cara yang bergantung pada lapisan. Selain itu, karena lapisan antara arsitektur U-Net lebih terkait dengan pose atau bentuk objek, diharapkan bahwa fitur gambar akan mempengaruhi penampilan video terutama karena lapisan ujung yang lebih terkait dengan penampilan.

Panduan Detail Visual

Kerangka kerja DynamiCrafter menggunakan representasi konteks yang kaya dan informatif yang memungkinkan model difusi video dalam arsitektur untuk menghasilkan video yang menyerupai gambar input dengan erat. Namun, seperti yang ditunjukkan pada gambar berikut, konten yang dihasilkan mungkin menampilkan beberapa ketidaksesuaian karena kemampuan terbatas dari encoder CLIP pra-dilatih untuk mempertahankan informasi input secara lengkap, karena telah dirancang untuk menyelaraskan fitur bahasa dan visual.

Untuk meningkatkan konformitas visual, kerangka kerja DynamiCrafter mengusulkan untuk memberikan model difusi video dengan detail visual tambahan yang diekstrak dari gambar input. Untuk mencapai ini, model DynamiCrafter menggabungkan gambar kondisional dengan kebisingan awal per-frame dan memberikannya ke komponen U-Net penghilangan kebisingan sebagai panduan.

Paradigma Pelatihan

Kerangka kerja DynamiCrafter mengintegrasikan gambar kondisional melalui dua aliran komplementer yang memainkan peran signifikan dalam panduan detail dan kontrol konteks. Untuk memfasilitasi ini, model DynamiCrafter menggunakan proses pelatihan tiga langkah

  1. Pada langkah pertama, model melatih jaringan representasi konteks gambar.
  2. Pada langkah kedua, model menyesuaikan jaringan representasi konteks gambar ke model teks-ke-video.
  3. Pada langkah ketiga dan terakhir, model memperhalus jaringan representasi konteks gambar bersama dengan komponen Panduan Detail Visual.

Untuk menyesuaikan informasi gambar untuk kompatibilitas dengan model teks-ke-video, kerangka kerja DynamiCrafter menyarankan mengembangkan jaringan representasi konteks, P, yang dirancang untuk menangkap detail visual yang sesuai dengan teks dari gambar yang diberikan. Mengakui bahwa P memerlukan banyak langkah optimasi untuk konvergensi, pendekatan kerangka kerja ini melibatkan melatihnya terlebih dahulu menggunakan model teks-ke-gambar yang lebih sederhana. Strategi ini memungkinkan jaringan representasi konteks untuk fokus pada pembelajaran tentang konteks gambar sebelum mengintegrasikannya dengan model T2V melalui pelatihan bersama dengan P dan lapisan spasial, bukan lapisan temporal, dari model T2V.

Untuk memastikan kompatibilitas T2V, kerangka kerja DynamiCrafter menggabungkan gambar input dengan kebisingan per-frame dan memperhalus baik P dan lapisan spasial dari Model Diskriminasi Visual. Metode ini dipilih untuk mempertahankan integritas model T2V yang ada dan mencegah efek sampingan dari penggabungan gambar yang padat yang dapat mempengaruhi kinerja dan menyimpang dari tujuan utama. Selain itu, kerangka kerja menggunakan strategi pemilihan acak bingkai video sebagai kondisi gambar untuk mencapai dua tujuan: (i) untuk mencegah jaringan mengembangkan pola yang dapat diprediksi yang secara langsung mengasosiasikan gambar yang digabungkan dengan lokasi bingkai tertentu, dan (ii) untuk mendorong representasi konteks yang lebih adaptif dengan mencegah penyediaan informasi yang terlalu kaku untuk bingkai tertentu.

DynamiCrafter: Eksperimen dan Hasil

Kerangka kerja DynamiCrafter pertama-tama melatih jaringan representasi konteks dan lapisan perhatian silang gambar pada Stable Diffusion. Kerangka kerja kemudian menggantikan komponen Stable Diffusion dengan VideoCrafter dan memperhalus jaringan representasi konteks dan lapisan spasial untuk penyesuaian, dan dengan penggabungan gambar. Pada inferensi, kerangka kerja mengadopsi sampler DDIM dengan panduan bebas kelas multi-kondisi. Selain itu, untuk mengevaluasi kohesi temporal dan kualitas video yang disintesis dalam domain temporal dan spasial, kerangka kerja melaporkan FVD atau Jarak Video Frechet, serta KVD atau Jarak Video Kernel, dan mengevaluasi kinerja zero-shot pada semua metode benchmark MSR-VTT dan UCF-101. Untuk menyelidiki konformitas perseptual antara hasil yang dihasilkan dan gambar input, kerangka kerja memperkenalkan PIC atau Konformitas Input Perseptual, dan mengadopsi metrik jarak perseptual DreamSim sebagai fungsi jarak.

Gambar berikut menunjukkan perbandingan visual dari konten animasi yang dihasilkan dengan gaya dan konten yang berbeda.

Seperti yang dapat diamati, di antara metode yang berbeda, kerangka kerja DynamiCrafter mengikuti kondisi gambar input dengan baik dan menghasilkan video yang kohesif secara temporal. Tabel berikut berisi statistik dari studi pengguna dengan 49 peserta tentang tingkat preferensi untuk Kohesi Temporal (T.C), Kualitas Gerakan (M.C) bersama dengan tingkat pemilihan untuk konformitas visual terhadap gambar input. (I.C). Seperti yang dapat diamati, kerangka kerja DynamiCrafter dapat mengungguli metode yang ada dengan margin yang signifikan.

Gambar berikut menunjukkan hasil yang dicapai menggunakan metode injeksi dual-stream dan paradigma pelatihan.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang DynamiCrafter, upaya untuk mengatasi keterbatasan model animasi gambar saat ini dan memperluas kemampuan mereka untuk skenario umum yang melibatkan gambar open-domain. Kerangka kerja DynamiCrafter berusaha untuk mensintesis konten dinamis untuk gambar open-domain, mengubahnya menjadi video animasi. Ide utama di balik DynamiCrafter adalah untuk menggabungkan gambar sebagai panduan dalam proses generatif dalam upaya untuk memanfaatkan prior gerak dari model difusi teks-ke-video yang sudah ada. Untuk gambar yang diberikan, model DynamiCrafter pertama-tama mengimplementasikan transformer kueri yang memproyeksikan gambar ke dalam ruang representasi konteks yang kaya dan sesuai dengan teks, memfasilitasi model video untuk mencerna konten gambar dalam cara yang kompatibel. Namun, model DynamiCrafter masih berjuang untuk mempertahankan beberapa detail visual dalam video hasil, masalah yang diatasi oleh model DynamiCrafter dengan memberikan gambar penuh ke model difusi dengan menggabungkan gambar dengan kebisingan awal, sehingga melengkapi model dengan informasi gambar yang lebih akurat.

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.