Kecerdasan Buatan

CameraCtrl: Mengaktifkan Kontrol Kamera untuk Pembuatan Teks-ke-Video

Diterbitkan

minggu 2 lalu

23 Mei 2024

Kerangka kerja terbaru yang mencoba membuat model difusi dari teks ke video atau T2V untuk menambah stabilitas dalam proses pelatihan mereka, dan Model Difusi Video, salah satu pionir dalam kerangka kerja pembuatan teks ke video, memperluas arsitektur difusi gambar 2D dalam upaya untuk mengakomodasi data video, dan melatih model pada video dan gambar secara bersama-sama dari awal. Membangun hal yang sama, dan untuk mengimplementasikan generator gambar terlatih yang kuat seperti Difusi Stabil, karya terbaru mengembangkan arsitektur 2D mereka dengan menyisipkan lapisan temporal di antara lapisan 2D yang telah dilatih sebelumnya, dan menyempurnakan model baru pada kumpulan data besar yang tidak terlihat. Terlepas dari pendekatan mereka, model difusi teks ke video menghadapi tantangan yang signifikan karena ambiguitas deskripsi teks yang hanya digunakan untuk menghasilkan sampel video sering kali mengakibatkan model teks ke video memiliki kontrol yang lebih lemah terhadap pembuatannya. Untuk mengatasi keterbatasan ini, beberapa model memberikan panduan yang lebih baik sementara beberapa model lainnya bekerja dengan sinyal yang tepat untuk mengontrol adegan atau gerakan manusia dalam video yang disintesis secara tepat. Di sisi lain, ada beberapa kerangka teks ke video yang mengadopsi gambar sebagai sinyal kontrol ke generator video sehingga menghasilkan pemodelan hubungan temporal yang akurat, atau kualitas video yang tinggi.

Dapat dikatakan bahwa kemampuan kontrol memainkan peran penting dalam tugas generatif gambar dan video karena memungkinkan pengguna membuat konten yang mereka inginkan. Namun, kerangka kerja yang ada sering kali mengabaikan kontrol tepat atas pose kamera yang berfungsi sebagai bahasa sinematik untuk mengekspresikan nuansa narasi yang lebih dalam kepada model dengan lebih baik. Untuk mengatasi keterbatasan pengendalian saat ini, dalam artikel ini, kita akan membahas tentang CameraCtrl, sebuah ide baru yang berupaya mengaktifkan kontrol pose kamera yang akurat untuk model teks ke video. Setelah melakukan parameterisasi lintasan kamera dengan tepat, model tersebut melatih modul kamera plug and play pada model teks ke video, dan membiarkan komponen lainnya tidak tersentuh. Selain itu, model CameraCtrl juga melakukan studi komprehensif tentang pengaruh berbagai kumpulan data, dan menyarankan bahwa video dengan tampilan serupa dan distribusi kamera yang beragam dapat meningkatkan kemampuan pengendalian dan generalisasi model secara keseluruhan. Eksperimen yang dilakukan untuk menganalisis kinerja model CameraCtrl pada tugas-tugas dunia nyata menunjukkan efisiensi kerangka kerja dalam mencapai kontrol kamera yang tepat dan adaptif domain, mengukir jalan ke depan untuk mencapai pembuatan video yang disesuaikan dan dinamis dari pose kamera dan masukan tekstual.

Artikel ini bertujuan untuk membahas framework CameraCtrl secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur framework beserta perbandingannya dengan framework yang canggih. Jadi mari kita mulai.

CameraCtrl : Kontrol Kamera untuk Generasi T2V

Perkembangan dan kemajuan model difusi terkini telah meningkatkan pembuatan video berpemandu teks secara signifikan dalam beberapa tahun terakhir, dan merevolusi alur kerja desain konten. Pengendalian memainkan peran penting dalam aplikasi pembuatan video praktis karena memungkinkan pengguna untuk menyesuaikan hasil yang dihasilkan sesuai kebutuhan dan kebutuhan mereka. Dengan kemampuan kontrol yang tinggi, model ini mampu meningkatkan realisme, kualitas, dan kegunaan video yang dihasilkannya, dan meskipun input teks dan gambar biasanya digunakan oleh model untuk meningkatkan kemampuan kontrol secara keseluruhan, input tersebut sering kali kurang memiliki kontrol yang tepat atas gerakan dan konten. . Untuk mengatasi keterbatasan ini, beberapa kerangka kerja telah mengusulkan untuk memanfaatkan sinyal kontrol seperti kerangka pose, aliran optik, dan sinyal multi-modal lainnya untuk memungkinkan kontrol yang lebih akurat guna memandu pembuatan video. Keterbatasan lain yang dihadapi oleh kerangka kerja yang ada adalah kurangnya kontrol yang tepat terhadap stimulasi atau penyesuaian titik kamera dalam pembuatan video karena kemampuan untuk mengontrol kamera sangat penting karena tidak hanya meningkatkan realisme video yang dihasilkan, namun juga memungkinkan sudut pandang yang disesuaikan. meningkatkan keterlibatan pengguna, sebuah fitur yang penting dalam pengembangan game, augmented reality, dan virtual reality. Selain itu, mengelola pergerakan kamera dengan terampil memungkinkan pembuat konten menyoroti hubungan karakter, menekankan emosi, dan memandu fokus audiens target, sesuatu yang sangat penting dalam industri film dan periklanan.

Untuk mengatasi dan mengatasi keterbatasan ini, kerangka kerja CameraCtrl, modul kamera plug and play yang dapat dipelajari dan presisi dengan kemampuan mengontrol sudut pandang kamera untuk pembuatan video. Namun, mengintegrasikan kamera yang disesuaikan ke dalam alur model teks ke video yang ada adalah tugas yang lebih mudah diucapkan daripada dilakukan, sehingga memaksa kerangka kerja CameraCtrl untuk mencari cara bagaimana merepresentasikan dan memasukkan kamera ke dalam arsitektur model secara efektif. Pada catatan yang sama, kerangka kerja CameraCtrl mengadopsi penyematan plucker sebagai bentuk utama parameter kamera, dan alasan memilih penyematan plucker dapat dikaitkan dengan kemampuannya dalam menyandikan deskripsi geometris informasi pose kamera. Selain itu, untuk memastikan generalisasi dan penerapan model CameraCtrl pasca pelatihan, model tersebut memperkenalkan model kontrol kamera yang hanya menerima penyematan pemetik sebagai masukan. Untuk memastikan model kontrol kamera dilatih secara efektif, kerangka kerja dan pengembangnya melakukan studi komprehensif untuk menyelidiki bagaimana data pelatihan yang berbeda mempengaruhi kerangka kerja dari data sintetik hingga data realistis. Hasil eksperimen menunjukkan bahwa penerapan data dengan distribusi pose kamera yang beragam dan tampilan serupa dengan model dasar asli mencapai trade-off terbaik antara kemampuan pengendalian dan kemampuan generalisasi. Pengembang kerangka CameraCtrl telah menerapkan model ini di atas kerangka AnimateDiff, sehingga memungkinkan kontrol yang tepat dalam pembuatan video di berbagai jenis video yang dipersonalisasi, menunjukkan keserbagunaan dan kegunaannya dalam berbagai konteks pembuatan video.

Kerangka kerja AnimateDiff mengadopsi efisiensi LoRA pendekatan penyempurnaan untuk mendapatkan bobot model untuk berbagai jenis bidikan. Kerangka kerja Direct-a-video mengusulkan penerapan penyematan kamera untuk mengontrol pose kamera selama proses pembuatan video, namun hal ini hanya mengkondisikan pada tiga parameter kamera, sehingga membatasi kemampuan kontrol kamera pada sebagian besar tipe dasar. Di sisi lain, kerangka kerja termasuk MotionCtrl merancang pengontrol gerakan yang menerima lebih dari tiga parameter masukan dan mampu menghasilkan video dengan pose kamera yang lebih kompleks. Namun, kebutuhan untuk menyempurnakan bagian-bagian video yang dihasilkan menghambat kemampuan generalisasi model. Selain itu, beberapa kerangka kerja menggabungkan sinyal kontrol struktural tambahan seperti peta kedalaman ke dalam proses untuk meningkatkan kemampuan kontrol untuk pembuatan gambar dan teks. Biasanya, model memasukkan sinyal kontrol ini ke encoder tambahan, dan kemudian memasukkan sinyal tersebut ke generator menggunakan berbagai operasi.

CameraCtrl: Arsitektur Model

Sebelum kita melihat arsitektur dan paradigma pelatihan encoder kamera, penting bagi kita untuk memahami representasi kamera yang berbeda. Biasanya, pose kamera mengacu pada parameter intrinsik dan ekstrinsik, dan salah satu pilihan langsung untuk membiarkan generator video mengkondisikan pose kamera adalah dengan memasukkan nilai mentah mengenai parameter kamera ke dalam generator. Namun, penerapan pendekatan seperti itu mungkin tidak meningkatkan kontrol kamera yang akurat karena beberapa alasan. Pertama, meskipun matriks rotasi dibatasi oleh ortogonalitas, besaran vektor translasi biasanya tidak dibatasi, dan menyebabkan ketidakcocokan dalam proses pembelajaran yang dapat memengaruhi konsistensi kontrol. Kedua, penggunaan parameter kamera mentah secara langsung dapat mempersulit model untuk mengkorelasikan nilai-nilai ini dengan piksel gambar, sehingga mengakibatkan penurunan kontrol terhadap detail visual. Untuk menghindari keterbatasan ini, framework CameraCtrl memilih penyematan plucker sebagai representasi pose kamera karena penyematan plucker memiliki representasi geometris setiap piksel bingkai video, dan dapat memberikan deskripsi yang lebih rumit tentang informasi pose kamera.

Pengendalian Kamera di Generator Video

Saat model membuat parameter lintasan kamera menjadi urutan penyematan pemetik, yaitu peta spasial, model memiliki pilihan untuk menggunakan model encoder untuk mengekstrak fitur kamera, dan kemudian menggabungkan fitur kamera ke dalam generator video. Mirip dengan teks ke gambar adaptor, model CameraCtrl memperkenalkan encoder kamera yang dirancang khusus untuk video. Encoder kamera menyertakan model perhatian temporal setelah setiap blok konvolusional, sehingga memungkinkannya menangkap hubungan temporal pose kamera di seluruh klip video. Seperti yang ditunjukkan dalam gambar berikut, encoder kamera hanya menerima input penyematan pemetik, dan menghadirkan fitur multiskala. Setelah mendapatkan fitur kamera multiskala, model CameraCtrl bertujuan untuk mengintegrasikan fitur-fitur ini ke dalam arsitektur U-net model teks ke video dengan mulus, dan menentukan lapisan yang harus digunakan untuk menggabungkan informasi kamera secara efektif. Selain itu, karena sebagian besar kerangka kerja yang ada mengadopsi arsitektur seperti U-Net yang berisi lapisan perhatian temporal dan spasial, model CameraCtrl memasukkan representasi kamera ke dalam blok perhatian temporal, sebuah keputusan yang didukung oleh kemampuan perhatian temporal. lapisan untuk menangkap hubungan temporal, menyelaraskan dengan sifat kasual dan berurutan yang melekat pada lintasan kamera dengan lapisan perhatian spasial yang menggambarkan bingkai individual.

Mempelajari Distribusi Kamera

Melatih komponen encoder kamera dalam kerangka CameraCtrl pada generator video memerlukan sejumlah besar video yang diberi label dan anotasi dengan baik, dengan model yang mampu memperoleh lintasan kamera menggunakan pendekatan struktur dari gerakan atau SfM. Kerangka kerja CameraCtrl mencoba memilih kumpulan data dengan tampilan yang sangat cocok dengan data pelatihan model teks dasar dan video, dan memiliki distribusi pose kamera seluas mungkin. Sampel dalam kumpulan data yang dihasilkan menggunakan mesin virtual menunjukkan distribusi kamera yang beragam karena pengembang memiliki fleksibilitas untuk mengontrol parameter kamera selama fase rendering, meskipun terdapat kesenjangan distribusi jika dibandingkan dengan kumpulan data yang berisi sampel dunia nyata. Saat bekerja dengan kumpulan data yang berisi sampel dunia nyata, distribusi kamera biasanya sempit, dan dalam kasus seperti itu, kerangka kerja perlu menemukan keseimbangan antara keragaman lintasan kamera yang berbeda dan kompleksitas lintasan kamera individual. Kompleksitas lintasan kamera individual memastikan bahwa model belajar mengendalikan lintasan yang kompleks selama proses pelatihan, sedangkan keragaman di antara lintasan kamera yang berbeda memastikan model tidak menyesuaikan diri dengan pola tetap tertentu. Selanjutnya, untuk memantau proses pelatihan encoder kamera, kerangka CameraCtrl mengusulkan metrik penyelarasan kamera untuk mengukur kualitas kontrol kamera dengan mengukur kesalahan antara lintasan kamera dari sampel yang dihasilkan dan kondisi kamera masukan.

CameraCtrl : Eksperimen dan Hasil

Kerangka kerja CameraCtrl mengimplementasikan model AnimateDiff sebagai model dasar teks ke video dan alasan utama di balik hal ini adalah bahwa strategi pelatihan model AnimateDiff memungkinkan modul geraknya berintegrasi dengan model dasar teks ke gambar atau LoRA teks ke gambar untuk mengakomodasi video generasi di berbagai genre dan domain. Model ini menggunakan pengoptimal Adam untuk melatih model dengan kecepatan pemelajaran konstan 1e-4. Selain itu, untuk memastikan model tersebut tidak memengaruhi kemampuan pembuatan video aslinya model teks ke video negatifnya, kerangka CameraCtrl menggunakan metrik FID atau Frechet Inception Distance untuk menilai kualitas tampilan video, dan membandingkan kualitas video yang dihasilkan sebelum dan sesudah menyertakan modul kamera.

Untuk menilai kinerjanya, kerangka CameraCtrl dievaluasi terhadap dua kerangka kontrol kamera yang ada: MotionCtrl dan AnimateDiff. Namun, karena kerangka AnimateDiff hanya mendukung delapan lintasan kamera dasar, perbandingan antara CameraCtrl dan AnimateDiff dibatasi pada tiga lintasan dasar. Di sisi lain, untuk perbandingan dengan MotionCtrl, kerangka kerja ini memilih lebih dari seribu lintasan kamera acak dari kumpulan data yang ada selain lintasan kamera dasar, menghasilkan video menggunakan lintasan ini, dan mengevaluasinya menggunakan metrik TransErr dan RotErr.

Seperti yang dapat diamati, kerangka CameraCtrl mengungguli kerangka AnimateDiff dalam lintasan dasar, dan memberikan hasil yang lebih baik jika dibandingkan dengan kerangka MotionCtrl pada metrik lintasan kompleks.

Lebih lanjut, gambar berikut menunjukkan pengaruh arsitektur encoder kamera terhadap kualitas sampel yang dihasilkan secara keseluruhan. Baris a hingga Baris d mewakili hasil yang dihasilkan dengan encoder kamera yang diimplementasikan dalam arsitektur: ControlNet, ControlNet dengan perhatian sementara, Adaptor T2I, dan adaptor T2I dengan perhatian sementara.

Pada gambar berikut, dua yang pertama menggantikan video yang dihasilkan menggunakan kombinasi encoder RGB kerangka SparseCtrl, dan metode yang digunakan dalam kerangka CameraCtrl.

Final Thoughts

Dalam artikel ini, kita telah membahas tentang CameraCtrl, sebuah ide baru yang berupaya mengaktifkan kontrol pose kamera yang akurat untuk model teks ke video. Setelah melakukan parameterisasi lintasan kamera dengan tepat, model tersebut melatih modul kamera plug and play pada model teks ke video, dan membiarkan komponen lainnya tidak tersentuh. Selain itu, model CameraCtrl juga melakukan studi komprehensif tentang pengaruh berbagai kumpulan data, dan menyarankan bahwa video dengan tampilan serupa dan distribusi kamera yang beragam dapat meningkatkan kemampuan pengendalian dan generalisasi model secara keseluruhan. Eksperimen yang dilakukan untuk menganalisis kinerja model CameraCtrl pada tugas-tugas dunia nyata menunjukkan efisiensi kerangka kerja dalam mencapai kontrol kamera yang tepat dan adaptif domain, mengukir jalan ke depan untuk mencapai pembuatan video yang disesuaikan dan dinamis dari pose kamera dan masukan tekstual.

Topik-topik terkait:KameraCtrl model TV2 teks ke gambar model teks ke video generator teks-ke-video difusi video

Berikutnya

MambaOut: Apakah Kita Benar-Benar Membutuhkan Mamba untuk Penglihatan?

Jangan Miss

Apa yang Salah dengan Pin AI yang Manusiawi?

Kunal Kejriwal

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.