Kecerdasan buatan
CameraCtrl: Mengaktifkan Kontrol Kamera untuk Generasi Video dari Teks
Rangkaian kerja baru-baru ini yang mencoba menghasilkan video dari teks atau generasi T2V menggunakan model difusi untuk menambahkan stabilitas dalam proses pelatihan mereka, dan Video Diffusion Model, salah satu pelopor dalam kerangka kerja generasi teks-ke-video, memperluas arsitektur difusi gambar 2D dalam upaya untuk mengakomodasi data video, dan melatih model pada video dan gambar secara bersamaan dari awal. Membangun pada yang sama, dan untuk mengimplementasikan generator gambar pra-dilatih yang kuat seperti Stable Diffusion, karya terbaru mengembangkan arsitektur 2D mereka dengan menyisipkan lapisan temporal di antara lapisan 2D pra-dilatih, dan memperbarui model baru pada dataset besar yang tidak terlihat. Meskipun pendekatan mereka, model difusi teks-ke-video menghadapi tantangan signifikan karena ketidakjelasan deskripsi teks yang digunakan saja untuk menghasilkan sampel video sering menghasilkan model teks-ke-video memiliki kontrol yang lebih lemah atas generasi. Untuk mengatasi keterbatasan ini, beberapa model menyediakan bimbingan yang ditingkatkan sementara yang lain bekerja dengan sinyal presisi untuk mengontrol adegan atau gerakan manusia dalam video yang disintesis dengan presisi. Di sisi lain, ada beberapa kerangka kerja teks-ke-video yang mengadopsi gambar sebagai sinyal kontrol ke generator video yang menghasilkan baik model hubungan temporal yang akurat, atau kualitas video yang tinggi.
Dapat dikatakan bahwa kontrolabilitas memainkan peran kunci dalam tugas generatif gambar dan video karena memungkinkan pengguna untuk membuat konten yang mereka inginkan. Namun, kerangka kerja yang ada sering mengabaikan kontrol kamera pose yang presisi yang berfungsi sebagai bahasa sinematik untuk mengekspresikan nuansa naratif yang lebih dalam kepada model dengan lebih baik. Untuk mengatasi keterbatasan kontrolabilitas saat ini, dalam artikel ini, kita akan membahas tentang CameraCtrl, sebuah ide baru yang mencoba mengaktifkan kontrol kamera pose yang akurat untuk model teks-ke-video. Setelah memparameterkan trajektori kamera dengan presisi, model melatih modul kamera plug and play pada model teks-ke-video, dan meninggalkan komponen lainnya tidak tersentuh. Selanjutnya, model CameraCtrl juga melakukan studi komprehensif tentang efek dari berbagai dataset, dan menyarankan bahwa video dengan penampilan yang sama dan distribusi kamera yang beragam dapat meningkatkan kontrolabilitas dan kemampuan generalisasi model secara keseluruhan. Eksperimen yang dilakukan untuk menganalisis kinerja model CameraCtrl pada tugas dunia nyata menunjukkan efisiensi kerangka kerja dalam mencapai kontrol kamera yang presisi dan adaptif domain, membuka jalan bagi pencarian generasi video dinamis dan disesuaikan dari pose kamera dan input teks.
Artikel ini bertujuan untuk membahas kerangka kerja CameraCtrl secara mendalam, dan kita menjelajahi mekanisme, metodologi, arsitektur kerangka kerja bersama dengan perbandingannya dengan kerangka kerja yang ada. Jadi mari kita mulai.
CameraCtrl : Kontrol Kamera untuk Generasi T2V
Pengembangan dan kemajuan model difusi baru-baru ini telah memajukan generasi video yang dipandu teks secara signifikan dalam beberapa tahun terakhir, dan merevolusi alur kerja desain konten. Kontrolabilitas memainkan peran signifikan dalam aplikasi generasi video praktis karena memungkinkan pengguna untuk menyesuaikan hasil yang dihasilkan sesuai dengan kebutuhan dan persyaratan mereka. Dengan kontrolabilitas yang tinggi, model dapat meningkatkan realisme, kualitas, dan kemampuan penggunaan video yang dihasilkannya, dan sementara input teks dan gambar umumnya digunakan oleh model untuk meningkatkan kontrolabilitas secara keseluruhan, mereka sering kekurangan kontrol presisi atas gerakan dan konten. Untuk mengatasi keterbatasan ini, beberapa kerangka kerja telah mengusulkan untuk menggunakan sinyal kontrol seperti pose kerangka, aliran optik, dan sinyal multi-modal lainnya untuk mengaktifkan kontrol yang lebih akurat untuk memandu generasi video. Keterbatasan lain yang dihadapi oleh kerangka kerja yang ada adalah bahwa mereka kekurangan kontrol presisi atas stimulasi atau penyesuaian titik kamera dalam generasi video karena kemampuan untuk mengontrol kamera sangat penting karena tidak hanya meningkatkan realisme video yang dihasilkan, tetapi dengan memungkinkan sudut pandang yang disesuaikan, juga meningkatkan keterlibatan pengguna, fitur yang sangat penting dalam pengembangan game, realitas tambah, dan realitas virtual. Selain itu, mengelola gerakan kamera dengan terampil memungkinkan kreator untuk menyoroti hubungan karakter, menekankan emosi, dan memandu fokus audiens target, sesuatu yang sangat penting dalam industri film dan periklanan.
Untuk mengatasi dan mengatasi keterbatasan ini, kerangka kerja CameraCtrl, sebuah modul kamera yang dapat dipelajari dan presisi plug and play dengan kemampuan untuk mengontrol sudut pandang kamera untuk generasi video. Namun, mengintegrasikan kamera yang disesuaikan ke dalam pipeline model teks-ke-video yang ada adalah tugas yang lebih mudah dikatakan daripada dilakukan, memaksa kerangka kerja CameraCtrl untuk mencari cara untuk merepresentasikan dan menyuntikkan kamera dalam arsitektur model secara efektif. Pada catatan yang sama, kerangka kerja CameraCtrl mengadopsi plucker embeddings sebagai bentuk utama dari parameter kamera, dan alasan untuk memilih plucker embeddings dapat dikreditkan kepada kemampuan mereka untuk mengkodekan deskripsi geometris dari informasi pose kamera. Selanjutnya, untuk memastikan generalisabilitas dan aplikabilitas model CameraCtrl setelah pelatihan, model memperkenalkan model kontrol kamera yang hanya menerima plucker embeddings sebagai input. Untuk memastikan model kontrol kamera dilatih secara efektif, kerangka kerja dan pengembangnya melakukan studi komprehensif untuk menyelidiki bagaimana data pelatihan yang berbeda mempengaruhi kerangka kerja dari data sintetis ke data realistis. Hasil eksperimental menunjukkan bahwa mengimplementasikan data dengan distribusi pose kamera yang beragam dan penampilan yang sama dengan model dasar asli mencapai trade-off terbaik antara kontrolabilitas dan generalisabilitas. Pengembang kerangka kerja CameraCtrl telah mengimplementasikan model pada atas kerangka kerja AnimateDiff, sehingga memungkinkan kontrol presisi dalam generasi video di seluruh konteks pembuatan video yang disesuaikan, menunjukkan kelenturannya dan utilitasnya dalam berbagai konteks pembuatan video.

Kerangka kerja AnimateDiff mengadopsi pendekatan fine-tuning LoRA yang efisien untuk mendapatkan bobot model untuk berbagai jenis tembakan. Kerangka kerja Direct-a-video mengusulkan untuk mengimplementasikan pengikut kamera untuk mengontrol pose kamera selama proses generasi video, tetapi hanya mengondisikan tiga parameter kamera, membatasi kemampuan kontrol kamera ke jenis dasar. Di sisi lain, kerangka kerja seperti MotionCtrl merancang pengontrol gerakan yang menerima lebih dari tiga parameter input dan dapat menghasilkan video dengan pose kamera yang lebih kompleks. Namun, kebutuhan untuk memperbarui bagian dari video yang dihasilkan menghambat generalisabilitas model. Selanjutnya, beberapa kerangka kerja mengintegrasikan sinyal kontrol struktural tambahan seperti peta kedalaman ke dalam proses untuk meningkatkan kontrolabilitas untuk generasi gambar dan teks. Biasanya, model memberikan sinyal kontrol ini ke dalam encoder tambahan, dan kemudian menyuntikkan sinyal ke dalam generator menggunakan berbagai operasi.
CameraCtrl: Arsitektur Model
Sebelum kita dapat melihat arsitektur dan paradigma pelatihan untuk pengikut kamera, sangat penting bagi kita untuk memahami representasi kamera yang berbeda. Biasanya, pose kamera merujuk pada parameter intrinsik dan ekstrinsik, dan salah satu pilihan langsung untuk membiarkan generator video mengondisikan pose kamera adalah memberikan nilai rawal tentang parameter kamera ke generator. Namun, mengimplementasikan pendekatan seperti itu mungkin tidak meningkatkan kontrol kamera yang akurat untuk beberapa alasan. Pertama, sementara matriks rotasi dibatasi oleh ortogonalitas, vektor translasi biasanya tidak dibatasi dalam magnitude, dan menyebabkan ketidakcocokan dalam proses pembelajaran yang dapat mempengaruhi konsistensi kontrol. Kedua, menggunakan parameter kamera rawal secara langsung dapat membuat model sulit untuk menghubungkan nilai-nilai ini dengan piksel gambar, menghasilkan kontrol yang berkurang atas detail visual. Untuk menghindari keterbatasan ini, kerangka kerja CameraCtrl memilih plucker embeddings sebagai representasi dari pose kamera karena plucker embeddings memiliki representasi geometris dari setiap piksel frame video, dan dapat memberikan deskripsi yang lebih rinci tentang informasi pose kamera.
Kontrol Kamera dalam Generator Video
Karena model memparameterkan trajektori kamera menjadi urutan plucker embedding, yaitu peta spasial, model memiliki pilihan untuk menggunakan model encoder untuk mengekstrak fitur kamera, dan kemudian menggabungkan fitur kamera ke dalam generator video. Serupa dengan teks-ke-gambar adapter, model CameraCtrl memperkenalkan pengikut kamera yang dirancang khusus untuk video. Pengikut kamera termasuk model perhatian temporal setelah setiap blok konvolusi, memungkinkan untuk menangkap hubungan temporal dari pose kamera di seluruh klip video. Seperti yang ditunjukkan pada gambar berikut, pengikut kamera hanya menerima input plucker embedding, dan menghasilkan fitur multi-skala. Setelah mendapatkan fitur kamera multi-skala, model CameraCtrl bertujuan untuk mengintegrasikan fitur-fitur ini ke dalam arsitektur U-net dari model teks-ke-video secara mulus, dan menentukan lapisan yang harus digunakan untuk menggabungkan informasi kamera secara efektif. Selanjutnya, karena sebagian besar kerangka kerja yang ada mengadopsi arsitektur seperti U-Net yang berisi lapisan perhatian temporal dan spasial, model CameraCtrl menyuntikkan representasi kamera ke dalam blok perhatian temporal, keputusan yang didukung oleh kemampuan lapisan perhatian temporal untuk menangkap hubungan temporal, sejalan dengan sifat kausal dan berurutan dari trajektori kamera dengan lapisan perhatian spasial yang menggambarkan bingkai individual.

Pelatihan Distribusi Kamera
Melatih komponen pengikut kamera dalam kerangka kerja CameraCtrl pada generator video memerlukan sejumlah besar video yang dilabeli dan dianotasi dengan baik dengan model yang dapat memperoleh trajektori kamera menggunakan pendekatan struktur dari gerakan atau SfM. Kerangka kerja CameraCtrl berusaha untuk memilih dataset dengan penampilan yang sesuai dengan data pelatihan model teks-ke-video dasar secara dekat, dan memiliki distribusi pose kamera yang luas. Sampel dalam dataset yang dihasilkan menggunakan mesin virtual menunjukkan distribusi kamera yang beragam karena pengembang memiliki fleksibilitas untuk mengontrol parameter kamera selama fase rendering, meskipun hal ini juga memiliki celah distribusi ketika dibandingkan dengan dataset yang berisi sampel dunia nyata. Ketika bekerja dengan dataset yang berisi sampel dunia nyata, distribusi kamera biasanya sempit, dan dalam kasus seperti itu, kerangka kerja perlu menemukan keseimbangan antara keberagaman di antara trajektori kamera yang berbeda dan kompleksitas trajektori kamera individual. Kompleksitas trajektori kamera individual memastikan bahwa model mempelajari untuk mengontrol trajektori yang kompleks selama proses pelatihan, sementara keberagaman di antara trajektori kamera yang berbeda memastikan model tidak terlalu cocok dengan pola tertentu. Selanjutnya, untuk memantau proses pelatihan pengikut kamera, kerangka kerja CameraCtrl mengusulkan metrik penyelarasan kamera untuk mengukur kualitas kontrol kamera dengan mengkuantifikasi kesalahan antara trajektori kamera sampel yang dihasilkan dan kondisi kamera input.
CameraCtrl : Eksperimen dan Hasil
Kerangka kerja CameraCtrl mengimplementasikan model AnimateDiff sebagai model teks-ke-video dasar dan alasan utama di balik hal ini adalah bahwa strategi pelatihan model AnimateDiff memungkinkan modul gerakannya untuk diintegrasikan dengan model teks-ke-gambar dasar atau LoRA teks-ke-gambar untuk mengakomodasi generasi video di seluruh genre dan domain. Model menggunakan optimizer Adam untuk melatih model dengan tingkat pembelajaran konstan 1e-4. Selanjutnya, untuk memastikan model tidak mempengaruhi kemampuan generasi video model teks-ke-video asli secara negatif, kerangka kerja CameraCtrl menggunakan metrik Jarak Inception Frechet atau FID untuk menilai kualitas penampilan video, dan membandingkan kualitas video yang dihasilkan sebelum dan setelah menyertakan modul kamera.
Untuk menilai kinerjanya, kerangka kerja CameraCtrl dievaluasi melawan dua kerangka kerja kontrol kamera yang ada: MotionCtrl dan AnimateDiff. Namun, karena kerangka kerja AnimateDiff hanya mendukung delapan trajektori kamera dasar, perbandingan antara CameraCtrl dan AnimateDiff terbatas pada tiga trajektori dasar. Di sisi lain, untuk perbandingan melawan MotionCtrl, kerangka kerja memilih lebih dari seribu trajektori kamera acak dari dataset yang ada, menghasilkan video menggunakan trajektori ini, dan menilainya menggunakan metrik TransErr dan RotErr.

Seperti yang dapat dilihat, kerangka kerja CameraCtrl outperforms kerangka kerja AnimateDiff pada trajektori dasar, dan menghasilkan hasil yang lebih baik ketika dibandingkan dengan kerangka kerja MotionCtrl pada metrik trajektori kompleks.
Selanjutnya, gambar berikut menunjukkan efek dari arsitektur pengikut kamera pada kualitas sampel yang dihasilkan. Baris a hingga Baris d mewakili hasil yang dihasilkan dengan pengikut kamera yang diimplementasikan dalam arsitektur: ControlNet, ControlNet dengan perhatian temporal, T2I Adaptor, dan T2I adaptor dengan perhatian temporal.

Pada gambar berikut, dua tempat menampilkan video yang dihasilkan menggunakan kombinasi pengikut RGB dari kerangka kerja SparseCtrl dan metode yang digunakan dalam kerangka kerja CameraCtrl.

Pemikiran Akhir
Dalam artikel ini, kita telah membahas tentang CameraCtrl, sebuah ide baru yang mencoba mengaktifkan kontrol kamera pose yang akurat untuk model teks-ke-video. Setelah memparameterkan trajektori kamera dengan presisi, model melatih modul kamera plug and play pada model teks-ke-video, dan meninggalkan komponen lainnya tidak tersentuh. Selanjutnya, model CameraCtrl juga melakukan studi komprehensif tentang efek dari berbagai dataset, dan menyarankan bahwa video dengan penampilan yang sama dan distribusi kamera yang beragam dapat meningkatkan kontrolabilitas dan kemampuan generalisasi model secara keseluruhan. Eksperimen yang dilakukan untuk menganalisis kinerja model CameraCtrl pada tugas dunia nyata menunjukkan efisiensi kerangka kerja dalam mencapai kontrol kamera yang presisi dan adaptif domain, membuka jalan bagi pencarian generasi video dinamis dan disesuaikan dari pose kamera dan input teks.












