Kecerdasan buatan

AnimateLCM: Animasi Model Difusi Personalisasi

Diterbitkan 19 Maret 2024

Diperbarui 22 Mei 2026

Oleh

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Beberapa tahun terakhir, model difusi telah mencapai kesuksesan besar dan pengakuan untuk tugas generasi gambar dan video. Model difusi video, khususnya, telah mendapatkan perhatian signifikan karena kemampuan mereka untuk menghasilkan video dengan kohesi tinggi serta fidelitas. Model-model ini menghasilkan video berkualitas tinggi dengan menggunakan proses denoising iteratif dalam arsitektur mereka yang secara bertahap mengubah noise Gaussian tinggi dimensi menjadi data nyata.

Stable Diffusion adalah salah satu model yang paling representatif untuk tugas generatif gambar, yang bergantung pada Variational AutoEncoder (VAE) untuk memetakan antara gambar nyata dan fitur laten yang di-downsample. Ini memungkinkan model untuk mengurangi biaya generatif, sementara mekanisme cross-attention dalam arsitektur mereka memfasilitasi generasi gambar yang dikondisikan oleh teks. Baru-baru ini, kerangka Stable Diffusion telah membangun fondasi untuk beberapa adapter plug-and-play untuk mencapai generasi gambar atau video yang lebih inovatif dan efektif. Namun, proses generatif iteratif yang digunakan oleh sebagian besar model difusi video membuat proses generasi gambar menjadi waktu-menghabiskan dan relatif mahal, membatasi aplikasinya.

Dalam artikel ini, kita akan membahas tentang AnimateLCM, model difusi personalisasi dengan adapter yang bertujuan untuk menghasilkan video berkualitas tinggi dengan langkah minimal dan biaya komputasi. Kerangka AnimateLCM terinspirasi oleh Model Konsistensi, yang mempercepat sampling dengan langkah minimal dengan mendistilasi model difusi gambar pra-dilatih. Selain itu, perluasan sukses dari Model Konsistensi, Model Konsistensi Laten (LCM), memfasilitasi generasi gambar kondisional. Alih-alih melakukan pembelajaran konsistensi langsung pada dataset video mentah, kerangka AnimateLCM mengusulkan menggunakan strategi pembelajaran konsistensi yang terpisah. Strategi ini memisahkan distilasi prioritas generasi gerakan dan prioritas generasi gambar, memungkinkan model untuk meningkatkan kualitas visual dari konten yang dihasilkan dan meningkatkan efisiensi pelatihan secara bersamaan. Selain itu, model AnimateLCM mengusulkan pelatihan adapter dari awal atau menyesuaikan adapter yang ada dengan model konsistensi video yang didistilasi. Ini memfasilitasi kombinasi adapter plug-and-play dalam keluarga model difusi stabil untuk mencapai fungsi yang berbeda tanpa merusak kecepatan sampel.

Artikel ini bertujuan untuk membahas kerangka AnimateLCM secara mendalam. Kita menjelajahi mekanisme, metodologi, dan arsitektur kerangka, serta perbandingannya dengan kerangka generasi gambar dan video yang ada. Jadi, mari kita mulai.

AnimateLCM : Animasi Model Difusi Personalisasi

Model difusi telah menjadi kerangka yang paling umum untuk tugas generasi gambar dan video karena efisiensi dan kemampuan mereka pada tugas generatif. Sebagian besar model difusi bergantung pada proses denoising iteratif untuk generasi gambar yang mengubah noise Gaussian tinggi dimensi menjadi data nyata secara bertahap. Meskipun metode ini menghasilkan hasil yang cukup memuaskan, proses iteratif dan jumlah sampel yang diulang memperlambat proses generasi dan menambahkan biaya komputasi model difusi yang jauh lebih lambat daripada kerangka generatif lain seperti GAN atau Generative Adversarial Networks. Dalam beberapa tahun terakhir, Model Konsistensi atau CM telah diusulkan sebagai alternatif untuk model difusi iteratif untuk mempercepat proses generasi sambil menjaga biaya komputasi tetap konstan.

Sorotan dari model konsistensi adalah bahwa mereka mempelajari pemetaan konsistensi yang mempertahankan konsistensi trayektori yang diperkenalkan oleh model difusi pra-dilatih. Proses pembelajaran Model Konsistensi memungkinkan mereka untuk menghasilkan gambar berkualitas tinggi dengan langkah minimal, serta menghilangkan kebutuhan untuk iterasi komputasi-intensif. Selain itu, Model Konsistensi Laten atau LCM yang dibangun di atas kerangka difusi stabil dapat diintegrasikan ke dalam antarmuka pengguna web dengan adapter yang ada untuk mencapai sejumlah fungsi tambahan seperti terjemahan gambar-ke-gambar waktu nyata. Dalam perbandingan, meskipun model difusi video yang ada menghasilkan hasil yang dapat diterima, masih perlu kemajuan dalam bidang percepatan sampel video, dan ini sangat penting karena biaya komputasi generasi video yang tinggi.

Itu membawa kita ke AnimateLCM, kerangka generasi video berkualitas tinggi yang memerlukan langkah minimal untuk tugas generasi video. Mengikuti Model Konsistensi Laten, kerangka AnimateLCM mengobati proses difusi balik sebagai penyelesaian aliran probabilitas CFG atau Classifier Free Guidance yang ditingkatkan, dan melatih model untuk memprediksi solusi dari aliran probabilitas tersebut secara langsung di ruang laten. Namun, alih-alih melakukan pembelajaran konsistensi pada data video mentah langsung yang memerlukan sumber daya pelatihan dan komputasi yang tinggi, dan sering kali menghasilkan kualitas yang buruk, kerangka AnimateLCM mengusulkan strategi pembelajaran konsistensi yang terpisah yang memisahkan distilasi prioritas generasi gerakan dan prioritas generasi gambar.

Kerangka AnimateLCM pertama-tama melakukan distilasi konsistensi untuk menyesuaikan model difusi gambar dasar menjadi model konsistensi gambar, dan kemudian melakukan inflasi 3D pada model konsistensi gambar dan model difusi gambar untuk mengakomodasi fitur 3D. Akhirnya, kerangka AnimateLCM memperoleh model konsistensi video dengan melakukan distilasi konsistensi pada data video. Selain itu, untuk mengurangi kemungkinan korupsi fitur sebagai hasil dari proses difusi, kerangka AnimateLCM juga mengusulkan menggunakan strategi inisialisasi. Karena kerangka AnimateLCM dibangun di atas kerangka Difusi Stabil, ia dapat menggantikan bobot spasial dari model konsistensi video yang dilatih dengan bobot difusi gambar personalisasi yang tersedia secara publik untuk mencapai hasil generasi inovatif.

Selain itu, untuk melatih adapter khusus dari awal atau menyesuaikan adapter yang ada dengan lebih baik, kerangka AnimateLCM mengusulkan strategi percepatan yang efektif untuk adapter yang tidak memerlukan pelatihan model guru tertentu.

Kontribusi dari kerangka AnimateLCM dapat diringkas sebagai: Kerangka AnimateLCM yang diusulkan bertujuan untuk mencapai generasi video berkualitas tinggi, cepat, dan fidelitas tinggi, dan untuk mencapai ini, kerangka AnimateLCM mengusulkan strategi distilasi yang terpisah yang memisahkan prioritas generasi gerakan dan prioritas generasi gambar, menghasilkan kualitas generasi yang lebih baik dan efisiensi pelatihan yang ditingkatkan.

InstantID : Metodologi dan Arsitektur

Pada intinya, kerangka InstantID sangat terinspirasi oleh model difusi dan strategi kecepatan sampling. Model difusi, juga dikenal sebagai model generatif berbasis skor, telah menunjukkan kemampuan generatif gambar yang luar biasa. Di bawah bimbingan arah skor, strategi sampling iteratif yang diimplementasikan oleh model difusi mendenoising data yang terkorupsi oleh noise secara bertahap. Efisiensi model difusi adalah salah satu alasan utama mengapa mereka digunakan oleh sebagian besar model difusi video dengan pelatihan pada lapisan temporal tambahan. Di sisi lain, strategi percepatan sampling membantu menangani kecepatan generasi yang lambat pada model difusi. Metode percepatan berbasis distilasi menyetel bobot asli model difusi dengan arsitektur yang diperbarui atau scheduler untuk meningkatkan kecepatan generasi.

Melanjutkan, kerangka InstantID dibangun di atas model difusi stabil yang memungkinkan InstantID untuk menerapkan konsep yang relevan. Model ini mengobati proses difusi maju diskret sebagai Persamaan Diferensial Stokastik (SDE) yang mempertahankan varians waktu kontinu. Selain itu, model difusi stabil adalah perluasan dari model Denoising Diffusion Probabilistic Model (DDPM), di mana titik data pelatihan dikorupsi secara bertahap oleh rantai Markov diskret dengan kernel korupsi yang memungkinkan distribusi data yang terkorupsi pada langkah waktu yang berbeda untuk mengikuti distribusi.

Untuk mencapai generasi video berkualitas tinggi dengan langkah minimal, kerangka AnimateLCM membatasi model difusi video berbasis stabil untuk mengikuti sifat konsistensi diri. Struktur pelatihan keseluruhan dari kerangka AnimateLCM terdiri dari strategi pembelajaran konsistensi yang terpisah untuk adaptasi guru-bebas dan pembelajaran konsistensi yang efektif.

Transisi dari Model Difusi ke Model Konsistensi

Kerangka AnimateLCM memperkenalkan adaptasi sendiri dari Model Difusi Stabil (DM) ke Model Konsistensi (CM) mengikuti desain Model Konsistensi Laten (LCM). Ini patut dicatat bahwa meskipun model difusi stabil biasanya memprediksi noise yang ditambahkan ke sampel, mereka adalah model difusi sigma-esensial. Ini berbeda dengan model konsistensi yang bertujuan untuk memprediksi solusi dari trayektori PF-ODE secara langsung. Selain itu, pada model difusi stabil dengan parameter tertentu, sangat penting untuk model tersebut untuk menggunakan strategi bimbingan bebas kelas untuk menghasilkan gambar berkualitas tinggi. Kerangka AnimateLCM, bagaimanapun, menggunakan pemecah ODE yang ditingkatkan dengan bimbingan bebas kelas untuk menyampling pasangan berdekatan dalam trayektori yang sama, menghasilkan efisiensi dan kualitas yang lebih baik. Selain itu, model yang ada telah menunjukkan bahwa kualitas generasi dan efisiensi pelatihan sangat dipengaruhi oleh jumlah titik diskret dalam trayektori. Jumlah titik diskret yang lebih kecil mempercepat proses pelatihan, sedangkan jumlah titik diskret yang lebih tinggi menghasilkan bias yang lebih rendah selama pelatihan.

Pembelajaran Konsistensi yang Terpisah

Untuk proses distilasi konsistensi, pengembang telah mengamati bahwa data yang digunakan untuk pelatihan sangat mempengaruhi kualitas generasi akhir dari model konsistensi. Namun, masalah utama dengan dataset yang tersedia secara publik saat ini adalah bahwa mereka sering kali terdiri dari data yang memiliki watermark, atau kualitas yang rendah, dan mungkin mengandung caption yang terlalu singkat atau samar. Selain itu, melatih model langsung pada video dengan resolusi tinggi sangat mahal dan memakan waktu, membuatnya menjadi pilihan yang tidak layak untuk sebagian besar peneliti.

Dengan ketersediaan dataset yang disaring dengan kualitas tinggi, kerangka AnimateLCM mengusulkan untuk memisahkan distilasi prioritas gerakan dan prioritas generasi gambar. Lebih spesifik, kerangka AnimateLCM pertama-tama mendistilasi model difusi stabil menjadi model konsistensi gambar dengan dataset gambar-teks yang disaring dengan kualitas yang lebih baik. Kerangka ini kemudian melatih bobot LoRA ringan pada lapisan model difusi stabil, membekukan bobot model difusi stabil. Setelah model menyetel bobot LoRA, ia bekerja sebagai modul percepatan yang serbaguna, dan telah menunjukkan kompatibilitasnya dengan model personalisasi lain dalam komunitas difusi stabil. Untuk inferensi, kerangka AnimateLCM menggabungkan bobot LoRA dengan bobot asli tanpa merusak kecepatan inferensi. Setelah kerangka AnimateLCM memperoleh model konsistensi pada tingkat generasi gambar, ia membekukan bobot model difusi stabil dan bobot LoRA di atasnya. Selain itu, model ini mengembangkan kernel konvolusi 2D ke kernel pseudo-3D untuk melatih model konsistensi untuk generasi video. Model ini juga menambahkan lapisan temporal dengan inisialisasi nol dan koneksi residu blok tingkat. Pengaturan keseluruhan ini membantu memastikan bahwa output model tidak akan dipengaruhi ketika dilatih untuk pertama kalinya. Kerangka AnimateLCM di bawah bimbingan model difusi video yang tersedia secara publik melatih lapisan temporal yang diperluas dari model difusi stabil.

Ini penting untuk diakui bahwa sementara bobot LoRA spasial dirancang untuk mempercepat proses sampling tanpa mempertimbangkan pemodelan temporal, dan modul temporal dikembangkan melalui teknik difusi standar, integrasi langsung mereka cenderung merusak representasi pada awal pelatihan. Ini menyajikan tantangan signifikan dalam menggabungkan mereka dengan konflik minimal. Melalui penelitian empiris, kerangka AnimateLCM telah mengidentifikasi pendekatan inisialisasi yang sukses yang tidak hanya menggunakan prioritas konsistensi dari bobot LoRA spasial tetapi juga memitigasi efek merugikan dari kombinasi langsung mereka.

Pada awal pelatihan konsistensi, bobot LoRA spasial pra-dilatih diintegrasikan secara eksklusif ke dalam model konsistensi online, menyelamatkan model konsistensi target dari penyisipan. Strategi ini memastikan bahwa model target, yang berfungsi sebagai panduan pendidikan untuk model online, tidak menghasilkan prediksi yang salah yang dapat merugikan proses pembelajaran model online. Selama periode pelatihan, bobot LoRA secara bertahap diintegrasikan ke dalam model konsistensi target melalui proses rata-rata bergerak eksponensial (EMA), mencapai keseimbangan bobot optimal setelah beberapa iterasi.

Adaptasi Guru-Bebras

Model difusi stabil dan adapter plug-and-play sering kali digunakan bersamaan. Namun, telah diamati bahwa meskipun adapter plug-and-play bekerja sampai batas tertentu, mereka cenderung kehilangan kontrol dalam detail bahkan ketika sebagian besar adapter tersebut dilatih dengan model difusi gambar. Untuk mengatasi masalah ini, kerangka AnimateLCM memilih adaptasi guru-bebas, strategi yang sederhana namun efektif yang baik mengakomodasi adapter yang ada untuk kompatibilitas yang lebih baik atau melatih adapter dari awal. Pendekatan ini memungkinkan kerangka AnimateLCM untuk mencapai generasi video yang terkendali dan generasi gambar-ke-video dengan langkah minimal tanpa memerlukan model guru.

AnimateLCM: Eksperimen dan Hasil

Kerangka AnimateLCM menggunakan model Difusi Stabil v1-5 sebagai model dasar, dan mengimplementasikan solusi ODE DDIM untuk tujuan pelatihan. Kerangka ini juga menerapkan model Difusi Stabil v1-5 dengan bobot gerakan yang tersedia secara publik sebagai model difusi video guru dengan eksperimen yang dilakukan pada dataset WebVid2M tanpa data tambahan atau data yang diperkuat. Selain itu, kerangka ini menggunakan dataset TikTok dengan prompt teks singkat yang dikapion untuk generasi video yang terkendali.

Hasil Kualitatif

Gambar berikut menunjukkan hasil dari metode generasi empat langkah yang diimplementasikan oleh kerangka AnimateLCM dalam generasi teks-ke-video, generasi gambar-ke-video, dan generasi video yang terkendali.

Seperti yang dapat diamati, hasil yang dihasilkan oleh masing-masing dari mereka memuaskan dengan hasil generasi yang menunjukkan kemampuan kerangka AnimateLCM untuk mengikuti sifat konsistensi bahkan dengan langkah inferensi yang bervariasi, mempertahankan gerakan dan gaya yang sama.

Hasil Kuantitatif

Gambar berikut mengilustrasikan hasil kuantitatif dan perbandingan kerangka AnimateLCM dengan metode DDIM dan DPM++ yang ada.

Seperti yang dapat diamati, kerangka AnimateLCM outperforms metode yang ada dengan margin yang signifikan, terutama dalam режим langkah rendah yang berkisar dari 1 hingga 4 langkah. Selain itu, metrik AnimateLCM yang ditampilkan dalam perbandingan ini dievaluasi tanpa menggunakan CFG atau bimbingan bebas kelas, yang memungkinkan kerangka untuk menghemat hampir 50% waktu inferensi dan biaya memori puncak. Selain itu, untuk lebih memvalidasi kinerjanya, bobot spasial dalam kerangka AnimateLCM digantikan dengan model realistis yang tersedia secara publik yang menyeimbangkan fidelitas dan keragaman, yang membantu meningkatkan kinerja lebih lanjut.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang AnimateLCM, model difusi personalisasi dengan adapter yang bertujuan untuk menghasilkan video berkualitas tinggi dengan langkah minimal dan biaya komputasi. Kerangka AnimateLCM terinspirasi oleh Model Konsistensi yang mempercepat sampling dengan langkah minimal dengan mendistilasi model difusi gambar pra-dilatih, dan perluasan sukses dari Model Konsistensi, Model Konsistensi Laten yang memfasilitasi generasi gambar kondisional. Alih-alih melakukan pembelajaran konsistensi pada dataset video mentah langsung, kerangka AnimateLCM mengusulkan menggunakan strategi pembelajaran konsistensi yang terpisah yang memisahkan distilasi prioritas generasi gerakan dan prioritas generasi gambar, memungkinkan model untuk meningkatkan kualitas visual dari konten yang dihasilkan dan meningkatkan efisiensi pelatihan secara bersamaan.

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.