Terhubung dengan kami

Sudut Pandang Anderson

Video AI Menyempurnakan Foto Selfie Kucing

mm
Cuplikan dari video demo untuk makalah 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', yang menggambarkan sudut pandang 'selfie kucing', sementara seekor anjing bermain skateboard di latar belakang. Sumber: https://vita-epfl.github.io/FVG/

Generator video AI sering memberikan hasil yang mendekati, tetapi tidak sepenuhnya sesuai dengan apa yang diinginkan dalam teks perintah. Namun, perbaikan tingkat tinggi yang baru membuat perbedaan besar.

 

Sistem video generatif sering kali kesulitan membuat video yang benar-benar kreatif atau liar, dan sering kali gagal memenuhi harapan dari perintah teks pengguna.

Sebagian dari alasannya adalah belitan – fakta bahwa model visi/bahasa harus berkompromi tentang berapa lama mereka melatih data sumbernya. Pelatihan yang terlalu singkat, dan konsepnya fleksibel, tetapi belum sepenuhnya terbentuk – pelatihan yang terlalu lama, dan konsepnya akurat, tetapi tidak lagi cukup fleksibel untuk diintegrasikan ke dalam kombinasi baru.

Anda bisa mendapatkan gambaran dari video yang disematkan di bawah ini. Di sebelah kiri adalah jenis kompromi setengah jalan yang diberikan banyak sistem AI sebagai respons terhadap perintah yang menuntut (perintah tersebut berada di bagian atas video dalam keempat contoh) yang meminta beberapa penjajaran elemen yang terlalu fantastis untuk menjadi contoh pelatihan nyata. Di sebelah kanan, adalah keluaran AI yang jauh lebih sesuai dengan perintah tersebut:

Klik untuk bermain (tanpa audio). Di sebelah kanan, kita melihat WAN 2.2 yang 'difaktorkan' benar-benar memenuhi perintah, dibandingkan dengan interpretasi yang kurang jelas dari WAN 2.2 'standar', di sebelah kiri. Silakan lihat file video sumber untuk resolusi yang lebih baik dan lebih banyak contoh, meskipun versi yang dikurasi yang terlihat di sini tidak ada di situs proyek, dan dikumpulkan untuk artikel ini. sumber

Nah, meskipun kita harus memaafkan tangan manusia pada bebek yang bertepuk tangan (!), jelas bahwa contoh-contoh di sebelah kanan lebih sesuai dengan teks petunjuk aslinya daripada yang di sebelah kiri.

Menariknya, kedua arsitektur yang ditampilkan pada dasarnya adalah sama arsitektur – yang populer dan sangat mumpuni Wan 2.2, sebuah rilisan Tiongkok yang telah mendapatkan popularitas signifikan di komunitas sumber terbuka dan penggemar hobi tahun ini.

Perbedaannya adalah bahwa pipeline generatif kedua adalah difaktorkan, yang dalam hal ini berarti bahwa model bahasa besar (LLM) telah digunakan untuk menafsirkan ulang frame pertama (seed) dari video, sehingga akan jauh lebih mudah bagi sistem untuk memberikan apa yang diminta pengguna.

'Penjangkaran visual' ini melibatkan penyuntikan gambar yang dibuat dari petunjuk yang ditingkatkan LLM ini ke dalam alur kerja generatif sebagai 'bingkai awal', dan menggunakan LoRA Model interpretatif untuk membantu mengintegrasikan kerangka 'penyusup' ke dalam proses pembuatan video.

Hasilnya, dalam hal ketepatan respons, cukup luar biasa, terutama untuk solusi yang tampak cukup elegan:

Klik untuk bermain (tanpa audio). Contoh lebih lanjut dari generasi video 'terfaktorisasi' yang benar-benar sesuai dengan skrip. Silakan lihat file video sumber untuk resolusi yang lebih baik dan lebih banyak contoh, meskipun versi yang dikurasi yang terlihat di sini tidak ada di situs proyek, dan dikumpulkan untuk artikel ini.

Solusi ini hadir dalam bentuk kertas baru Generasi Video Terfaktorisasi: Memisahkan Konstruksi Adegan dan Sintesis Temporal dalam Model Difusi Teks-ke-Video, dan disertai dengan video-video yang menyertainya. situs web proyek.

Meskipun banyak sistem saat ini berupaya meningkatkan akurasi perintah dengan menggunakan model bahasa untuk menulis ulang teks yang samar atau kurang spesifik, penelitian baru ini berpendapat bahwa strategi ini masih menyebabkan kegagalan ketika model tersebut representasi adegan internal cacat.

Bahkan dengan petunjuk yang ditulis ulang secara detail, model teks-ke-video sering kali salah menyusun elemen-elemen kunci atau menghasilkan keadaan awal yang tidak kompatibel sehingga merusak logika animasi. Selama bingkai pertama gagal mencerminkan apa yang dijelaskan dalam petunjuk, video yang dihasilkan tidak dapat diperbaiki, terlepas dari seberapa bagus model geraknya.

Makalah menyatakan *:

'Model [teks-ke-video] sering menghasilkan frame yang bergeser secara distribusi namun tetap mencapai [skor evaluasi] yang sebanding dengan model I2V, yang menunjukkan bahwa Pemodelan gerak mereka tetap cukup alami bahkan ketika fidelitas adegan relatif buruk..

'Model [Image-to-Video] menunjukkan perilaku komplementer, [skor evaluasi] yang kuat dari adegan awal yang akurat dan koherensi temporal yang lebih lemah, sementara I2V+teks menyeimbangkan kedua aspek tersebut.

'Kontras ini menunjukkan sebuah ketidaksesuaian struktural pada model T2V saat ini'Pengaitan adegan dan sintesis temporal mendapat manfaat dari bias induktif yang berbeda, namun arsitektur yang ada berupaya mempelajari keduanya secara bersamaan dalam satu model.'

Perbandingan diagnostik dari berbagai mode pembangkitan menemukan bahwa model tanpa penjangkaran adegan eksplisit memiliki skor bagus pada gerakan, tetapi seringkali mengorbankan tata letak adegan, sementara pendekatan yang dikondisikan gambar menunjukkan pola sebaliknya:

Perbandingan mode pembuatan video pada dua dataset, menunjukkan bahwa I2V+teks mencapai kualitas frame (FID) dan koherensi temporal (FVD) terbaik, menyoroti manfaat pemisahan konstruksi adegan dari gerakan. Sumber - https://arxiv.org/pdf/2512.16371

Perbandingan mode pembuatan video pada dua dataset, menunjukkan bahwa I2V+teks mencapai kualitas frame (FID) dan koherensi temporal (FVD) terbaik, menyoroti manfaat pemisahan konstruksi adegan dari gerakan. sumber

Temuan ini menunjukkan adanya kelemahan struktural di mana model-model saat ini mencoba mempelajari tata letak adegan dan animasi sekaligus, padahal kedua tugas tersebut membutuhkan jenis yang berbeda. bias induktif, dan lebih baik ditangani secara terpisah.

Mungkin yang paling menarik adalah bahwa 'trik' ini berpotensi dapat diterapkan pada instalasi lokal model seperti Wan 2.1 dan 2.2, dan model difusi video serupa seperti Video HunyuanSecara anekdot, jika membandingkan kualitas hasil karya para penghobi dengan portal generatif komersial seperti Kling dan Runway, sebagian besar penyedia API utama meningkatkan penawaran sumber terbuka seperti WAN dengan LoRA, dan – tampaknya – dengan trik-trik seperti yang terlihat dalam makalah baru ini. Oleh karena itu, pendekatan khusus ini dapat mewakili upaya mengejar ketertinggalan bagi kelompok FOSS.

Pengujian yang dilakukan terhadap metode ini menunjukkan bahwa pendekatan yang sederhana dan modular ini menawarkan standar baru dalam hal Benchmark T2V-CompBench, secara signifikan meningkatkan semua model yang diuji. Para penulis mencatat dalam kesimpulan bahwa meskipun sistem mereka secara radikal meningkatkan fidelitas, sistem ini tidak mengatasi (dan memang tidak dirancang untuk mengatasi) pergeseran identitas, yang saat ini menjadi momok bagi penelitian AI generatif.

Makalah baru ini berasal dari empat peneliti di Ecole Polytechnique FΓ©dΓ©rale de Lausanne (EPFL) di Swiss.

Metode dan Data

Gagasan utama dari teknik baru ini adalah bahwa model difusi teks-ke-video (T2V) perlu 'dijangkarkan' pada bingkai awal yang benar-benar sesuai dengan teks perintah yang diinginkan.

Untuk memastikan model tersebut menghormati kerangka awal, metode baru ini mengganggu proses difusi standar dengan menyuntikkan cairan bersih tersembunyi dari citra acuan pada langkah waktu nol, menggantikan salah satu input bising yang biasa. Input yang tidak familiar ini membingungkan model pada awalnya, tetapi dengan LoRA minimal. mencari setelan, ia belajar memperlakukan bingkai yang disuntikkan sebagai jangkar visual tetap dan bukan sebagai bagian dari lintasan noise:

Metode dua tahap untuk membumikan generasi teks-ke-video dengan jangkar visual: Kiri, model disempurnakan menggunakan LoRA ringan untuk memperlakukan laten bersih yang disuntikkan sebagai batasan adegan tetap. Kanan, perintah dibagi menjadi keterangan bingkai pertama, yang digunakan untuk menghasilkan gambar jangkar yang memandu video.

Metode dua tahap untuk membumikan generasi teks-ke-video dengan jangkar visual: Kiri, model disempurnakan menggunakan LoRA ringan untuk memperlakukan laten bersih yang disuntikkan sebagai batasan adegan tetap. Kanan, perintah dibagi menjadi keterangan bingkai pertama, yang digunakan untuk menghasilkan gambar jangkar yang memandu video.

Pada tahap inferensi, metode tersebut menulis ulang perintah untuk menggambarkan hanya bingkai pertama, menggunakan LLM untuk mengekstrak kondisi awal adegan yang masuk akal yang berfokus pada tata letak dan penampilan.

Perintah yang telah ditulis ulang ini diteruskan ke generator gambar untuk menghasilkan bingkai jangkar kandidat (yang secara opsional dapat disempurnakan oleh pengguna). Bingkai yang dipilih dikodekan ke dalam laten dan disuntikkan ke dalam proses difusi dengan mengganti langkah waktu pertama, memungkinkan model untuk menghasilkan sisa video. sambil tetap berpegang teguh pada adegan awal. – sebuah proses yang berjalan tanpa memerlukan perubahan pada arsitektur dasarnya.

Proses tersebut diuji dengan membuat LoRA untuk Wan2.2-14B, Wan2.1-1B, dan CogVideo1.5-5BPelatihan LoRA dilaksanakan di sebuah peringkat dari 256, pada 5000 klip yang diambil secara acak dari UltraVideo koleksi.

Pelatihan berlangsung selama 6000 langkah, dan membutuhkan 48 jam GPU.† untuk Wan-1B dan CogVideo-5B, dan 96 jam GPU untuk Wan-14B. Para penulis mencatat bahwa Wan-5B secara bawaan mendukung pengkondisian teks saja dan teks-gambar (yang dalam hal ini dipaksakan ke kerangka kerja yang lebih lama), dan oleh karena itu tidak memerlukan penyesuaian lebih lanjut.

Tes

Dalam eksperimen yang dijalankan untuk proses tersebut, setiap perintah teks awalnya disempurnakan menggunakan Qwen2.5-7B-Instruksikan, yang menggunakan hasilnya untuk menghasilkan keterangan 'gambar awal' terperinci yang berisi deskripsi keseluruhan adegan. Ini kemudian diteruskan ke QwenImageyang bertugas menghasilkan 'bingkai ajaib' untuk disisipkan ke dalam proses difusi.

Tolok ukur yang digunakan untuk menilai sistem tersebut mencakup T2V-CompBench yang telah disebutkan sebelumnya, untuk menguji pemahaman komposisi dengan memberi skor seberapa baik model mempertahankan objek, atribut, dan tindakan dalam sebuah adegan yang koheren; dan VBench 2.0, untuk mengevaluasi penalaran yang lebih luas dan konsistensi di seluruh 18 metrik, yang dikelompokkan menjadi kreativitas, penalaran akal sehat, keterkendalian, kesetiaan manusia, dan fisika:

Di seluruh tujuh kategori evaluasi T2V-CompBench, metode T2V terfaktorisasi mengungguli baik baseline T2V standar maupun yang ditingkatkan resolusinya untuk setiap model yang diuji, dengan peningkatan hingga 53.25%. Varian dengan skor tertinggi sering kali menyamai atau melampaui benchmark PixVerse-V3 milik perusahaan.

Di seluruh tujuh kategori evaluasi T2V-CompBench, metode T2V terfaktorisasi mengungguli baik baseline T2V standar maupun yang ditingkatkan resolusinya untuk setiap model yang diuji, dengan peningkatan hingga 53.25%. Varian dengan skor tertinggi sering kali menyamai atau melampaui benchmark PixVerse-V3 milik perusahaan.

Mengenai putaran pengujian awal ini, para penulis menyatakan*:

'Di semua model, penambahan gambar jangkar secara konsisten meningkatkan kinerja komposisi. Semua model Factorized yang lebih kecil (CogVideo 5B, Wan 5B, dan Wan 1B) mengungguli model Wan 14B T2V yang lebih besar.'

'Wan 5B hasil pemfaktoran kami juga mengungguli model dasar PixVerse-V3 komersial yang merupakan model terbaik yang dilaporkan pada tolok ukur tersebut. Hal ini menunjukkan bahwa penguatan visual secara substansial meningkatkan pemahaman adegan dan aksi bahkan pada model dengan kapasitas yang lebih kecil.

'Dalam setiap keluarga model, versi terfaktorisasi mengungguli model aslinya. Secara khusus, LoRA berbasis jangkar ringan kami pada WAN 14B mencapai kinerja yang sebanding dengan varian I2V 14B yang telah dilatih sebelumnya (0.661 vs. 0.666), meskipun tidak memerlukan pelatihan ulang penuh.'

Selanjutnya tibalah babak VBench2.0:

Pendekatan T2V yang difaktorkan secara konsisten meningkatkan kinerja VBench 2.0 di seluruh komposisi, penalaran akal sehat, kemampuan kontrol, dan fisika, dengan beberapa peningkatan melebihi 60% – meskipun akurasi manusia tetap di bawah standar Veo 3 milik perusahaan.

Pendekatan T2V yang difaktorkan secara konsisten meningkatkan kinerja VBench 2.0 di seluruh komposisi, penalaran akal sehat, kemampuan kontrol, dan fisika, dengan beberapa peningkatan melebihi 60% – meskipun akurasi manusia tetap di bawah standar Veo 3 milik perusahaan.

Di semua arsitektur, pendekatan faktorisasi meningkatkan skor di setiap kategori VBench kecuali kesetiaan manusia, yang sedikit menurun bahkan dengan peningkatan resolusi yang cepat. WAN 5B mengungguli WAN 14B yang lebih besar, memperkuat hasil T2V-CompBench sebelumnya bahwa pentanahan visual memberikan kontribusi lebih besar daripada skala.

Meskipun peningkatan pada VBench konsisten, peningkatan tersebut lebih kecil daripada yang terlihat pada T2V-CompBench, dan para penulis menghubungkan hal ini dengan sistem penilaian biner VBench yang lebih ketat.

Untuk pengujian kualitatif, makalah ini menyajikan gambar statis, tetapi kami merujuk pembaca ke video komposit yang disematkan dalam artikel ini, untuk mendapatkan gambaran yang lebih jelas, dengan catatan bahwa video sumber lebih banyak dan beragam, serta memiliki resolusi dan detail yang lebih tinggi. Temukan video-video tersebut di sini. di siniMengenai hasil kualitatif, makalah tersebut menyatakan:

'Video yang ditambatkan secara konsisten menunjukkan komposisi adegan yang lebih akurat, keterkaitan objek-atribut yang lebih kuat, dan perkembangan temporal yang lebih jelas.'

Metode faktorisasi tetap stabil bahkan ketika jumlah langkah difusi dikurangi dari 50 menjadi 15, menunjukkan hampir tidak ada penurunan kinerja pada T2V-CompBench. Sebaliknya, baik baseline teks saja maupun yang di-upsample mengalami penurunan tajam dalam kondisi yang sama.

Meskipun pengurangan tahapan secara teoritis dapat melipatgandakan kecepatan, dalam praktiknya keseluruhan alur kerja hanya menjadi 2.1 kali lebih cepat, karena biaya tetap dari pembuatan citra acuan. Namun demikian, hasil penelitian menunjukkan bahwa penggunaan citra acuan tidak hanya meningkatkan kualitas sampel tetapi juga membantu menstabilkan proses difusi, mendukung pembuatan citra yang lebih cepat dan efisien tanpa mengurangi akurasi.

Situs web proyek ini menyediakan contoh-contoh peningkatan resolusi (upsampling) dibandingkan dengan generasi metode baru, yang beberapa contohnya (dengan resolusi lebih rendah) telah kami edit di sini:

Klik untuk bermain (tanpa audio). Sumber awal yang ditingkatkan resolusinya dibandingkan dengan pendekatan faktorisasi yang digunakan oleh penulis.

Penulis menyimpulkan:

'Hasil penelitian kami menunjukkan bahwa peningkatan penguatan sinyal, dan bukan hanya peningkatan kapasitas, mungkin sama pentingnya. Kemajuan terbaru dalam difusi T2V sangat bergantung pada peningkatan ukuran model dan data pelatihan, namun bahkan model besar pun sering kesulitan untuk menyimpulkan adegan awal yang koheren hanya dari teks saja.'

'Hal ini berbeda dengan difusi gambar, di mana penskalaan relatif mudah; dalam model video, setiap peningkatan arsitektur harus beroperasi pada dimensi temporal tambahan, sehingga penskalaan menjadi jauh lebih intensif sumber daya.

'Temuan kami menunjukkan bahwa peningkatan penguatan citra dapat melengkapi skala dengan mengatasi hambatan yang berbeda: menetapkan adegan yang tepat sebelum sintesis gerakan dimulai.'

'Dengan memfaktorkan pembuatan video ke dalam komposisi adegan dan pemodelan temporal, kami mengurangi beberapa mode kegagalan umum tanpa memerlukan model yang jauh lebih besar. Kami memandang ini sebagai prinsip desain komplementer yang dapat memandu arsitektur masa depan menuju sintesis video yang lebih andal dan terstruktur.'

Kesimpulan

Meskipun masalah keterikatan sangat nyata, dan mungkin memerlukan solusi khusus (seperti kurasi dan evaluasi distribusi yang lebih baik sebelum pelatihan), sungguh membuka mata untuk menyaksikan faktorisasi 'melepaskan' beberapa orkestrasi prompt konsep yang keras kepala dan 'macet' menjadi rendering yang jauh lebih akurat – hanya dengan lapisan pengkondisian LoRA yang moderat, dan intervensi gambar awal/benih yang jauh lebih baik.

Kesenjangan sumber daya antara inferensi hobi lokal dan solusi komersial mungkin tidak sebesar yang diperkirakan, mengingat hampir semua penyedia berupaya untuk merasionalisasi pengeluaran sumber daya GPU mereka yang cukup besar kepada konsumen.

Secara anekdot, sejumlah besar penyedia video generatif saat ini tampaknya menggunakan versi bermerek dan umumnya "ditingkatkan" dari model FOSS Tiongkok. Keunggulan utama yang dimiliki oleh sistem "perantara" ini tampaknya adalah mereka telah bersusah payah melatih LoRA, atau – dengan biaya lebih besar, dan imbalan yang sedikit lebih besar – benar-benar melakukan penyempurnaan penuh pada bobot model.††.

Wawasan semacam ini dapat membantu mempersempit kesenjangan tersebut lebih lanjut, dalam konteks situasi di mana Tiongkok tampaknya bertekad (tidak selalu karena alasan altruistik atau idealis) untuk mendemokratisasi AI generasi pertama, sementara kepentingan bisnis Barat mungkin lebih memilih agar peningkatan ukuran model dan regulasi pada akhirnya mengurung model-model yang benar-benar bagus di balik API, dan berbagai lapisan filter konten.

 

* Penekanan dari penulis, bukan dari saya.

† Makalah tersebut tidak menyebutkan GPU mana yang dipilih, atau berapa banyak yang digunakan.

†† Meskipun rute LoRA lebih memungkinkan, baik dari segi kemudahan penggunaan secara ekonomis, maupun karena bobot penuhnya, daripada terkuantisasi bobot, tidak selalu tersedia.

Pertama kali diterbitkan pada hari Jumat, 19 Desember 2025

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai