Kecerdasan buatan

Sistem Baru untuk Karakter Video Stabil yang Konsisten Secara Waktu

Published September 25, 2024

Updated April 27, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Inisiatif baru dari Alibaba Group menawarkan salah satu metode terbaik yang pernah saya lihat untuk menghasilkan avatar manusia full-body dari model dasar Stable Diffusion.

Berjudul MIMO (MIMicking dengan Object Interactions), sistem ini menggunakan berbagai teknologi dan modul populer, termasuk model manusia berbasis CGI dan AnimateDiff, untuk memungkinkan penggantian karakter yang konsisten secara waktu dalam video – atau untuk menggerakkan karakter dengan pose skeletal yang ditentukan oleh pengguna.

Di sini kita melihat karakter yang diinterpolasi dari satu sumber gambar, dan diarahkan oleh gerakan yang telah ditentukan sebelumnya:

[Klik video di bawah untuk memutar]

Dari sumber gambar tunggal, tiga karakter yang beragam diarahkan oleh urutan pose 3D (jauh kiri) menggunakan sistem MIMO. Lihat halaman proyek dan video YouTube yang menyertain (tersemat di akhir artikel ini) untuk contoh lebih lanjut dan resolusi yang lebih baik. Sumber: https://menyifang.github.io/projects/MIMO/index.html

Karakter yang dihasilkan, yang juga dapat disumber dari bingkai dalam video dan dalam berbagai cara lain, dapat diintegrasikan ke dalam footage dunia nyata.

MIMO menawarkan sistem baru yang menghasilkan tiga pengkodean diskrit, masing-masing untuk karakter, adegan, dan oklusi (yaitu, matting, ketika beberapa objek atau orang melewati karakter yang digambarkan). Pengkodean ini diintegrasikan pada saat inferensi.

[Klik video di bawah untuk memutar]

MIMO dapat menggantikan karakter asli dengan karakter yang fotorealistik atau bergaya yang mengikuti gerakan dari video target. Lihat halaman proyek dan video YouTube yang menyertain (tersemat di akhir artikel ini) untuk contoh lebih lanjut dan resolusi yang lebih baik.

Sistem ini dilatih di atas model Stable Diffusion V1.5, menggunakan dataset khusus yang dikurasi oleh peneliti, dan terdiri dari video dunia nyata dan simulasi yang sama.

Masalah besar dari video difusi adalah kestabilan waktu, di mana isi video Either berkedip-kedip atau ‘berevolusi’ dengan cara yang tidak diinginkan untuk representasi karakter yang konsisten.

MIMO, sebaliknya, secara efektif menggunakan satu gambar sebagai peta untuk bimbingan yang konsisten, yang dapat diarahkan dan dibatasi oleh model CGI SMPL interstisial.

Karena referensi sumber konsisten, dan model dasar yang dilatih telah ditingkatkan dengan contoh gerakan yang cukup representatif, kemampuan sistem untuk output yang konsisten secara waktu jauh lebih tinggi dari standar umum untuk avatar berbasis difusi.

[Klik video di bawah untuk memutar]

Contoh lebih lanjut dari karakter MIMO yang diarahkan oleh pose. Lihat halaman proyek dan video YouTube yang menyertain (tersemat di akhir artikel ini) untuk contoh lebih lanjut dan resolusi yang lebih baik.

Sangat umum bagi gambar tunggal untuk digunakan sebagai sumber untuk representasi neural yang efektif, baik dengan sendirinya, atau dengan cara multimodal, dikombinasikan dengan prompt teks. Misalnya, sistem transfer wajah LivePortrait yang populer dapat menghasilkan wajah yang sangat mirip dengan wajah asli dari gambar wajah tunggal.

Peneliti percaya bahwa prinsip yang digunakan dalam sistem MIMO dapat diperluas ke dalam jenis sistem dan kerangka generatif yang baru dan lain.

Makalah baru ini berjudul MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, dan berasal dari empat peneliti di Institute for Intelligent Computing dari Alibaba Group. Karya ini memiliki halaman proyek yang dilengkapi dengan video dan video YouTube yang menyertain, yang juga disematkan di akhir artikel ini.

Metode

MIMO mencapai pemisahan otomatis dan tidak terawasi dari tiga komponen spasial yang disebutkan, dalam arsitektur ujung-ke-ujung (yaitu, semua sub-proses diintegrasikan ke dalam sistem, dan pengguna hanya perlu menyediakan materi input).

Skema konseptual untuk MIMO. Sumber: https://arxiv.org/pdf/2409.16160

Objek dalam video sumber diterjemahkan dari 2D ke 3D, awalnya menggunakan estimator kedalaman monokular Depth Anything. Elemen manusia dalam setiap bingkai diekstrak dengan metode yang disesuaikan dari proyek Tune-A-Video.

Fitur-fitur ini kemudian diterjemahkan menjadi fasad volumetrik berbasis video melalui arsitektur Segment Anything 2 dari Facebook Research.

Lapisan adegan itu sendiri diperoleh dengan menghapus objek yang terdeteksi dalam dua lapisan lain, secara efektif menyediakan masker rotoscope gaya secara otomatis.

Untuk gerakan, satu set kode laten yang diekstrak untuk elemen manusia diarahkan ke model SMPL CGI default, yang gerakannya menyediakan konteks untuk konten manusia yang dihasilkan.

Peta fitur 2D untuk konten manusia diperoleh oleh differentiable rasterizer yang berasal dari inisiatif 2020 dari NVIDIA. Dengan menggabungkan data 3D yang diperoleh dari SMPL dengan data 2D yang diperoleh oleh metode NVIDIA, kode laten yang mewakili ‘orang neural’ memiliki korespondensi yang solid dengan konteksnya.

Pada titik ini, perlu untuk menetapkan referensi yang umum dibutuhkan dalam arsitektur yang menggunakan SMPL – pose kanonik. Ini secara umum mirip dengan ‘Vitruvian man’ karya Da Vinci, karena mewakili template pose nol yang dapat menerima konten dan kemudian diubah, membawa konten yang efektif ‘texture-mapped’ bersamanya.

Deformasi ini, atau ‘penyimpangan dari norma’, mewakili gerakan manusia, sementara model SMPL mempertahankan kode laten yang menyusun identitas manusia yang diekstrak, dan dengan demikian mewakili avatar yang dihasilkan dengan benar dalam hal pose dan tekstur.

Contoh pose kanonik dalam figur SMPL. Sumber: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Mengenai masalah entanglement (sejauh mana data yang dilatih dapat berakhir menjadi tidak fleksibel ketika Anda meregangkannya di luar batas dan asosiasi yang dilatih), penulis menyatakan*:

‘Untuk sepenuhnya memisahkan penampilan dari bingkai video yang diposisikan, solusi ideal adalah mempelajari representasi manusia dinamis dari video monokular dan mengubahnya dari ruang yang diposisikan ke ruang kanonik.

‘Mengingat efisiensi, kami menggunakan metode yang disederhanakan yang secara langsung mengubah gambar manusia yang diposisikan ke hasil kanonik dalam pose standar A menggunakan model repose manusia yang telah dilatih sebelumnya. Gambar penampilan kanonik yang disintesis diberikan ke pengkode ID untuk mendapatkan kode [identitas].

‘Desain sederhana ini memungkinkan pemisahan penuh dari atribut identitas dan gerakan. Mengikuti [Animate Anyone], pengkode ID termasuk pengkode gambar CLIP dan arsitektur referensi-net untuk mengikat fitur global dan lokal, [masing-masing].’

Untuk aspek adegan dan oklusi, VAE yang dibagikan dan tetap (dalam hal ini berasal dari publikasi 2013) digunakan untuk mengkodekan elemen adegan dan oklusi ke dalam ruang laten. Inkonsistensi ditangani oleh metode inpainting dari proyek ProPainter 2023.

Setelah dirakit dan diperbarui dengan cara ini, baik latar belakang maupun objek yang menghalangi dalam video akan menyediakan matte untuk avatar manusia yang bergerak.

Atribut yang diuraikan ini kemudian diberikan ke dalam arsitektur U-Net yang berbasis pada arsitektur Stable Diffusion V1.5. Kode adegan lengkap dikonkatenasi dengan noise laten asli sistem host. Komponen manusia diintegrasikan melalui lapisan perhatian diri dan perhatian silang, masing-masing.

Kemudian, hasil dibersihkan dikeluarkan melalui decoder VAE.

Data dan Pengujian

Untuk pelatihan, peneliti menciptakan dataset video manusia yang berjudul HUD-7K, yang terdiri dari 5.000 video karakter nyata dan 2.000 animasi sintetis yang dibuat oleh sistem En3D. Video nyata tidak memerlukan anotasi, karena sifat non-semantik dari prosedur ekstraksi figur dalam arsitektur MIMO. Data sintetis sepenuhnya dianotasi.

Model ini dilatih pada delapan NVIDIA A100 GPU (meskipun makalah tidak menyebutkan apakah ini adalah model 40GB atau 80GB VRAM), selama 50 iterasi, menggunakan 24 bingkai video dan ukuran batch empat, sampai konvergensi.

Modul gerakan untuk sistem ini dilatih pada bobot AnimateDiff. Selama proses pelatihan, bobot encoder/decoder VAE, dan encoder gambar CLIP dibekukan (berbeda dengan fine-tuning penuh, yang akan memiliki efek yang lebih luas pada model dasar).

Meskipun MIMO tidak diuji melawan sistem analog, peneliti mengujinya pada urutan gerakan yang sulit yang berasal dari AMASS dan Mixamo. Gerakan ini termasuk memanjat, bermain, dan menari.

Mereka juga menguji sistem pada video manusia di dunia nyata. Dalam kedua kasus, makalah melaporkan ‘kestabilan tinggi’ untuk gerakan 3D yang tidak terlihat ini, dari berbagai sudut pandang.

Meskipun makalah menawarkan hasil gambar statis yang menunjukkan efektivitas sistem, kinerja sebenarnya dari MIMO terbaik dinilai dengan hasil video yang luas yang disediakan di halaman proyek, dan dalam video YouTube yang disematkan di bawah (dari mana video di awal artikel ini berasal).

Penulis menyimpulkan:

‘Hasil eksperimental [menunjukkan] bahwa metode kami memungkinkan tidak hanya kontrol karakter, gerakan, dan adegan yang fleksibel, tetapi juga skala lanjutan ke karakter sewenang-wenang, keumuman ke gerakan 3D baru, dan keteraplikasian ke adegan interaktif.

‘Kami juga [percaya] bahwa solusi kami, yang mempertimbangkan sifat 3D bawaan dan mengkodekan video 2D ke komponen spasial hierarkis secara otomatis, bisa menginspirasi penelitian masa depan untuk sintesis video yang sadar 3D.

‘Selain itu, kerangka kerja kami tidak hanya cocok untuk menghasilkan video karakter tetapi juga dapat disesuaikan dengan tugas sintesis video yang terkendali lainnya.’

Kesimpulan

Sangat menyegarkan untuk melihat sistem avatar yang berbasis Stable Diffusion yang tampaknya mampu menunjukkan kestabilan waktu seperti ini – tidak hanya karena Avatars Gaussian tampaknya memenangkan posisi tinggi dalam sektor penelitian ini.

Avatar yang digayakan yang direpresentasikan dalam hasil ini efektif, dan meskipun tingkat fotorealisme yang dapat dihasilkan oleh MIMO tidak setara dengan apa yang dapat dilakukan oleh Gaussian Splatting, kelebihan menciptakan manusia yang konsisten secara waktu dalam Jaringan Difusi Laten (LDM) berbasis semantik sangat besar.