Sudut Anderson

Kemajuan Penting dalam Video AI yang Dikendalikan Manusia

Published April 4, 2025

Updated April 26, 2026

Martin Anderson

Examples from the DreamActor project page.

Catatan: Halaman proyek untuk pekerjaan ini mencakup 33 video beresolusi tinggi yang dapat diputar secara otomatis dengan total setengah gigabyte, yang mengganggu sistem saya saat memuat. Oleh karena itu, saya tidak akan menautkannya secara langsung. Pembaca dapat menemukan URL di abstrak atau PDF makalah jika mereka memilih.

Salah satu tujuan utama dalam penelitian sintesis video saat ini adalah menghasilkan kinerja video AI yang lengkap dari satu gambar. Pada minggu ini, sebuah makalah baru dari Bytedance Intelligent Creation menguraikan apa yang mungkin merupakan sistem yang paling komprehensif dari jenis ini hingga saat ini, yang dapat menghasilkan animasi tubuh penuh dan separuh yang menggabungkan detail ekspresi wajah yang ekspresif dengan gerakan skala besar yang akurat, serta mencapai konsistensi identitas yang ditingkatkan – sebuah area di mana bahkan sistem komersial terkemuka sering gagal.

Dalam contoh di bawah, kita melihat kinerja yang dikendalikan oleh aktor (kiri atas) dan diambil dari satu gambar (kanan atas), yang memberikan rendering yang sangat fleksibel dan gesit, tanpa masalah yang biasa terjadi saat membuat gerakan besar atau ‘menebak’ tentang area yang tersembunyi (yaitu bagian pakaian dan sudut wajah yang harus diinferensi atau dibayangkan karena tidak terlihat di foto sumber):

Konten Audio. Klik untuk memutar. Kinerja yang lahir dari dua sumber, termasuk lip-sync, yang biasanya merupakan hak istimewa sistem tambahan yang didedikasikan. Ini adalah versi yang dikurangi dari situs sumber (lihat catatan di awal artikel – berlaku untuk semua video yang disematkan di sini).

Meskipun kita dapat melihat beberapa tantangan residual terkait persistensi identitas saat setiap klip berlanjut, ini adalah sistem pertama yang saya lihat yang unggul dalam mempertahankan ID secara umum (meskipun tidak selalu) selama periode yang berkelanjutan tanpa menggunakan LoRAs:

Konten Audio. Klik untuk memutar. Contoh lebih lanjut dari proyek DreamActor.

Sistem baru, yang berjudul DreamActor, menggunakan sistem kontrol hibrida tiga bagian yang memberikan perhatian khusus pada ekspresi wajah, rotasi kepala, dan desain kerangka tubuh inti, sehingga mengakomodasi kinerja AI yang dikendalikan di mana neither aspek wajah maupun tubuh menderita karena yang lain – kemampuan yang jarang, bahkan tidak diketahui di antara sistem serupa.

Di bawah ini kita melihat salah satu aspek ini, rotasi kepala, dalam aksi. Bola berwarna di sudut kanan setiap thumbnail menunjukkan semacam gimbal virtual yang mendefinisikan orientasi kepala secara independen dari gerakan wajah dan ekspresi, yang di sini dikendalikan oleh aktor (kiri bawah).

Klik untuk memutar. Bola berwarna-warni yang divisualisasikan di sini mewakili sumbu rotasi kepala avatar, sementara ekspresi ditenagai oleh modul terpisah dan diberitahu oleh kinerja aktor (terlihat di sini kiri bawah).

Salah satu fungsionalitas proyek yang paling menarik, yang bahkan tidak disertakan dengan benar dalam pengujian makalah, adalah kemampuannya untuk menghasilkan gerakan lip-sync langsung dari audio – kemampuan yang bekerja tidak biasa baik bahkan tanpa video aktor pengendali.

Peneliti telah mengambil yang terbaik dari incumbent dalam pencarian ini, termasuk Runway Act-One dan LivePortrait, dan melaporkan bahwa DreamActor dapat mencapai hasil kuantitatif yang lebih baik.

Karena peneliti dapat menetapkan kriterianya sendiri, hasil kuantitatif tidak selalu menjadi standar empiris; tetapi pengujian kualitatif yang menyertainya tampaknya mendukung kesimpulan penulis.

Sayangnya, sistem ini tidak dimaksudkan untuk dirilis ke publik, dan satu-satunya nilai yang dapat diperoleh komunitas dari pekerjaan ini adalah dengan memungkinkan mereproduksi metodologi yang diuraikan dalam makalah (seperti yang dilakukan dengan efek yang cukup terkenal untuk Google Dreambooth pada tahun 2022).

Makalah tersebut menyatakan*:

‘Animasi gambar manusia memiliki risiko sosial yang mungkin, seperti disalahgunakan untuk membuat video palsu. Teknologi yang diusulkan dapat digunakan untuk membuat video palsu orang, tetapi alat deteksi yang ada [Demamba, Dormant] dapat mendeteksi palsu tersebut.

‘Untuk mengurangi risiko ini, aturan etika yang jelas dan pedoman penggunaan yang bertanggung jawab diperlukan. Kami akan membatasi akses ke model inti dan kode kami untuk mencegah penyalahgunaan.’

Alami, pertimbangan etika semacam ini nyaman dari sudut pandang komersial, karena menyediakan alasan untuk akses API saja ke model, yang kemudian dapat dimonetisasi. ByteDance telah melakukannya sekali pada tahun 2025, dengan membuat OmniHuman yang sangat dipuji tersedia untuk kredit berbayar di situs web Dreamina. Oleh karena itu, karena DreamActor kemungkinan merupakan produk yang lebih kuat, ini tampaknya merupakan hasil yang mungkin. Apa yang masih harus dilihat adalah seberapa jauh prinsip-prinsipnya, sejauh yang dijelaskan dalam makalah, dapat membantu komunitas sumber terbuka.

Makalah baru ini berjudul DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance, dan berasal dari enam peneliti Bytedance.

Metode

Sistem DreamActor yang diusulkan dalam makalah ini bertujuan untuk menghasilkan animasi manusia dari gambar referensi dan video pengendali, menggunakan kerangka Diffusion Transformer (DiT) yang disesuaikan untuk ruang laten (sepertinya beberapa rasa Stable Diffusion, meskipun makalah hanya mengutip publikasi rilis landmark 2022).

Bukannya mengandalkan modul eksternal untuk menangani kondisi referensi, penulis menggabungkan fitur penampilan dan gerakan langsung di dalam kerangka DiT, memungkinkan interaksi melintasi ruang dan waktu melalui perhatian:

Skema untuk sistem baru: DreamActor mengkodekan pose, gerakan wajah, dan penampilan menjadi laten terpisah, menggabungkannya dengan laten video yang berisik yang dihasilkan oleh 3D VAE. Sinyal-sinyal ini digabungkan dalam Diffusion Transformer menggunakan self- dan cross-attention, dengan berat yang dibagikan di seluruh cabang. Model ini diawasi dengan membandingkan output yang didepak dengan laten video yang bersih. Source: https://arxiv.org/pdf/2504.01724

Untuk melakukan ini, model menggunakan 3D variational autoencoder pra-terlatih untuk mengkodekan baik video input dan gambar referensi. Laten ini patchified, digabungkan, dan dimasukkan ke dalam DiT, yang memprosesnya bersama.

Arsitektur ini berbeda dari praktik umum yang menambahkan jaringan sekunder untuk injeksi referensi, yang merupakan pendekatan untuk proyek Animate Anyone dan Animate Anyone 2 yang berpengaruh.

Bukannya, DreamActor membangun fusi ke dalam model utama itu sendiri, menyederhanakan desain sambil meningkatkan aliran informasi antara petunjuk penampilan dan gerakan. Model ini kemudian dilatih menggunakan flow matching bukan objek difusi standar (Flow matching melatih model difusi dengan memprediksi langsung bidang kecepatan antara data dan kebisingan, melewati estimasi skor).

Panduan Gerakan Hibrida

Metode Panduan Gerakan Hibrida yang menginformasikan rendering neural menggabungkan token pose yang berasal dari kerangka tubuh 3D dan bola kepala; representasi wajah implisit yang diekstrak oleh pengkode wajah pra-terlatih; dan token penampilan referensi yang diambil dari gambar sumber.

Elemen-elemen ini diintegrasikan dalam Diffusion Transformer menggunakan mekanisme perhatian yang berbeda, memungkinkan sistem untuk mengoordinasikan gerakan global, ekspresi wajah, dan identitas visual selama proses generasi.

Untuk yang pertama, bukannya mengandalkan landmark wajah, DreamActor menggunakan representasi wajah implisit untuk mengarahkan generasi ekspresi, yang sepertinya memungkinkan kontrol yang lebih halus atas dinamika wajah sambil melepaskan identitas dan pose kepala dari ekspresi.

Untuk membuat representasi ini, pipa mengdeteksi dan memotong wilayah wajah di setiap bingkai video pengendali, mengubah ukurannya menjadi 224×224. Wajah yang dipotong diproses oleh pengkode gerakan wajah pra-terlatih pada dataset PD-FGC, yang kemudian dikondisikan oleh lapisan MLP.

PD-FGC, digunakan dalam DreamActor, menghasilkan kepala berbicara dari gambar referensi dengan kontrol terpisah atas lip-sync (dari audio), pose kepala, gerakan mata, dan ekspresi (dari video terpisah), memungkinkan manipulasi yang presisi dan independen dari masing-masing. Source: https://arxiv.org/pdf/2211.14506

Hasilnya adalah urutan token gerakan wajah, yang disuntikkan ke dalam Diffusion Transformer melalui lapisan cross-attention.

Kerangka yang sama juga mendukung varian audio-driven, di mana pengkode terpisah dilatih yang memetakan input suara langsung ke token gerakan wajah. Ini memungkinkan generasi animasi wajah yang disinkronkan – termasuk gerakan bibir – tanpa video pengendali.

Konten Audio. Klik untuk memutar. Lip-sync yang dihasilkan murni dari audio, tanpa referensi video aktor. Karakter input tunggal adalah foto statis yang terlihat di kanan atas.

Kedua, untuk mengontrol pose kepala secara independen dari ekspresi wajah, sistem ini memperkenalkan representasi bola kepala 3D (lihat video yang disematkan sebelumnya dalam artikel ini), yang melepaskan dinamika wajah dari gerakan kepala global, meningkatkan presisi dan fleksibilitas selama animasi.

Bola kepala dihasilkan dengan mengekstrak parameter wajah 3D – seperti rotasi dan pose kamera – dari video pengendali menggunakan metode pelacakan FaceVerse.

Skema untuk proyek FaceVerse. Source: https://www.liuyebin.com/faceverse/faceverse.html

Parameter ini digunakan untuk merender bola warna yang diproyeksikan ke bidang gambar 2D, yang diselaraskan secara spasial dengan kepala pengendali. Ukuran bola sesuai dengan kepala referensi, dan warnanya mencerminkan orientasi kepala. Abstraksi ini mengurangi kompleksitas pembelajaran gerakan kepala 3D, membantu melestarikan bentuk kepala yang distilis atau ditekan dalam karakter yang diambil dari animasi.

Visualisasi bola kontrol yang mempengaruhi orientasi kepala.

Terakhir, untuk mengarahkan gerakan tubuh penuh, sistem ini menggunakan kerangka tubuh 3D dengan normalisasi panjang tulang adaptif. Parameter tubuh dan tangan diperkirakan menggunakan 4DHumans dan HaMeR, keduanya beroperasi pada model tubuh SMPL-X.

SMPL-X menerapkan mesh parametrik pada tubuh manusia penuh dalam gambar, selaras dengan pose dan ekspresi yang diestimasi untuk memungkinkan manipulasi pose-sadar menggunakan mesh sebagai panduan volumetrik. Source: https://arxiv.org/pdf/1904.05866

Dari output ini, sendi kunci dipilih, diproyeksikan ke 2D, dan dihubungkan menjadi peta kerangka garis. Tidak seperti metode seperti Champ, yang merender mesh tubuh penuh, pendekatan ini menghindari menerapkan prior bentuk pra-definisi, dan dengan mengandalkan struktur kerangka saja, model ini didorong untuk menginferensi bentuk dan penampilan tubuh langsung dari gambar referensi, mengurangi bias terhadap tipe tubuh tetap, dan meningkatkan generalisasi di seluruh pose dan bentuk yang beragam.

Selama pelatihan, kerangka tubuh 3D digabungkan dengan bola kepala dan dilewatkan melalui pengkode pose, yang menghasilkan fitur yang kemudian digabungkan dengan laten video yang berisik untuk menghasilkan token kebisingan yang digunakan oleh Diffusion Transformer.

Pada waktu inferensi, sistem memperhitungkan perbedaan kerangka antara subjek dengan menormalisasi panjang tulang. Model SeedEdit pra-terlatih mengubah baik gambar referensi dan gambar pengendali menjadi konfigurasi kanonik standar. RTMPose kemudian digunakan untuk mengekstrak proporsi kerangka, yang digunakan untuk menyesuaikan kerangka pengendali dengan anatomi subjek referensi.

Gambaran pipeline inferensi. Pseudo-referensi mungkin dibuat untuk memperkaya petunjuk penampilan, sementara sinyal kontrol hibrida – gerakan wajah implisit dan pose eksplisit dari bola kepala dan kerangka tubuh – diekstrak dari video pengendali. Sinyal-sinyal ini kemudian dimasukkan ke dalam model DiT untuk menghasilkan output animasi, dengan gerakan wajah yang dilepaskan dari pose tubuh, memungkinkan penggunaan audio sebagai pengendali.

Panduan Penampilan

Untuk meningkatkan keaslian penampilan, terutama di area yang tersembunyi atau jarang terlihat, sistem ini melengkapi gambar referensi utama dengan pseudo-referensi yang diambil dari video input.

Klik untuk memutar. Sistem ini memprediksi kebutuhan untuk merender area yang tersembunyi dengan akurat dan konsisten. Ini tentang seberapa dekat saya telah melihat, dalam proyek jenis ini, dengan pendekatan tekstur bitmap seperti CGI.

Bingkai tambahan ini dipilih untuk keanekaragaman pose menggunakan RTMPose, dan difilter menggunakan kesamaan berbasis CLIP untuk memastikan mereka tetap konsisten dengan identitas subjek.

Semua bingkai referensi (utama dan pseudo) dikodekan oleh pengkode visual yang sama dan digabungkan melalui mekanisme perhatian self, memungkinkan model untuk mengakses petunjuk penampilan komplementer. Pengaturan ini meningkatkan cakupan detail seperti tampilan profil atau tekstur anggota tubuh. Pseudo-referensi selalu digunakan selama pelatihan dan opsional selama inferensi.

Pelatihan

DreamActor dilatih dalam tiga tahap untuk secara bertahap memperkenalkan kompleksitas dan meningkatkan stabilitas.

Pada tahap pertama, hanya kerangka tubuh 3D dan bola kepala 3D yang digunakan sebagai sinyal kontrol, menghilangkan representasi wajah. Ini memungkinkan model video generasi dasar, diinisialisasi dari MMDiT, untuk beradaptasi dengan animasi manusia tanpa terlalu banyak dipengaruhi oleh kontrol halus.

Pada tahap kedua, representasi wajah implisit ditambahkan, tetapi semua parameter lain dibekukan. Hanya pengkode gerakan wajah dan lapisan perhatian wajah yang dilatih pada titik ini, memungkinkan model untuk belajar detail ekspresif dalam isolasi.

Pada tahap terakhir, semua parameter dibuka kembali untuk optimasi bersama di seluruh penampilan, pose, dan dinamika wajah.

Data dan Pengujian

Untuk fase pengujian, model diinisialisasi dari checkpoint DiT pra-terlatih image-to-video dan dilatih dalam tiga tahap: 20.000 langkah untuk masing-masing dari dua tahap pertama dan 30.000 langkah untuk tahap ketiga.

Untuk meningkatkan generalisasi di seluruh durasi dan resolusi yang berbeda, klip video secara acak dipilih dengan panjang antara 25 dan 121 bingkai. Klip ini kemudian diubah ukurannya menjadi 960x640px, sambil menjaga rasio aspek.

Pelatihan dilakukan pada delapan (NVIDIA H20 yang dirancang untuk China) dengan masing-masing 96GB VRAM, menggunakan AdamW dengan tingkat pembelajaran (yang relatif tinggi) 5e−6.

Pada waktu inferensi, setiap segmen video berisi 73 bingkai. Untuk mempertahankan konsistensi di seluruh segmen, laten terakhir dari satu segmen digunakan kembali sebagai laten awal untuk segmen berikutnya, yang mengkontekstualisasikan tugas sebagai generasi image-to-video berurutan.

Panduan bebas kelas diterapkan dengan bobot 2,5 untuk gambar referensi dan sinyal kontrol gerakan.

Penulis membangun dataset pelatihan (tidak ada sumber yang disebutkan dalam makalah) yang terdiri dari 500 jam video yang berasal dari domain yang beragam, menampilkan contoh (antara lain) tarian, olahraga, film, dan berbicara di depan umum. Dataset ini dirancang untuk menangkap spektrum yang luas dari gerakan dan ekspresi manusia, dengan distribusi yang merata antara shot tubuh penuh dan setengah.

Untuk meningkatkan kualitas sintesis wajah, Nersemble dimasukkan dalam proses persiapan data.

Contoh dari dataset Nersemble, digunakan untuk melengkapi data untuk DreamActor. Source: https://www.youtube.com/watch?v=a-OAWqBzldU

Untuk evaluasi, peneliti menggunakan dataset mereka sebagai benchmark untuk menilai generalisasi di seluruh skenario yang berbeda.

Kinerja model diukur menggunakan metrik standar dari karya sebelumnya: Fréchet Inception Distance (FID); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); dan Peak Signal-to-Noise Ratio (PSNR) untuk kualitas frame-level. Fréchet Video Distance (FVD) digunakan untuk menilai kohesi temporal dan keseluruhan fidelitas video.

Penulis melakukan eksperimen pada tugas animasi tubuh dan animasi potret, semua menggunakan satu gambar referensi (target) tunggal.

Untuk animasi tubuh, DreamActor-M1 dibandingkan dengan Animate Anyone; Champ; MimicMotion, dan DisPose.

Perbandingan kuantitatif melawan kerangka kerja rival.

Meskipun PDF menyediakan gambar statis sebagai perbandingan visual, salah satu video dari situs proyek mungkin menyoroti perbedaan lebih jelas:

Konten Audio. Klik untuk memutar. Perbandingan visual di seluruh kerangka kerja yang menantang. Video pengendali terlihat di kiri atas, dan kesimpulan penulis bahwa DreamActor menghasilkan hasil terbaik tampaknya masuk akal.

Untuk pengujian animasi potret, model dievaluasi melawan LivePortrait; X-Portrait; SkyReels-A1; dan Act-One.

Perbandingan kuantitatif untuk animasi potret.

Penulis mencatat bahwa metode mereka unggul dalam pengujian kuantitatif, dan mengklaim bahwa metode mereka juga unggul secara kualitatif.

Konten Audio. Klik untuk memutar. Contoh perbandingan animasi potret.

Secara argumentatif, klip ketiga dan terakhir dari video di atas menunjukkan sinkronisasi bibir yang kurang meyakinkan dibandingkan dengan beberapa kerangka kerja rival, meskipun kualitasnya secara keseluruhan sangat tinggi.

Kesimpulan

Dalam memprediksi kebutuhan akan tekstur yang diimplikasikan tetapi tidak benar-benar hadir dalam gambar referensi tunggal yang menghidupkan rekreasi ini, Bytedance telah menangani salah satu tantangan terbesar yang dihadapi oleh generasi video berbasis difusi – tekstur yang konsisten dan persisten. Langkah logis berikutnya setelah memperbaiki pendekatan seperti itu akan menjadi menciptakan atlas referensi dari klip yang dihasilkan awal yang dapat diterapkan pada generasi berikutnya yang berbeda, untuk mempertahankan penampilan tanpa LoRAs.

Meskipun pendekatan seperti itu pada dasarnya masih merupakan referensi eksternal, ini tidak berbeda dengan pemetaan tekstur dalam teknik CGI tradisional, dan kualitas realisme dan kemungkinan sangat lebih tinggi daripada yang dapat diperoleh metode lama.

Namun, aspek paling mengesankan dari DreamActor adalah sistem kontrol hibrida tiga bagian, yang menjembatani pembagian tradisional antara sintesis manusia yang berfokus pada wajah dan sintesis manusia yang berfokus pada tubuh dengan cara yang cerdas.

Hanya tersisa untuk dilihat apakah beberapa prinsip inti ini dapat dimanfaatkan dalam penawaran yang lebih dapat diakses; karena DreamActor tampaknya ditakdirkan untuk menjadi penawaran sintesis-sebagai-layanan lainnya, yang terikat erat oleh batasan penggunaan, dan oleh ketidakpraktisan bereksperimen secara ekstensif dengan arsitektur komersial.

* Penggantian saya dari tautan untuk penulis; kutipan inline

^†Seperti disebutkan sebelumnya, tidak jelas dengan rasa Stable Diffusion yang digunakan dalam proyek ini.

Dipublikasikan pertama kali pada hari Jumat, 4 April 2025