Kecerdasan buatan

AniPortrait: Sintesis Audio-Driven dari Animasi Potret Fotorealistik

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

Selama beberapa tahun, penciptaan animasi potret yang realistis dan ekspresif dari gambar statis dan audio telah menemukan berbagai aplikasi termasuk permainan, media digital, realitas virtual, dan banyak lagi. Meskipun potensial aplikasinya, masih sulit bagi pengembang untuk menciptakan kerangka kerja yang mampu menghasilkan animasi berkualitas tinggi yang mempertahankan konsistensi temporal dan secara visual menarik. Sebuah penyebab utama dari kompleksitas ini adalah kebutuhan untuk koordinasi yang rumit dari gerakan bibir, posisi kepala, dan ekspresi wajah untuk menciptakan efek yang secara visual menarik.

Dalam artikel ini, kita akan membahas tentang AniPortrait, sebuah kerangka kerja baru yang dirancang untuk menghasilkan animasi berkualitas tinggi yang didorong oleh gambar potret referensi dan sampel audio. Kerja dari kerangka kerja AniPortrait dibagi menjadi dua tahap. Pertama, kerangka kerja AniPortrait mengekstrak representasi 3D intermediate dari sampel audio, dan memproyeksikannya ke dalam urutan tanda wajah 2D. Setelah itu, kerangka kerja menggunakan model difusi yang kuat dengan modul gerakan untuk mengubah urutan tanda wajah menjadi animasi yang konsisten secara temporal dan fotorealistik. Hasil eksperimental menunjukkan superioritas dan kemampuan kerangka kerja AniPortrait untuk menghasilkan animasi berkualitas tinggi dengan kualitas visual yang luar biasa, keragaman pose, dan kealamiannya, sehingga menawarkan pengalaman perseptual yang ditingkatkan dan diperkaya. Selain itu, kerangka kerja AniPortrait memiliki potensi yang luar biasa dalam hal kontrol dan fleksibilitas, dan dapat diterapkan secara efektif di area termasuk reenactment wajah, editing gerakan wajah, dan banyak lagi. Artikel ini bertujuan untuk membahas kerangka kerja AniPortrait secara mendalam, dan kita menjelajahi mekanisme, metodologi, arsitektur kerangka kerja bersama dengan perbandingannya dengan kerangka kerja yang ada. Jadi, mari kita mulai.

AniPortrait: Animasi Potret Fotorealistik

Menciptakan animasi potret yang realistis dan ekspresif telah menjadi fokus peneliti selama beberapa waktu sekarang karena potensialnya yang luar biasa dan aplikasinya yang meliputi media digital dan realitas virtual hingga permainan dan banyak lagi. Meskipun tahun-tahun penelitian dan pengembangan, menghasilkan animasi berkualitas tinggi yang mempertahankan konsistensi temporal dan secara visual menarik masih merupakan tantangan yang signifikan. Sebuah hambatan besar bagi pengembang adalah kebutuhan untuk koordinasi yang rumit antara posisi kepala, ekspresi visual, dan gerakan bibir untuk menciptakan efek yang secara visual menarik. Metode yang ada gagal untuk mengatasi tantangan ini, terutama karena sebagian besar dari mereka bergantung pada generator dengan kapasitas terbatas seperti NeRF, decoder berbasis gerakan, dan GAN untuk pembuatan konten visual. Jaringan ini menunjukkan kemampuan generalisasi yang terbatas, dan tidak stabil dalam menghasilkan konten berkualitas tinggi. Namun, munculnya model difusi baru-baru ini telah memfasilitasi generasi gambar berkualitas tinggi, dan beberapa kerangka kerja yang dibangun di atas model difusi bersama dengan modul temporal telah memfasilitasi penciptaan video yang menarik, memungkinkan model difusi untuk unggul.

Dengan memanfaatkan kemajuan model difusi, kerangka kerja AniPortrait bertujuan untuk menghasilkan potret animasi berkualitas tinggi menggunakan gambar referensi dan sampel audio. Kerja dari kerangka kerja AniPortrait dibagi menjadi dua tahap. Pada tahap pertama, kerangka kerja AniPortrait menggunakan model berbasis transformer untuk mengekstrak urutan mesh wajah 3D dan pose kepala dari input audio, dan memproyeksikannya ke dalam urutan tanda wajah 2D. Tahap pertama memungkinkan kerangka kerja AniPortrait untuk menangkap gerakan bibir dan ekspresi halus dari audio, serta gerakan kepala yang sinkron dengan irama sampel audio. Pada tahap kedua, kerangka kerja AniPortrait menggunakan model difusi yang kuat dan mengintegrasikannya dengan modul gerakan untuk mengubah urutan tanda wajah menjadi animasi potret yang fotorealistik dan konsisten secara temporal. Lebih spesifik, kerangka kerja AniPortrait menggunakan arsitektur jaringan dari model AnimateAnyone yang ada, yang menggunakan Stable Diffusion 1.5, sebuah model difusi yang kuat untuk menghasilkan animasi yang realistis dan fluid berdasarkan gambar referensi dan urutan gerakan tubuh. Yang perlu diperhatikan adalah bahwa kerangka kerja AniPortrait tidak menggunakan modul pose guider dalam jaringan ini, tetapi merancangnya ulang, memungkinkan kerangka kerja AniPortrait tidak hanya mempertahankan desain yang ringan, tetapi juga menunjukkan presisi yang ditingkatkan dalam menghasilkan gerakan bibir.

Hasil eksperimental menunjukkan superioritas kerangka kerja AniPortrait dalam menciptakan animasi dengan kealamiannya yang luar biasa, kualitas visual yang sangat baik, dan keragaman pose. Dengan menggunakan representasi wajah 3D sebagai fitur intermediate, kerangka kerja AniPortrait memperoleh fleksibilitas untuk memodifikasi representasi ini sesuai dengan kebutuhannya. Fleksibilitas ini secara signifikan meningkatkan aplikabilitas kerangka kerja AniPortrait di berbagai domain, termasuk reenactment wajah dan editing gerakan wajah.

AniPortrait: Kerja dan Metodologi

Kerangka kerja AniPortrait yang diusulkan terdiri dari dua modul, yaitu Lmk2Video dan Audio2Lmk. Modul Audio2Lmk berusaha untuk mengekstrak urutan tanda wajah yang menangkap gerakan bibir dan ekspresi wajah yang rumit dari input audio, sedangkan modul Lmk2Video menggunakan urutan tanda wajah ini untuk menghasilkan video potret berkualitas tinggi dengan stabilitas temporal. Gambar berikut menunjukkan overview dari kerja kerangka kerja AniPortrait. Seperti yang dapat dilihat, kerangka kerja AniPortrait pertama-tama mengekstrak mesh wajah 3D dan pose kepala dari audio, dan memproyeksikannya ke dalam titik kunci 2D. Pada tahap kedua, kerangka kerja menggunakan model difusi untuk mengubah titik kunci 2D menjadi video potret dengan dua tahap yang dilatih secara bersamaan dalam jaringan.

Audio2Lmk

Untuk urutan cuplikan ucapan yang diberikan, tujuan utama kerangka kerja AniPortrait adalah untuk memprediksi urutan mesh wajah 3D yang sesuai dengan representasi vektor translasi dan rotasi. Kerangka kerja AniPortrait menggunakan metode wav2vec yang telah dilatih sebelumnya untuk mengekstrak fitur audio, dan model ini menunjukkan kemampuan generalisasi yang tinggi, dan mampu mengenali intonasi dan pengucapan dari audio dengan akurat yang memainkan peran kunci dalam menghasilkan animasi wajah yang realistis. Dengan memanfaatkan fitur audio yang kuat yang diperoleh, kerangka kerja AniPortrait dapat secara efektif menggunakan arsitektur sederhana yang terdiri dari dua lapisan fc untuk mengubah fitur ini menjadi mesh wajah 3D. Kerangka kerja AniPortrait mengamati bahwa desain sederhana ini yang diimplementasikan oleh model tidak hanya meningkatkan efisiensi proses inferensi, tetapi juga memastikan akurasi. Ketika mengubah audio menjadi pose, kerangka kerja AniPortrait menggunakan jaringan wav2vec yang sama sebagai backbone, meskipun model tidak berbagi bobot dengan modul audio ke mesh. Ini terutama karena pose terkait lebih dengan nada dan irama yang ada dalam audio, yang memiliki penekanan yang berbeda dibandingkan dengan tugas audio ke mesh. Untuk memperhitungkan dampak dari keadaan sebelumnya, kerangka kerja AniPortrait menggunakan decoder transformer untuk mendekode urutan pose. Selama proses ini, kerangka kerja mengintegrasikan fitur audio ke dalam decoder menggunakan mekanisme perhatian silang, dan untuk kedua modul, kerangka kerja melatihnya menggunakan kerugian L1. Setelah model memperoleh pose dan urutan mesh, kerangka kerja menggunakan proyeksi perspektif untuk mengubah urutan ini menjadi urutan tanda wajah 2D yang kemudian digunakan sebagai sinyal input untuk tahap berikutnya.

Lmk2Video

Untuk gambar potret referensi yang diberikan dan urutan tanda wajah, modul Lmk2Video yang diusulkan menciptakan animasi potret yang konsisten secara temporal, dan animasi ini selaras dengan gerakan urutan tanda wajah, serta mempertahankan penampilan yang konsisten dengan gambar referensi, dan akhirnya, kerangka kerja merepresentasikan animasi potret sebagai urutan bingkai potret. Desain struktur jaringan Lmk2Video mencari inspirasi dari kerangka kerja AnimateAnyone yang ada. Kerangka kerja AniPortrait menggunakan Stable Diffusion 1.5, sebuah model difusi yang sangat kuat sebagai backbone, dan mengintegrasikannya dengan modul gerakan temporal yang secara efektif mengubah input noise multi-bingkai menjadi urutan bingkai video. Pada saat yang sama, komponen jaringan ReferencenNet yang mirip dengan struktur Stable Diffusion 1.5, dan menggunakan komponen ini untuk mengekstrak informasi penampilan dari gambar referensi, dan mengintegrasikannya ke dalam backbone. Desain strategis ini memastikan bahwa identitas wajah tetap konsisten sepanjang video output. Berbeda dengan kerangka kerja AnimateAnyone, kerangka kerja AniPortrait meningkatkan kompleksitas desain PoseGuider. Versi asli kerangka kerja AnimateAnyone hanya terdiri dari beberapa lapisan konvolusi setelah itu fitur tanda wajah bergabung dengan latens pada lapisan input backbone. Kerangka kerja AniPortrait menemukan bahwa desain ini tidak cukup untuk menangkap gerakan bibir yang rumit, dan untuk mengatasi masalah ini, kerangka kerja menggunakan strategi multi-skala dari arsitektur ConvNet, dan mengintegrasikan fitur tanda wajah skala yang sesuai ke dalam blok yang berbeda dari backbone. Selain itu, kerangka kerja AniPortrait memperkenalkan perbaikan tambahan dengan memasukkan tanda wajah dari gambar referensi sebagai input tambahan. Modul perhatian silang dari komponen PoseGuider memungkinkan interaksi antara tanda wajah target dari setiap bingkai dan tanda wajah referensi. Proses ini memberikan jaringan dengan petunjuk tambahan untuk memahami korelasi antara penampilan dan tanda wajah, sehingga membantu dalam menghasilkan animasi potret dengan gerakan yang lebih presisi.

AniPortrait: Implementasi dan Hasil

Untuk tahap Audio2Lmk, kerangka kerja AniPortrait menggunakan komponen wav2vec2.0 sebagai backbone, dan menggunakan arsitektur MediaPipe untuk mengekstrak mesh 3D dan pose 6D untuk anotasi. Model ini menggunakan data pelatihan untuk komponen Audio2Mesh dari dataset internal yang terdiri dari sekitar 60 menit data ucapan berkualitas tinggi dari satu pembicara. Untuk memastikan mesh 3D yang diekstrak oleh komponen MediaPipe stabil, pembicara diminta untuk menghadap kamera dan mempertahankan posisi kepala yang stabil selama proses perekaman. Untuk modul Lmk2Video, kerangka kerja AniPortrait mengimplementasikan pendekatan pelatihan dua tahap. Pada tahap pertama, kerangka kerja fokus pada melatih ReferenceNet dan PoseGuider, komponen 2D dari backbone, dan meninggalkan modul gerakan. Pada tahap kedua, kerangka kerja AniPortrait membekukan semua komponen lainnya dan fokus pada melatih modul gerakan. Untuk tahap ini, kerangka kerja menggunakan dua dataset video wajah berkualitas tinggi yang besar untuk melatih model, dan memproses semua data menggunakan komponen MediaPipe untuk mengekstrak tanda wajah 2D. Selain itu, untuk meningkatkan sensitivitas jaringan terhadap gerakan bibir, model AniPortrait membedakan bibir atas dan bawah dengan warna yang berbeda saat merender gambar pose dari tanda wajah 2D.

Seperti yang ditunjukkan pada gambar berikut, kerangka kerja AniPortrait menghasilkan serangkaian animasi yang menunjukkan kualitas yang superior serta realisme.

Kerangka kerja kemudian menggunakan representasi 3D intermediate yang dapat diedit untuk memanipulasi output sesuai dengan kebutuhan. Misalnya, pengguna dapat mengekstrak tanda wajah dari sumber tertentu dan mengubah ID-nya, sehingga memungkinkan kerangka kerja AniPortrait untuk menciptakan efek reenactment wajah.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang AniPortrait, sebuah kerangka kerja baru yang dirancang untuk menghasilkan animasi berkualitas tinggi yang didorong oleh gambar potret referensi dan sampel audio. Dengan hanya memasukkan gambar referensi dan klip audio, kerangka kerja AniPortrait dapat menghasilkan video potret yang menampilkan gerakan kepala yang alami dan gerakan bibir yang halus. Dengan memanfaatkan kemampuan generalisasi yang kuat dari model difusi, kerangka kerja AniPortrait menghasilkan animasi yang menampilkan kualitas gambar yang realistis dan gerakan yang hidup. Kerja dari kerangka kerja AniPortrait dibagi menjadi dua tahap. Pertama, kerangka kerja AniPortrait mengekstrak representasi 3D intermediate dari sampel audio, dan memproyeksikannya ke dalam urutan tanda wajah 2D. Setelah itu, kerangka kerja menggunakan model difusi yang kuat dengan modul gerakan untuk mengubah urutan tanda wajah menjadi animasi yang konsisten secara temporal dan fotorealistik. Hasil eksperimental menunjukkan superioritas dan kemampuan kerangka kerja AniPortrait untuk menghasilkan animasi berkualitas tinggi dengan kualitas visual yang luar biasa, keragaman pose, dan kealamiannya, sehingga menawarkan pengalaman perseptual yang ditingkatkan dan diperkaya. Selain itu, kerangka kerja AniPortrait memiliki potensi yang luar biasa dalam hal kontrol dan fleksibilitas, dan dapat diterapkan secara efektif di area termasuk reenactment wajah, editing gerakan wajah, dan banyak lagi.