Sudut Pandang Anderson
Menambahkan Dialog ke Video Asli dengan AI

Kerangka kerja AI baru dapat menulis ulang, menghapus, atau menambahkan kata-kata seseorang dalam video tanpa perlu pengambilan gambar ulang, dalam satu sistem ujung-ke-ujung.
Tiga tahun lalu, internet akan dibuat takjub oleh salah satu dari 20-30 kerangka kerja AI pengubah video yang dipublikasikan di portal akademik setiap minggu; namun, penelitian populer ini sekarang telah menjadi sangat produktif sehingga hampir menjadi cabang lain dari 'AI Slop', dan saya meliput jauh lebih sedikit rilis semacam itu daripada dua atau tiga tahun yang lalu.
Namun, satu rilis terbaru dalam lini ini menarik perhatian saya: sebuah sistem terintegrasi yang dapat melakukan intervensi pada klip video nyata dan menyisipkan ucapan baru ke dalam video yang sudah ada (alih-alih membuat seluruh klip generatif dari wajah atau bingkai, yang jauh lebih umum).
Pada contoh-contoh di bawah ini, yang saya edit dari berbagai video sampel yang tersedia pada saat perilisan. situs web proyekPertama, kita melihat klip sumber aslinya, dan kemudian, di bawahnya, ucapan AI yang ditambahkan di tengah klip, termasuk sintesis suara dan sinkronisasi bibir:
Klik untuk main. Pengeditan lokal dengan penyambungan – salah satu dari beberapa modalitas yang ditawarkan oleh FacEDiT. Silakan merujuk ke situs web sumber untuk resolusi yang lebih baik. Sumber – https://facedit.github.io/
Pendekatan ini adalah salah satu dari tiga pendekatan yang dikembangkan untuk metode baru, yang berjudul 'pengeditan lokal dengan penyambungan', dan yang paling menarik bagi para penulis (serta saya sendiri). Pada dasarnya, klip diperpanjang dengan menggunakan salah satu bingkai tengah sebagai titik awal untuk interpretasi AI baru, dan bingkai berikutnya (nyata) sebagai tujuan yang harus dicocokkan oleh klip yang disisipkan secara generatif. Dalam klip yang terlihat di atas, bingkai 'benih' dan 'target' ini diwakili oleh video paling atas yang berhenti sementara video yang telah diubah di bawahnya memberikan pengisian generatif.
Para penulis menggambarkan pendekatan sintesis wajah dan vokal ini sebagai metode ujung-ke-ujung terintegrasi penuh pertama untuk pengeditan video AI jenis ini, mengamati potensi kerangka kerja yang sepenuhnya dikembangkan seperti ini untuk produksi TV dan film:
'Para pembuat film dan produser media seringkali perlu merevisi bagian-bagian tertentu dari video yang direkam – mungkin ada kata yang salah diucapkan atau naskah yang diubah setelah pengambilan gambar. Misalnya, dalam adegan ikonik dari Raksasa (1997) di mana Rose berkata, “Aku tak akan pernah melepaskanmu, Jack,” sutradara mungkin kemudian memutuskan bahwa itu seharusnya “Aku tak akan pernah melupakanmu, Jack”.
'Secara tradisional, perubahan seperti itu memerlukan pengambilan gambar ulang seluruh adegan, yang mahal dan memakan waktu. Sintesis wajah bicara menawarkan alternatif praktis dengan secara otomatis memodifikasi gerakan wajah agar sesuai dengan ucapan yang telah direvisi, sehingga menghilangkan kebutuhan untuk pengambilan gambar ulang.'
Meskipun intervensi AI semacam ini mungkin menghadapi kultural atau resistensi industri, hal itu juga dapat menjadi jenis fungsi baru dalam sistem dan perangkat lunak VFX yang dipimpin manusia. Bagaimanapun, untuk saat ini, tantangannya murni bersifat teknis.
Selain memperpanjang klip melalui dialog tambahan yang dihasilkan AI, sistem baru ini juga dapat mengubah ucapan yang sudah ada:
Klik untuk main. Contoh mengubah dialog yang sudah ada daripada menyisipkan dialog tambahan. Silakan lihat situs web sumber untuk resolusi yang lebih baik.
Negara Bagian Seni
Saat ini belum ada sistem ujung-ke-ujung yang menawarkan kemampuan sintesis semacam ini; meskipun semakin banyak platform AI generatif seperti milik Google yang menawarkannya. Seri Veo, dapat menghasilkan audio, dan beragam kerangka kerja lainnya dapat membuat audio deepfakeSaat ini, seseorang harus membuat alur kerja yang cukup rumit dengan beragam arsitektur dan trik untuk dapat mencampuri rekaman asli dengan cara sistem baru ini – yang diberi judul... FaceEDiT – dapat dicapai.
Sistem menggunakan Transformator Difusi (DiT) dalam kombinasi dengan Pencocokan Aliran untuk menciptakan gerakan wajah yang dikondisikan pada gerakan di sekitarnya (kontekstual) dan konten audio ucapan. Sistem ini memanfaatkan paket populer yang sudah ada yang menangani rekonstruksi wajah, termasuk Potret Langsung (baru-baru ini diambil alih oleh Kling).
Selain metode ini, mengingat pendekatan mereka adalah yang pertama mengintegrasikan tantangan-tantangan ini ke dalam satu solusi tunggal, para penulis telah menciptakan tolok ukur baru yang disebut FacEDiTBench, beserta beberapa metrik evaluasi baru yang sesuai dengan tugas spesifik ini.
The pekerjaan Baru berjudul FaceEDiT: Pengeditan dan Pembuatan Wajah Berbicara Terpadu melalui Pengisian Gerakan Wajahdan berasal dari empat peneliti dari Universitas Sains dan Teknologi Pohang (POSTECH) Korea, Institut Sains & Teknologi Lanjutan Korea (KAIST), dan Universitas Texas di Austin.
metode
FacEDiT dilatih untuk merekonstruksi gerakan wajah dengan mempelajari cara mengisi bagian yang hilang dari penampilan asli seorang aktor, berdasarkan gerakan di sekitarnya dan audio ucapan. Seperti yang ditunjukkan pada skema di bawah ini, proses ini memungkinkan model untuk bertindak sebagai pengisi celah selama pelatihan, memprediksi gerakan wajah yang sesuai dengan suara sambil tetap konsisten dengan video aslinya:

Gambaran umum sistem FacEDiT, yang menunjukkan bagaimana gerakan wajah dipelajari melalui pengisian mandiri (self-supervised infilling) selama pelatihan, dipandu oleh ucapan yang diedit pada tahap inferensi, dan akhirnya dirender kembali ke dalam video dengan menggunakan kembali tampilan rekaman asli, sambil hanya mengganti gerakan yang ditargetkan. sumber
Pada tahap inferensi, arsitektur yang sama mendukung dua keluaran berbeda tergantung pada seberapa banyak bagian video yang ditutupi: pengeditan parsial, di mana hanya sebuah frasa yang diubah dan sisanya dibiarkan tidak tersentuh; atau pembuatan kalimat lengkap, di mana gerakan baru disintesis sepenuhnya dari awal.
Model tersebut dilatih melalui pencocokan aliranyang memperlakukan pengeditan video sebagai semacam jalur antara dua versi gerakan wajah.
Alih-alih belajar menebak seperti apa seharusnya tampilan wajah yang diedit dari awal, pencocokan aliran (flow matching) belajar untuk bergerak secara bertahap dan mulus antara placeholder yang bising dan gerakan yang benar. Untuk memfasilitasi hal ini, sistem merepresentasikan gerakan wajah sebagai kumpulan angka ringkas yang diekstrak dari setiap frame menggunakan versi sistem LivePortrait yang disebutkan sebelumnya (lihat skema di atas).
Vektor gerak ini dirancang untuk menggambarkan ekspresi dan posisi kepala tanpa menjerat identitas, sehingga perubahan ucapan dapat dilokalisasi tanpa memengaruhi penampilan keseluruhan orang tersebut.
Pelatihan FaceEDiT
Untuk melatih FacEDiT, setiap klip video dipecah menjadi serangkaian cuplikan gerakan wajah, dan setiap bingkai dipasangkan dengan potongan audio yang sesuai. Bagian acak dari data gerakan kemudian disembunyikan, dan model diminta untuk menebak seperti apa gerakan yang hilang tersebut, menggunakan ucapan dan gerakan di sekitarnya yang tidak ditutupi sebagai konteks.
Karena rentang yang ditutupi dan posisinya bervariasi dari satu contoh pelatihan ke contoh pelatihan berikutnya, model secara bertahap mempelajari cara menangani baik pengeditan internal kecil maupun celah yang lebih panjang, untuk menghasilkan urutan lengkap, sesuai dengan seberapa banyak informasi yang diberikan kepadanya.
Transformer Difusi yang disebutkan di atas dalam sistem tersebut belajar untuk memulihkan gerakan yang tersembunyi dengan memperbaiki input yang bising dari waktu ke waktu. Alih-alih memasukkan ucapan dan gerakan ke dalam model sekaligus, audio disalurkan ke setiap blok pemrosesan secara bertahap. perhatian silang, membantu sistem mencocokkan gerakan bibir dengan ucapan audio secara lebih tepat.
Untuk menjaga realisme di seluruh pengeditan, perhatian lebih terfokus pada frame yang berdekatan daripada seluruh garis waktu, memaksa model untuk fokus pada kontinuitas lokal, dan mencegah kedipan atau lompatan gerakan di tepi wilayah yang diubah. Penyematan posisi (yang memberi tahu model di mana setiap frame muncul dalam urutan) lebih lanjut membantu model untuk mempertahankan aliran temporal dan konteks yang alami.
Selama pelatihan, sistem belajar memprediksi gerakan wajah yang hilang dengan merekonstruksi rentang yang ditutupi berdasarkan ucapan dan gerakan yang tidak ditutupi di dekatnya. Pada saat inferensi, pengaturan yang sama digunakan kembali, tetapi dengan masker yang sekarang dipandu oleh pengeditan dalam ucapan.
Ketika sebuah kata atau frasa disisipkan, dihapus, atau diubah, sistem akan menemukan wilayah yang terpengaruh, menutupinya, dan menghasilkan kembali gerakan yang sesuai dengan audio baru. Pembuatan urutan lengkap diperlakukan sebagai kasus khusus, di mana seluruh wilayah ditutupi dan disintesis dari awal.
Data dan Tes
Kerangka sistem ini terdiri dari 22 lapisan untuk Transformator Difusi, masing-masing dengan 16 kepala perhatian dan dimensi feedforward 1024 dan 2024px. Fitur gerakan dan penampilan diekstrak menggunakan beku Komponen LivePortrait, dan ucapan yang dikodekan melalui WavLM dan dimodifikasi menggunakan SuaraKerajinan.
Lapisan proyeksi khusus memetakan fitur ucapan 786 dimensi ke ruang laten DiT, dengan hanya modul DiT dan proyeksi yang dilatih dari awal.
Pelatihan dilakukan di bawah AdamW Pengoptimal pada laju pembelajaran target 1e-4, selama satu juta langkah, pada dua GPU A6000 (masing-masing dengan VRAM 48GB), dengan total ukuran batch dari delapan.
FacEDiTBench
Dataset FacEDiTBench berisi 250 contoh, masing-masing dengan klip video pidato asli dan yang telah diedit, serta transkrip untuk keduanya. Video-video tersebut berasal dari tiga sumber, dengan 100 klip dari HDTF, 100 dari Hallo3, dan 50 dari CelebV-DubMasing-masing diperiksa secara manual untuk memastikan bahwa audio dan video cukup jelas untuk dievaluasi.
GPT‑4o Digunakan untuk merevisi setiap transkrip guna menghasilkan suntingan yang valid secara tata bahasa. Transkrip yang telah direvisi ini, bersama dengan ucapan asli, diteruskan ke VoiceCraft untuk menghasilkan audio baru; dan pada setiap tahap, baik transkrip maupun ucapan yang dihasilkan ditinjau secara manual untuk memastikan kualitasnya.
Setiap sampel diberi label dengan jenis pengeditan, waktu perubahan, dan panjang rentang yang dimodifikasi, dan pengeditan diklasifikasikan sebagai sisipan, penghapusan, atau substitusiJumlah kata yang diubah berkisar dari suntingan pendek 1 hingga 3 kata, suntingan sedang 4 hingga 6 kata, dan suntingan lebih panjang 7 hingga 10 kata.
Tiga metrik khusus ditetapkan untuk mengevaluasi kualitas penyuntingan. Kontinuitas fotometrik, untuk mengukur seberapa baik pencahayaan dan warna segmen yang diedit menyatu dengan video di sekitarnya, dengan membandingkan perbedaan tingkat piksel di batas-batasnya; kontinuitas gerak, untuk menilai konsistensi gerakan wajah, dengan mengukur perubahan aliran optik di seluruh bingkai yang diedit dan yang tidak diedit; dan pelestarian identitas, untuk memperkirakan apakah penampilan subjek tetap konsisten setelah pengeditan, dengan membandingkan embedding wajah dari urutan asli dan yang dihasilkan menggunakan Wajah Busur model pengenalan wajah.
Tes
Model pengujian dilatih menggunakan materi dari tiga dataset yang disebutkan di atas, dengan total sekitar 200 jam konten video, termasuk vlog dan film, serta video YouTube beresolusi tinggi.
Untuk mengevaluasi pengeditan wajah berbicara, FacEDiTBench digunakan, di samping pembagian pengujian HDTF, yang telah menjadi standar tolok ukur untuk rangkaian tugas ini.
Karena tidak ada sistem yang secara langsung dapat dibandingkan dan mampu merangkum fungsionalitas ujung-ke-ujung semacam ini, para penulis memilih berbagai kerangka kerja yang mereproduksi setidaknya sebagian dari fungsionalitas target, dan dapat beroperasi sebagai acuan; yaitu, Tampilan Tombol; EchoMimic; EchoMimicV2; Halo; Hallo2; Hallo3; V-Express; Potret Ani; Dan SadTalker.
Beberapa metrik yang sudah mapan juga digunakan untuk menilai kualitas pembuatan dan pengeditan, dengan akurasi sinkronisasi bibir dievaluasi melalui SyncNet, melaporkan baik kesalahan absolut antara gerakan bibir dan audio (LSE-D) maupun skor kepercayaan (LSE-C); Jarak Video Fréchet (FVD) mengukur seberapa realistis tampilan video secara keseluruhan; dan Metrik Kesamaan Persepsi yang Dipelajari (LPIPS), mengukur kesamaan persepsi antara frame yang dihasilkan dan frame asli.
Untuk pengeditan, semua metrik kecuali LPIPS hanya diterapkan pada segmen yang dimodifikasi; untuk pembuatan, seluruh video dievaluasi, dengan kontinuitas batas dikecualikan.
Setiap model dibuat untuk mensintesis segmen video yang sesuai, yang kemudian disambungkan ke klip asli (para peneliti mencatat bahwa metode ini sering kali menimbulkan diskontinuitas yang terlihat, di mana bagian yang diedit bertemu dengan rekaman di sekitarnya). Pendekatan kedua juga diuji, di mana seluruh video diregenerasi dari audio yang dimodifikasi – tetapi ini pasti menimpa wilayah yang tidak diedit, dan gagal mempertahankan performa asli:

Perbandingan kinerja pengeditan di berbagai sistem yang awalnya dirancang untuk menghasilkan wajah berbicara, dengan FacEDiT mengungguli semua sistem dasar di setiap metrik, mencapai kesalahan sinkronisasi bibir yang lebih rendah (LSE-D), kepercayaan sinkronisasi yang lebih tinggi (LSE-C), pelestarian identitas yang lebih kuat (IDSIM), realisme perseptual yang lebih besar (FVD), dan transisi yang lebih halus di seluruh batas pengeditan (Pcontinuity, Mcontinuity). Kolom yang diarsir abu-abu menyoroti kriteria utama untuk menilai kualitas batas; nilai yang dicetak tebal dan digarisbawahi menunjukkan hasil terbaik dan terbaik kedua, masing-masing.
Mengenai hasil ini, para penulis memberikan komentar:
'Model kami secara signifikan mengungguli metode yang ada dalam tugas pengeditan. Model ini mencapai kontinuitas batas yang kuat dan pelestarian identitas yang tinggi, menunjukkan kemampuannya untuk mempertahankan konsistensi temporal dan visual selama pengeditan. Selain itu, akurasi sinkronisasi bibir yang unggul dan FVD yang rendah mencerminkan realisme video yang disintesis.'
Klik untuk main. Hasil yang dikumpulkan oleh penulis ini dari video yang dipublikasikan di situs proyek pendukung. Silakan merujuk ke situs web sumber untuk resolusi yang lebih baik.
Selanjutnya, sebuah studi pada manusia dilakukan untuk mengevaluasi kualitas yang dirasakan baik dalam hal penyuntingan maupun pembuatan konten.
Untuk setiap perbandingan, peserta menonton enam video dan memberi peringkat berdasarkan kualitas keseluruhan, dengan mempertimbangkan akurasi sinkronisasi bibir, naturalitas, dan realisme gerakan kepala. Dalam uji coba pengeditan, peserta juga menilai kelancaran transisi antara segmen yang diedit dan yang belum diedit:

Peringkat rata-rata yang diberikan oleh evaluator manusia, di mana nilai yang lebih rendah berarti lebih baik. Baik dalam pengeditan maupun pembuatan, peserta menilai seberapa alami dan sinkron tampilan setiap video. Untuk pengeditan, mereka juga menilai seberapa lancar transisi antara ucapan yang diedit dan yang belum diedit. Angka yang dicetak tebal dan digarisbawahi menunjukkan dua skor tertinggi.
Dalam studi tersebut, FacEDiT secara konsisten menempati peringkat tertinggi dengan selisih yang jelas, baik untuk kualitas pengeditan maupun kelancaran transisi, serta menerima skor tinggi dalam pengaturan pembuatan konten, yang menunjukkan bahwa keunggulan yang terukur tersebut menghasilkan output yang lebih disukai secara perseptual.
Karena keterbatasan ruang, kami merujuk pembaca ke makalah sumber untuk detail lebih lanjut tentang studi ablasi, dan tes tambahan yang dilakukan dan dilaporkan dalam karya baru ini. Sebenarnya, tawaran penelitian prototipe semacam ini kesulitan untuk menghasilkan bagian hasil tes yang bermakna, karena tawaran inti itu sendiri pasti merupakan dasar potensial untuk pekerjaan selanjutnya.
Kesimpulan
Bahkan untuk inferensi, sistem seperti ini mungkin memerlukan sumber daya komputasi yang signifikan pada saat inferensi, sehingga menyulitkan pengguna hilir – di sini, mungkin, studio VFX – untuk menyimpan pekerjaan di tempat mereka sendiri. Oleh karena itu, pendekatan yang dapat diadaptasi ke sumber daya lokal yang realistis akan selalu lebih disukai oleh penyedia, yang memiliki kewajiban hukum untuk melindungi rekaman klien dan kekayaan intelektual secara umum.
Hal ini bukan untuk mengkritik penawaran baru tersebut, yang mungkin saja beroperasi dengan sempurna di bawah bobot terkuantisasi atau optimasi lainnya, dan yang merupakan penawaran pertama dari jenisnya yang menarik saya kembali ke jalur penelitian ini setelah sekian lama.
Pertama kali diterbitkan pada hari Rabu, 17 Desember 202. Diedit pukul 20.10 EET, pada hari yang sama, untuk menambahkan spasi ekstra pada paragraf pertama.












