Terhubung dengan kami

Kecerdasan Buatan

Merestrukturisasi Wajah dalam Video Dengan Machine Learning

mm

Kolaborasi penelitian antara China dan Inggris telah menemukan metode baru untuk membentuk ulang wajah dalam video. Teknik ini memungkinkan pelebaran dan penyempitan struktur wajah yang meyakinkan, dengan konsistensi tinggi dan tidak adanya artefak.

Dari video YouTube yang dijadikan bahan sumber oleh para peneliti, aktris Jennifer Lawrence tampil sebagai sosok yang lebih vulgar (kanan). Lihat video terlampir yang disematkan di bagian bawah artikel untuk lebih banyak contoh dengan resolusi yang lebih baik. Sumber: https://www.youtube.com/watch?v=tA2BxvrKvjE

Dari video YouTube yang dijadikan bahan sumber oleh para peneliti, aktris Jennifer Lawrence tampil dengan kepribadian yang lebih kurus (kanan). Lihat video terlampir yang disematkan di bagian bawah artikel untuk lebih banyak contoh dengan resolusi yang lebih baik. Sumber: https://www.youtube.com/watch?v=tA2BxvrKvjE

Transformasi semacam ini biasanya hanya mungkin dilakukan melalui metode CGI tradisional yang perlu membuat ulang wajah sepenuhnya melalui prosedur motion-capping, rigging, dan texturing yang detail dan mahal.

Sebaliknya, CGI yang ada dalam teknik ini diintegrasikan ke dalam saluran saraf sebagai informasi wajah 3D parametrik yang kemudian digunakan sebagai dasar alur kerja pembelajaran mesin.

Wajah parametrik tradisional semakin banyak digunakan sebagai pedoman untuk proses transformatif yang menggunakan AI, bukan CGI. Sumber: https://arxiv.org/pdf/2205.02538.pdf

Wajah parametrik tradisional semakin banyak digunakan sebagai pedoman untuk proses transformatif yang menggunakan AI, bukan CGI. Sumber: https://arxiv.org/pdf/2205.02538.pdf

Para penulis menyatakan:

'Tujuan kami adalah menghasilkan [hasil] pembentukan ulang video potret berkualitas tinggi dengan mengedit keseluruhan bentuk wajah potret menurut deformasi wajah alami di dunia nyata. Ini dapat digunakan untuk aplikasi seperti pembentukan wajah yang indah untuk beatifikasi, dan wajah yang dibesar-besarkan untuk efek visual.'

Meskipun 2D face-warping dan distorsi telah tersedia untuk konsumen sejak munculnya Photoshop (dan telah menyebabkan hasil yang aneh dan seringkali tidak dapat diterima). sub-budaya sekitar distorsi wajah dan dysmorphia tubuh), itu adalah trik yang sulit untuk melakukan video tanpa menggunakan CGI.

Dimensi Mark Zuckerberg diperluas dan dipersempit dengan teknik Cina/Inggris.

Dimensi wajah Mark Zuckerberg diperluas dan dipersempit dengan teknik baru Cina/Inggris.

Pembentukan kembali tubuh saat ini merupakan bidang minat yang intens di sektor visi komputer, terutama karena potensinya dalam e-niaga fesyen, meskipun membuat seseorang tampak lebih tinggi atau memiliki tubuh yang berbeda saat ini merupakan hal yang sulit. tantangan penting.

Demikian pula, mengubah bentuk kepala dalam rekaman video secara konsisten dan meyakinkan telah menjadi pokok bahasan pekerjaan sebelumnya dari peneliti makalah baru, meskipun penerapannya mengalami artefak dan keterbatasan lainnya. Penawaran baru ini memperluas kemampuan penelitian sebelumnya dari keluaran statis ke keluaran video.

Sistem baru ini dilatih pada PC desktop dengan AMD Ryzen 9 3950X dengan memori 32GB, dan menggunakan algoritme aliran optik dari OpenCV untuk peta gerak, dihaluskan oleh StrukturAlur kerangka; Jaringan Penyelarasan Wajah (FAN) komponen untuk estimasi landmark, yang juga digunakan dalam paket deepfakes yang populer; dan itu Pemecah Ceres untuk menyelesaikan tantangan optimisasi.

Contoh ekstrem pelebaran wajah dengan sistem baru.

Contoh ekstrem pelebaran wajah dengan sistem baru.

kertas berjudul Pembentukan Parametrik Potret dalam Video, dan berasal dari tiga peneliti di Universitas Zhejiang, dan satu dari Universitas Bath.

Tentang Wajah

Di bawah sistem baru, video diekstraksi menjadi urutan gambar, dan pose kaku diperkirakan pertama kali untuk setiap wajah. Kemudian sejumlah perwakilan dari bingkai berikutnya diperkirakan bersama untuk membangun parameter identitas yang konsisten di sepanjang rangkaian gambar (yaitu bingkai video).

Aliran arsitektur dari sistem warping wajah.

Aliran arsitektur dari sistem warping wajah.

Setelah ini, ekspresi dievaluasi, menghasilkan parameter pembentukan ulang yang diterapkan dengan regresi linier. Selanjutnya fungsi jarak bertanda baru (SDF) pendekatan membangun pemetaan 2D padat dari kelurusan wajah sebelum dan sesudah membentuk kembali.

Terakhir, pengoptimalan pelengkungan sadar konten dilakukan pada video keluaran.

Wajah Parametrik

Prosesnya semakin memanfaatkan 3D Morphable Face Model (3DMM). tambahan populert ke sistem sintesis wajah berbasis saraf dan GAN, serta makhluk berlaku untuk sistem deteksi deepfake.

Bukan dari kertas, tapi contoh 3D Morphable face Model (3DMM) – wajah prototipe parametrik yang digunakan dalam proyek baru. Kiri atas, aplikasi penanda pada permukaan 3DMM. Kanan atas, simpul mesh 3D dari isomap. Kiri bawah menunjukkan pemasangan landmark; bawah-tengah, isomap dari tekstur wajah yang diekstrak; dan kanan bawah, fitting dan bentuk yang dihasilkan. Sumber: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Bukan dari kertas baru, tapi contoh 3D Morphable face Model (3DMM) – wajah prototipe parametrik yang digunakan dalam proyek baru. Kiri atas, aplikasi penanda pada permukaan 3DMM. Kanan atas, simpul mesh 3D dari isomap. Kiri bawah menunjukkan pemasangan landmark; bawah-tengah, isomap dari tekstur wajah yang diekstrak; dan kanan bawah, fitting dan bentuk yang dihasilkan. Sumber: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Alur kerja sistem baru harus mempertimbangkan kasus oklusi, seperti saat subjek mengalihkan pandangan. Ini adalah salah satu tantangan terbesar dalam perangkat lunak deepfake, karena penanda FAN memiliki sedikit kapasitas untuk menjelaskan kasus ini, dan cenderung menurunkan kualitas saat wajah menghindari atau tersumbat.

Sistem baru mampu menghindari jebakan ini dengan mendefinisikan a energi kontur yang mampu mencocokkan batas antara wajah 3D (3DMM) dan wajah 2D (seperti yang ditentukan oleh landmark FAN).

Optimization

Penyebaran yang berguna untuk sistem seperti itu adalah menerapkan deformasi waktu nyata, misalnya dalam filter obrolan video. Kerangka saat ini tidak memungkinkan ini, dan sumber daya komputasi yang diperlukan akan membuat deformasi 'hidup' menjadi tantangan penting.

Menurut makalah tersebut, dan dengan asumsi target video 24fps, operasi per-frame dalam pipa menunjukkan latensi 16.344 detik untuk setiap detik rekaman, dengan tambahan klik satu kali untuk estimasi identitas dan deformasi wajah 3D (masing-masing 321ms dan 160ms) .

Oleh karena itu pengoptimalan adalah kunci untuk membuat kemajuan dalam menurunkan latensi. Karena pengoptimalan bersama di semua bingkai akan menambah beban berat pada proses, dan pengoptimalan gaya init (menganggap identitas pembicara berikutnya yang konsisten dari bingkai pertama) dapat menyebabkan anomali, penulis telah mengadopsi skema jarang untuk menghitung koefisien frame sampel pada interval praktis.

Pengoptimalan sambungan kemudian dilakukan pada subset kerangka ini, yang mengarah ke proses rekonstruksi yang lebih ramping.

Bengkok Wajah

Teknik warping yang digunakan dalam proyek ini merupakan adaptasi dari karya penulis tahun 2020 Potret Indah yang Mendalam (DSP).

Deep Shapely Portraits, pengajuan tahun 2020 ke ACM Multimedia. Makalah ini dipimpin oleh para peneliti dari ZJU-Tencent Game dan Intelligent Graphics Innovation Technology Joint Lab. Sumber: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Deep Shapely Portraits, pengajuan tahun 2020 ke ACM Multimedia. Makalah ini dipimpin oleh para peneliti dari ZJU-Tencent Game dan Intelligent Graphics Innovation Technology Joint Lab. Sumber: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Para penulis mengamati 'Kami memperluas metode ini dari membentuk kembali satu gambar bermata menjadi membentuk kembali seluruh rangkaian gambar.'

Tes

Makalah ini mengamati bahwa tidak ada materi sebelumnya yang sebanding untuk mengevaluasi metode baru. Oleh karena itu, penulis membandingkan bingkai keluaran video melengkung mereka dengan keluaran DSP statis.

Menguji sistem baru terhadap gambar statis dari Deep Shapely Portraits.

Menguji sistem baru terhadap gambar statis dari Deep Shapely Portraits.

Para penulis mencatat bahwa artefak dihasilkan dari metode DSP, karena penggunaan pemetaan jarang – masalah yang dipecahkan oleh kerangka kerja baru dengan pemetaan padat. Selain itu, video yang diproduksi oleh DSP, kertas berpendapat, menunjukkan kurangnya kehalusan dan koherensi visual.

Para penulis menyatakan:

'Hasilnya menunjukkan bahwa pendekatan kami dapat dengan kuat menghasilkan video potret yang dibentuk ulang secara koheren sementara metode berbasis gambar dapat dengan mudah menghasilkan artefak yang berkedip-kedip.'

Lihat video yang menyertai di bawah ini, untuk lebih banyak contoh:

Pembentukan Parametrik Potret dalam Video - ACM MM 2021

 

Pertama kali diterbitkan 9 Mei 2022. Diubah pada pukul 6 sore EET, menggantikan 'bidang' dengan 'fungsi' untuk SDF.

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai