Realitas tertambah
Pengembang TikTok Menghapus Wajah untuk Aplikasi Augmented Reality

ByteDance, perusahaan internet multinasional China di balik TikTok, telah mengembangkan metode baru untuk menghapus wajah dalam video sehingga distorsi identitas dan efek aneh lainnya dapat diterapkan pada orang dalam aplikasi augmented reality. Perusahaan mengklaim bahwa teknik ini telah diintegrasikan ke dalam produk seluler komersial, meskipun tidak menyebutkan produk mana. Setelah wajah dalam video ‘dikosongkan’, ada cukup ‘kanvas wajah’ untuk menghasilkan distorsi yang memukau, serta berpotensi menumpangkan identitas lain. Contoh yang disediakan dalam makalah baru dari peneliti ByteDance mengilustrasikan kemungkinannya, termasuk memulihkan fitur yang ‘terhapus’ dalam berbagai konfigurasi yang lucu (dan tentu saja beberapa yang aneh):

Beberapa kemungkinan untuk rekonfigurasi wajah yang termasuk dalam makalah ByteDance. Sumber: https://arxiv.org/pdf/2109.10760.pdf
Menjelang akhir Agustus, terungkap bahwa TikTok, aplikasi non-Facebook pertama yang mencapai tiga miliar instalasi, telah meluncurkan TikTok Effect Studio (saat ini dalam beta tertutup), sebuah platform bagi pengembang augmented reality (AR) untuk membuat efek AR untuk aliran konten TikTok. Pada dasarnya, perusahaan ini mengejar komunitas pengembang serupa di AR Studio Facebook dan Snap AR, dengan komunitas R&D AR Apple yang terkemuka juga akan segera digerakkan oleh perangkat keras baru dalam tahun depan.
Ekspresi Kosong
Makalah tersebut, berjudul FaceEraser: Removing Facial Parts for Augmented Reality, mencatat bahwa algoritma in-painting/infill yang ada, seperti SPADE NVIDIA, lebih berorientasi pada penyelesaian gambar yang terpotong atau sebagian tertutup daripada melakukan prosedur ‘pengosongan’ yang tidak biasa ini, dan bahwa materi dataset yang ada karenanya dapat diprediksi langka. Karena tidak ada dataset ground truth yang tersedia untuk orang yang memiliki hamparan daging yang solid di tempat wajah mereka seharusnya, para peneliti telah menciptakan arsitektur jaringan baru yang disebut pixel-clone, yang dapat ditumpangkan ke dalam model inpainting neural yang ada, dan yang menyelesaikan masalah terkait ketidakkonsistenan tekstur dan warna yang ditunjukkan (makalah ini membuktikan) oleh metode lama seperti StructureFlow dan EdgeConnect.

Alur kerja umum pixel-clone dalam pipeline baru.
Untuk melatih model pada wajah ‘kosong’, para peneliti mengecualikan gambar dengan kacamata, atau di mana rambut menutupi dahi, karena area antara garis rambut dan alis biasanya adalah kelompok piksel tunggal terbesar yang dapat menyediakan materi ‘tempelan’ untuk fitur utama wajah.

Mempersiapkan gambar pelatihan. Area dahi dipotong, berdasarkan titik kunci dalam pengenalan keselarasan wajah, dibalik secara vertikal dan dijahit.
Gambar 256×256 piksel diperoleh, ukuran yang cukup kecil untuk dimasukkan ke dalam ruang laten jaringan neural dalam batch yang cukup besar untuk mencapai generalisasi. Penskalaan algoritmik nantinya akan mengembalikan resolusi yang diperlukan untuk bekerja di ruang AR.
Arsitektur
Jaringan ini terdiri dari tiga jaringan dalam, meliputi Edge Completion, Pixel-Clone, dan jaringan penyempurnaan. Jaringan penyelesaian tepi menggunakan jenis arsitektur encoder-decoder yang sama yang digunakan dalam EdgeConnect (lihat di atas), serta dalam dua aplikasi deepfake paling populer. Encoder melakukan downsampling konten gambar dua kali, dan decoder mengembalikan dimensi gambar asli. Pixel-Clone menggunakan metodologi encoder-decoder yang dimodifikasi, sementara lapisan penyempurnaan menggunakan arsitektur U-Net, teknik yang awalnya dikembangkan untuk pencitraan biomedis, yang sering muncul dalam proyek penelitian sintesis gambar. Selama alur kerja pelatihan, perlu untuk mengevaluasi akurasi transformasi, dan, jika diperlukan, mengulangi upaya secara iteratif hingga konvergensi. Untuk tujuan ini, dua diskriminator berbasis PatchGAN digunakan, masing-masing mengevaluasi realisme lokal dari patch 70×70 piksel, mengabaikan nilai realisme dari keseluruhan gambar.
Pelatihan dan Data
Jaringan penyelesaian tepi awalnya dilatih secara independen, sementara dua jaringan lainnya dilatih bersama, berdasarkan bobot yang dihasilkan dari pelatihan penyelesaian tepi, yang ditetapkan dan dibekukan selama prosedur ini. Meskipun makalah tidak secara eksplisit menyatakan bahwa contoh distorsi fitur akhirnya adalah tujuan utama model, makalah ini menerapkan berbagai efek komik untuk menguji ketahanan sistem, termasuk penghapusan alis, mulut yang membesar, sub-wajah yang menyusut dan efek ‘toonized’ (seperti yang ditunjukkan pada gambar sebelumnya, di atas). Makalah tersebut menyatakan bahwa ‘wajah yang terhapus memungkinkan berbagai aplikasi augmented-reality yang memerlukan penempatan elemen yang disesuaikan pengguna’, menunjukkan kemungkinan menyesuaikan wajah dengan elemen pihak ketiga yang disumbangkan pengguna. Model ini dilatih pada masker dari dataset FFHQ yang dibuat NVIDIA, yang berisi beragam usia, etnis, pencahayaan dan pose serta gaya wajah yang memadai untuk mencapai generalisasi yang berguna. Dataset ini berisi 35.000 gambar dan 10.000 masker pelatihan untuk menggambarkan area transformasi, dengan 4000 gambar dan 1000 masker disisihkan untuk tujuan validasi.

Sampel data pelatihan.
Model yang terlatih dapat melakukan inferensi pada data dari CelebA-HQ 2017 dan VoxCeleb, wajah yang belum dilihat dari FFHQ, dan wajah lain yang tidak dibatasi dan belum dilihat yang disajikan padanya. Gambar 256×256 dilatih pada jaringan dalam batch 8 melalui pengoptimal Adam, diimplementasikan dalam PyTorch, dan berjalan pada GPU Tesla V100 untuk ‘2000,000 epoch’.

Hasil inferensi yang diperoleh pada wajah asli.
Seperti yang umum dalam penelitian sintesis gambar berbasis wajah, sistem ini harus menghadapi kegagalan sesekali yang dipicu oleh hambatan atau oklusi seperti rambut, periferal, kacamata, dan rambut wajah.












