Terhubung dengan kami

Kecerdasan Buatan

SofGAN: Generator Wajah GAN yang Menawarkan Kontrol Lebih Besar

mm

Para peneliti di Shanghai dan AS telah mengembangkan sistem pembuatan potret berbasis GAN yang memungkinkan pengguna membuat wajah baru dengan tingkat kontrol yang sampai saat ini belum tersedia atas aspek individu seperti rambut, mata, kacamata, tekstur, dan warna.

Untuk mendemonstrasikan keserbagunaan sistem, pencipta telah menyediakan antarmuka bergaya Photoshop di mana pengguna dapat langsung menggambar elemen segmentasi semantik yang akan ditafsirkan ulang menjadi citra realistis, dan bahkan dapat diperoleh dengan menggambar langsung di atas foto yang ada.

Pada contoh di bawah ini, gambar aktor Daniel Radcliffe digunakan sebagai template penelusuran (dan tujuannya bukan untuk menghasilkan kemiripan dengannya, melainkan gambar fotorealistik secara umum). Saat pengguna mengisi berbagai elemen, termasuk faset diskrit seperti kacamata, elemen tersebut diidentifikasi dan diinterpretasikan dalam gambar gambar keluaran:

Menggunakan satu gambar sebagai bahan kalkir untuk potret yang dihasilkan SofGAN. Sumber: https://www.youtube.com/watch?v=xig8ZA3DVZ8

Menggunakan satu gambar sebagai bahan kalkir untuk potret yang dihasilkan SofGAN. Sumber: https://www.youtube.com/watch?v=xig8ZA3DVZ8

kertas berhak SofGAN: Pembuat Gambar Potret dengan Gaya Dinamis, dan dipimpin oleh Anpei Chen dan Ruiyang Liu, bersama dua peneliti lain dari ShanghaiTech University dan satu lagi dari University of California di San Diego.

Fitur Pemisah

Kontribusi utama dari pekerjaan ini tidak begitu banyak dalam menyediakan UX yang ramah pengguna, melainkan dalam 'menguraikan' karakteristik fitur wajah yang dipelajari, seperti pose dan tekstur, yang memungkinkan SofGAN juga menghasilkan wajah yang berada pada sudut tidak langsung ke sudut pandang kamera.

Tidak biasa di antara generator wajah berdasarkan Generative Adversarial Networks, SofGAN dapat mengubah sudut pandang sesuka hati, dalam batas susunan sudut yang ada dalam data pelatihan. Sumber: https://arxiv.org/pdf/2007.03780.pdf

Tidak biasa di antara generator wajah berdasarkan Generative Adversarial Networks, SofGAN dapat mengubah sudut pandang sesuka hati, dalam batas susunan sudut yang ada dalam data pelatihan. Sumber: https://arxiv.org/pdf/2007.03780.pdf

Karena tekstur kini dipisahkan dari geometri, bentuk wajah dan tekstur juga dapat dimanipulasi sebagai entitas yang terpisah. Akibatnya, ini memungkinkan perubahan ras dari wajah sumber, a praktik skandal yang sekarang memiliki aplikasi yang berpotensi berguna, untuk penciptaan kumpulan data pembelajaran mesin dengan ras yang seimbang.

SofGAN juga mendukung penuaan buatan dan penyesuaian gaya atribut-konsisten pada tingkat granular yang tidak terlihat dalam segmentasi serupa> sistem gambar seperti NVIDIA GauGAN dan rendering saraf berbasis game Intel sistem.

SofGAN mampu menerapkan penuaan sebagai gaya berulang.

SofGAN mampu menerapkan penuaan sebagai gaya berulang.

Terobosan lain untuk metodologi SofGAN adalah bahwa pelatihan tidak memerlukan segmentasi berpasangan/gambar nyata, melainkan dapat langsung dilatih pada gambar dunia nyata yang tidak berpasangan.

Para peneliti menyatakan bahwa arsitektur 'penguraian' SofGAN terinspirasi oleh sistem rendering gambar tradisional, yang menguraikan aspek individu dari suatu gambar. Dalam alur kerja efek visual, elemen untuk komposit secara rutin dipecah menjadi komponen yang paling kecil, dengan spesialis yang didedikasikan untuk setiap komponen.

Bidang Hunian Semantik (SOF)

Untuk mencapai ini dalam kerangka sintesis gambar pembelajaran mesin, para peneliti mengembangkan a bidang hunian semantik (SOF), perpanjangan dari bidang hunian tradisional yang membedakan elemen komponen potret wajah. SOF dilatih pada peta segmentasi semantik multi-tampilan yang dikalibrasi, tetapi tanpa pengawasan kebenaran dasar.

Beberapa iterasi dari peta segmentasi tunggal (kiri bawah).

Beberapa iterasi dari peta segmentasi tunggal (kiri bawah).

Selain itu, peta segmentasi 2D diperoleh dengan ray-tracing keluaran SOF, sebelum diberi tekstur oleh generator GAN. Peta segmentasi semantik 'sintetik' juga dikodekan dalam ruang berdimensi rendah melalui encoder tiga lapis untuk memastikan kontinuitas keluaran saat sudut pandang diubah.

Skema pelatihan secara spasial menggabungkan dua gaya acak untuk setiap wilayah semantik:

Arsitektur untuk SofGAN.

Arsitektur untuk SofGAN.

Para peneliti mengklaim bahwa SofGAN mencapai Jarak Awal Frechet yang lebih rendah (FID) daripada pendekatan state of the art (SOTA) alternatif saat ini, serta Kesamaan Patch Gambar Persepsi yang Dipelajari (LPIP) metrik.

Pendekatan StyleGAN sebelumnya sering terhalang oleh keterikatan fitur, di mana elemen yang menyusun gambar terikat satu sama lain, menyebabkan elemen yang tidak diinginkan muncul di samping elemen yang diinginkan (misalnya, anting-anting mungkin muncul saat bentuk telinga dirender). diinformasikan pada waktu pelatihan dengan gambar yang menampilkan anting-anting).

Ray marching digunakan untuk menghitung volume peta segmentasi semantik, memungkinkan beberapa sudut pandang.

Ray berbaris digunakan untuk menghitung volume peta segmentasi semantik, memungkinkan beberapa sudut pandang.

Dataset dan Pelatihan

Tiga kumpulan data digunakan dalam pengembangan berbagai implementasi SofGAN: CelebAMask-HQ, tempat penyimpanan 30,000 gambar beresolusi tinggi yang diambil dari kumpulan data CelebA-HQ; Flickr-Faces-HQ NVIDIA (FFHQ), yang berisi 70,000 gambar, di mana para peneliti melabeli gambar tersebut dengan pengurai wajah terlatih; dan kelompok yang diproduksi sendiri dari 122 pemindaian potret dengan wilayah semantik yang diberi label secara manual.

SOF terdiri dari tiga sub-modul yang dapat dilatih – hyper-net, ray marcher (lihat gambar di atas), dan classifier. Generator StyleGAN Semantic Instance Wised (SIW) proyek dikonfigurasi serupa dengan StyleGAN2 dalam aspek tertentu. Augmentasi data diterapkan melalui penskalaan dan pemangkasan acak, dan pelatihan menampilkan regularisasi jalur setiap empat langkah. Keseluruhan prosedur pelatihan memerlukan waktu 22 hari untuk mencapai 800,000 iterasi pada empat GPU RTX 2080 Ti melalui CUDA 10.1.

Makalah tersebut tidak menyebutkan konfigurasi kartu 2080, yang masing-masing dapat menampung antara 11gb-22gb VRAM, yang berarti bahwa total VRAM yang digunakan untuk bagian terbaik dalam sebulan untuk melatih SofGAN berada di antara 44Gb dan 88Gb.

Para peneliti mengamati bahwa hasil umum tingkat tinggi yang dapat diterima mulai muncul cukup awal dalam pelatihan, pada 1500 iterasi, tiga hari setelah pelatihan. Sisa pelatihan diambil dengan perayapan lambat yang dapat diprediksi menuju perolehan detail halus seperti sisi rambut dan mata.

SofGAN umumnya mencapai hasil yang lebih realistis dari peta segmentasi tunggal daripada metode saingan seperti NIVDIA SWORDS dan Pix2PixHD, dan SEAN.

Di bawah ini adalah video yang dirilis oleh para peneliti. Video self-hosted lebih lanjut tersedia di halaman proyek.

[TOG 2021] SofGAN: Pembuat Gambar Potret dengan Gaya Dinamis

 

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai