Connect with us

Kecerdasan buatan

Sistem AI yang Dapat Membuat Gambar Orang Lebih ‘Cantik’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Peneliti dari China telah mengembangkan sistem peningkatan gambar berbasis AI yang mampu membuat gambar seseorang lebih ‘cantik’, berdasarkan pendekatan baru untuk pembelajaran penguatan.

Pendekatan baru ini menggunakan 'jaringan prediksi kecantikan wajah' untuk mengulangi variasi pada gambar berdasarkan sejumlah faktor, di antaranya 'pencahayaan' dan pose mata mungkin merupakan faktor kritis. Di sini sumber asli (di sebelah kiri setiap kolom) berasal dari sistem EigenGAN, dengan hasil baru di sebelah kanan. Sumber: https://arxiv.org/pdf/2208.04517.pdf

Pendekatan baru ini menggunakan ‘jaringan prediksi kecantikan wajah’ untuk mengulangi variasi pada gambar berdasarkan sejumlah faktor, di antaranya ‘pencahayaan’ dan pose mata mungkin merupakan faktor kritis. Di sini sumber asli (di sebelah kiri setiap kolom) berasal dari sistem EigenGAN, dengan hasil baru di sebelah kanan. Sumber: https://arxiv.org/pdf/2208.04517.pdf

Teknik ini mengambil inovasi yang ditemukan untuk EigenGAN generator, proyek China lainnya, dari 2021, yang membuat kemajuan signifikan dalam mengidentifikasi dan memperoleh kontrol atas atribut semantik yang beragam dalam ruang laten Jaringan Adversarial Generatif (GAN).

Generator EigenGAN 2021 dapat membedakan konsep tingkat tinggi seperti 'warna rambut' dalam ruang laten jaringan generatif adversarial. Pekerjaan baru ini membangun pada instrumentality inovatif ini untuk menghasilkan sistem yang dapat 'mencantikkan' gambar sumber, tetapi tanpa mengubah identitas yang dapat dikenali – masalah dalam pendekatan sebelumnya.

Generator EigenGAN 2021 dapat membedakan konsep tingkat tinggi seperti ‘warna rambut’ dalam ruang laten jaringan generatif adversarial. Pekerjaan baru ini membangun pada instrumentality inovatif ini untuk menghasilkan sistem yang dapat ‘mencantikkan’ gambar sumber, tetapi tanpa mengubah identitas yang dapat dikenali – masalah dalam pendekatan sebelumnya. Sumber: https://arxiv.org/pdf/2104.12476.pdf

Sistem ini menggunakan ‘jaringan skor estetika’ yang berasal dari SCUT-FBP5500 (SCUT), sebuah dataset benchmark 2018 untuk prediksi kecantikan wajah, dari Universitas Teknologi China Selatan di Guangzhou.

Dari makalah 2018 'SCUT-FBP5500: Dataset Benchmark Diverse untuk Prediksi Kecantikan Wajah Multi-Paradigma', yang menawarkan 'jaringan prediksi kecantikan wajah' (FBP) yang dapat menilai wajah berdasarkan daya tarik, tetapi yang tidak dapat sebenarnya mengubah atau 'mengupgrade' wajah.

Dari makalah 2018 ‘SCUT-FBP5500: Dataset Benchmark Diverse untuk Prediksi Kecantikan Wajah Multi-Paradigma’, yang menawarkan ‘jaringan prediksi kecantikan wajah’ (FBP) yang dapat menilai wajah berdasarkan daya tarik, tetapi yang tidak dapat sebenarnya mengubah atau ‘mengupgrade’ wajah. Sumber: https://arxiv.org/pdf/1801.06345.pdf

Tidak seperti pekerjaan baru, proyek 2018 tidak dapat melakukan transformasi, tetapi berisi penilaian algoritmik untuk 5.500 wajah, disediakan oleh 60 labeler berbagai jenis kelamin (perbandingan 50/50). Ini telah dimasukkan ke dalam sistem baru sebagai discriminator efektif, untuk memandu transformasi yang kemungkinan akan meningkatkan ‘daya tarik’ gambar.

Menariknya, makalah baru berjudul Generasi Wajah Cantik Kaukasia yang Dapat Dikendalikan Atribut dengan Pembelajaran Penguatan yang Dipandu Estetika. Alasan bahwa semua ras kecuali Kaukasia dikecualikan dari sistem (pertimbangkan juga bahwa peneliti itu sendiri adalah China) adalah karena data sumber untuk SCUT cenderung ke sumber Asia (4.000 wanita/ pria Asia yang terbagi rata, 1.500 wanita/pria Kaukasia yang terbagi rata), membuat ‘orang rata-rata’ dalam dataset tersebut berambut coklat dan bermata coklat.

Oleh karena itu, untuk mengakomodasi variasi warna setidaknya dalam satu ras, diperlukan untuk mengeluarkan komponen Asia dari data asli, atau pergi ke biaya yang cukup besar untuk merekonstruksi data untuk mengembangkan metode yang mungkin tidak berhasil. Selain itu, variasi dalam persepsi kecantikan budaya pasti berarti bahwa sistem seperti ini akan memerlukan beberapa derajat konfigurasi geografis dalam hal apa yang merupakan ‘daya tarik’.

Atribut yang Relevan

Untuk menentukan faktor-faktor utama yang menyumbang pada foto ‘menarik’ seseorang, peneliti juga menguji efek dari perubahan berbagai pada gambar, dalam hal seberapa baik peningkatan tersebut meningkatkan persepsi algoritmik ‘kecantikan’. Mereka menemukan bahwa setidaknya satu dari aspek tersebut lebih sentral untuk fotografi yang baik daripada genetika yang baik:

Selain pencahayaan, aspek yang memiliki dampak terbesar pada skor kecantikan adalah poni (yang, dalam kasus pria, dapat sering setara dengan memiliki rambut penuh), pose tubuh, dan disposisi mata (di mana keterlibatan dengan sudut pandang kamera adalah dorongan untuk daya tarik).

(Mengenai ‘warna lipstik’, sistem baru, yang dapat bekerja secara efektif pada presentasi gender pria dan wanita, tidak membedakan penampilan gender, tetapi bergantung pada sistem discriminator baru sebagai ‘filter’ dalam hal ini)

Metode

Fungsi penghargaan dalam mekanisme pembelajaran penguatan pada sistem baru ditenagai oleh regresi sederhana atas data SCUT, yang menghasilkan prediksi kecantikan wajah.

Sistem pelatihan mengulangi data input gambar (bawah kiri pada skema di bawah). Awalnya, model ResNet18 pra-terlatih (terlatih pada ImageNet) mengekstrak fitur dari lima gambar identik (‘y’). Kemudian, tindakan transformasi potensial diperoleh dari keadaan tersembunyi dari lapisan terhubung penuh (GRUCell, pada gambar di bawah), dan transformasi diterapkan, menghasilkan lima gambar yang diubah yang dimasukkan ke dalam jaringan skor estetika, yang peringkatnya, gaya Darwin, akan menentukan variasi mana yang akan dikembangkan dan mana yang dibuang.

Ilustrasi luas aliran kerja untuk sistem baru.

Ilustrasi aliran kerja untuk sistem baru.

Jaringan skor estetika menggunakan modul Perhatian Saluran Efisien (ECA), sementara adaptasi instance pra-terlatih dari EfficientNet-B4 ditugaskan untuk mengekstrak 1.792 fitur dari setiap gambar.

Setelah normalisasi melalui fungsi aktivasi ReLU, vektor empat dimensi diperoleh kembali dari modul ECA, yang kemudian diratakan menjadi vektor satu dimensi setelah aktivasi dan penumpukan rata-rata adaptif. Akhirnya, hasilnya dimasukkan ke dalam jaringan regresi, yang mengambil skor estetika.

Perbandingan kualitatif output sistem. Pada baris bawah, kita melihat jumlah agregat dari semua aspek yang diidentifikasi oleh metode EigenGAN dan kemudian ditingkatkan. Skor FID rata-rata untuk gambar berada di sebelah kiri baris gambar (lebih tinggi lebih baik).

Perbandingan kualitatif output sistem. Pada baris bawah, kita melihat jumlah agregat dari semua aspek yang diidentifikasi oleh metode EigenGAN dan kemudian ditingkatkan. Skor FID rata-rata untuk gambar berada di sebelah kiri baris gambar (lebih tinggi lebih baik).

Pengujian dan Studi Pengguna

Lima varian metode yang diusulkan dievaluasi secara algoritmik (lihat gambar di atas), dengan skor Fréchet inception distance (FID, kontroversial di beberapa kuadran) diberikan pada total 1000 gambar yang diproses oleh sistem.

Peneliti mencatat bahwa peningkatan pencahayaan mencapai skor daya tarik yang lebih baik untuk subjek dalam foto daripada beberapa perubahan lain yang lebih ‘jelas’ (yaitu, pada penampilan sebenarnya dari orang yang digambarkan).

Untuk sebagian, pengujian sistem dengan cara ini terbatas oleh kekhasan data SCUT, yang tidak memiliki banyak ‘senyum cerah’, dan penulis berpendapat bahwa ini bisa berlebihan dalam peringkat ‘tampilan misterius’ yang lebih khas dalam data, dibandingkan dengan preferensi kemungkinan pengguna akhir (mungkin, dalam hal ini, pasar Barat).

Namun, karena seluruh sistem bergantung pada pendapat rata-rata dari hanya 60 orang (dalam makalah EigenGAN), dan karena kualitas yang dipelajari jauh dari empiris, dapat diperdebatkan bahwa prosedur ini lebih masuk akal daripada dataset.

Meskipun singkat dalam makalah, gambar dari EigenGAN dan lima varian sistem juga ditampilkan dalam studi pengguna terbatas (delapan peserta), yang diminta untuk memilih ‘gambar terbaik’ (kata ‘menarik’ dihindari).

Di atas, antarmuka pengguna yang disajikan pada kelompok studi kecil; di bawah, hasilnya.

Di atas, antarmuka pengguna yang disajikan pada kelompok studi kecil; di bawah, hasilnya.

Hasilnya menunjukkan bahwa output sistem baru mencapai tingkat pemilihan tertinggi di antara peserta (‘MAES’ pada gambar di atas).

Pengejaran Kecantikan (tanpa Tujuan?)

Kegunaan sistem seperti ini sulit untuk ditetapkan, meskipun tampaknya ada lokus yang cukup dari upaya di China menuju tujuan ini. Tidak ada yang diuraikan dalam publikasi baru.

Makalah EigenGAN sebelumnya menunjukkan* bahwa sistem pengenalan kecantikan dapat digunakan dalam sistem rekomendasi sintesis rias wajah komputer, bedah kecantikan, pencantikan wajah, atau pengambilan gambar berdasarkan konten.

Mungkin pendekatan seperti ini juga dapat digunakan dalam situs kencan, oleh pengguna akhir, untuk ‘mengupgrade’ foto profil mereka sendiri menjadi ‘tembakan keberuntungan’ yang dijamin, sebagai alternatif untuk menggunakan foto lama, atau foto orang lain.

Demikian pula, situs kencan itu sendiri juga dapat ‘menilai’ klien mereka untuk membuat peringkat dan bahkan tingkat akses terbatas, meskipun ini kemungkinan hanya akan berfungsi melalui capture autentikasi liveness, bukan foto yang dikirim (yang juga dapat ‘ditingkatkan’ oleh klien, jika pendekatan ini menjadi populer).

Dalam periklanan, metode algoritmik untuk menilai kecantikan (teknologi yang diprediksi oleh penulis fiksi ilmiah terkenal Michael Crichton dalam filmnya 1982 Looker) dapat digunakan untuk memilih output kreatif non-ditingkatkan yang paling mungkin menarik perhatian audiens target, sementara kemampuan untuk benar-benar memaksimalkan dampak estetika gambar wajah, tanpa benar-benar menimpa mereka dalam gaya deepfakes, dapat meningkatkan gambar yang sudah efektif yang dimaksudkan untuk membangkitkan minat publik.

Pekerjaan baru ini didukung oleh National Natural Science Foundation of China, Proyek Terbuka dari Laboratorium Negara untuk Manajemen dan Kontrol Sistem Kompleks, dan Proyek Penelitian Filsafat dan Ilmu Sosial dari Kementerian Pendidikan China, antara lain.

 

* Banyak rekomendasi makalah EigenGAN menunjuk ke buku komersial 2016 yang berjudul ‘Model Komputer untuk Analisis Kecantikan Wajah’, bukan sumber akademis.

Pertama dipublikasikan 11 Agustus 2022.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.