Kecerdasan buatan
Membuat ‘Tubuh’ yang ‘Lebih Baik’ dengan AI

Penelitian baru dari akademi Alibaba DAMO menawarkan alur kerja yang didorong oleh AI untuk mengotomatisasi perubahan bentuk gambar tubuh – upaya langka di sektor penglihatan komputer yang saat ini didominasi oleh manipulasi berbasis wajah seperti deepfakes dan pengeditan wajah berbasis GAN.

Inset di kolom ‘hasil’, peta perhatian yang dihasilkan yang menentukan area yang akan diperbarui. Sumber: https://arxiv.org/pdf/2203.04670.pdf
Arsitektur peneliti menggunakan estimasi pose kerangka untuk mengatasi kompleksitas yang lebih besar yang dihadapi sistem sintesis dan pengeditan gambar dalam memahami dan memparameterkan gambar tubuh yang ada, setidaknya pada tingkat granularitas yang memungkinkan pengeditan yang bermakna dan selektif.

Peta kerangka yang diestimasi membantu untuk membedakan dan memfokuskan perhatian pada area tubuh yang kemungkinan akan diperbarui, seperti area lengan atas.
Sistem ini pada akhirnya memungkinkan pengguna untuk menetapkan parameter yang dapat mengubah penampilan berat, massa otot, atau distribusi berat pada foto orang dengan panjang penuh atau setengah, dan dapat menghasilkan transformasi arbitrer pada bagian tubuh yang berpakaian atau tidak berpakaian.

Kiri, gambar input; tengah, peta perhatian yang dihasilkan; kanan, gambar yang diubah.
Motivasi untuk pekerjaan ini adalah pengembangan alur kerja yang otomatis yang dapat menggantikan manipulasi digital yang melelahkan yang dilakukan oleh fotografer dan seniman grafis produksi di berbagai cabang media, dari mode hingga output gaya majalah dan bahan promosi.
Secara umum, penulis mengakui, transformasi ini biasanya diterapkan dengan teknik ‘warp’ di Photoshop dan editor bitmap tradisional lainnya, dan hampir secara eksklusif digunakan pada gambar perempuan. Konsekuensinya, dataset kustom yang dikembangkan untuk memfasilitasi proses baru ini terdiri sebagian besar dari foto subjek perempuan:
‘Karena perawatan tubuh sebagian besar diinginkan oleh perempuan, sebagian besar koleksi kami adalah foto perempuan, mempertimbangkan keberagaman usia, ras (Afrika:Asia:Kaukasus = 0,33:0,35:0,32), pose, dan pakaian.’
Makalah ini berjudul Structure-Aware Flow Generation for Human Body Reshaping, dan berasal dari lima penulis yang berafiliasi dengan akademi DAMO global Alibaba.
Pengembangan Dataset
Seperti biasa dengan sistem sintesis dan pengeditan gambar, arsitektur untuk proyek ini memerlukan dataset pelatihan kustom. Penulis menugaskan tiga fotografer untuk menghasilkan manipulasi Photoshop standar dari gambar yang sesuai dari situs fotografi stok Unsplash, menghasilkan dataset – berjudul BR-5K* – dari 5.000 gambar berkualitas tinggi dengan resolusi 2K.
Peneliti menekankan bahwa tujuan pelatihan pada dataset ini bukan untuk menghasilkan fitur ‘ideal’ dan umum yang terkait dengan indeks kecantikan atau penampilan yang diinginkan, tetapi untuk mengekstrak pemetaan fitur sentral yang terkait dengan manipulasi profesional gambar tubuh.
Namun, mereka mengakui bahwa manipulasi tersebut pada akhirnya mencerminkan proses transformasi yang memetakan kemajuan dari ‘nyata’ ke konsep ‘ideal’ yang telah ditetapkan:
‘Kami mengundang tiga seniman profesional untuk merawat tubuh menggunakan Photoshop secara independen, dengan tujuan mencapai bentuk yang ramping yang memenuhi estetika populer, dan memilih yang terbaik sebagai ground-truth.’
Karena kerangka kerja tidak menangani wajah sama sekali, wajah tersebut dibuat buram sebelum dimasukkan ke dalam dataset.
Arsitektur dan Konsep Inti
Alur kerja sistem ini melibatkan memasukkan potret dengan resolusi tinggi, menskalakan gambar ke resolusi yang lebih rendah yang dapat masuk ke dalam sumber daya komputasi yang tersedia, dan mengekstrak peta pose kerangka yang diestimasi (gambar kedua dari kiri di bawah), serta Part Affinity Fields (PAFs), yang ditemukan pada tahun 2016 oleh The Robotics Institute di Carnegie Mellon University (lihat video yang disematkan langsung di bawah).
Part Affinity Fields membantu untuk menentukan orientasi anggota tubuh dan asosiasi umum dengan kerangka yang lebih luas, memberikan proyek baru dengan alat perhatian/lokalitas tambahan.

Dari makalah Part Affinity Fields 2016, PAF yang diprediksi mengkodekan orientasi anggota tubuh sebagai bagian dari vektor 2D yang juga mencakup posisi umum anggota tubuh. Sumber: https://arxiv.org/pdf/1611.08050.pdf
Meskipun tampaknya tidak relevan dengan penampilan berat, peta kerangka berguna dalam mengarahkan proses transformasi akhir ke bagian tubuh yang akan diperbarui, seperti lengan atas, bokong, dan paha.
Setelah ini, hasilnya diberikan kepada Structure Affinity Self-Attention (SASA) di bottleneck sentral proses (lihat gambar di bawah).

SASA mengatur konsistensi generator aliran yang memicu proses, hasilnya kemudian diberikan kepada modul perubahan (kedua dari kanan di gambar atas), yang menerapkan transformasi yang dipelajari dari pelatihan pada revisi manual yang termasuk dalam dataset.

Modul Structure Affinity Self-Attention (SASA) mengalokasikan perhatian pada bagian tubuh yang relevan, membantu untuk menghindari transformasi yang tidak perlu atau tidak relevan.
Gambar output kemudian diskalakan kembali ke resolusi asli 2K, menggunakan proses yang tidak jauh berbeda dengan arsitektur deepfake standar 2017 yang dari mana paket populer seperti DeepFaceLab telah berasal; proses penskalaan juga umum di kerangka kerja pengeditan GAN.
Jaringan perhatian untuk skema ini dimodelkan setelah Compositional De-Attention Networks (CODA), kolaborasi akademis 2019 AS/Singapura dengan Amazon AI dan Microsoft.
Pengujian
Kerangka kerja berbasis aliran diuji melawan metode berbasis aliran sebelumnya FAL dan Animating Through Warping (ATW), serta arsitektur terjemahan gambar Pix2PixHD dan GFLA, dengan SSIM, PSNR dan LPIPS sebagai metrik evaluasi.

Hasil pengujian awal (arah panah di header menunjukkan apakah angka yang lebih rendah atau lebih tinggi lebih baik).
Berdasarkan metrik yang diadopsi, sistem penulis outperforms arsitektur sebelumnya.

Hasil terpilih. Silakan merujuk ke PDF asli yang dilinkkan dalam artikel ini untuk perbandingan resolusi yang lebih tinggi.
Selain metrik otomatis, peneliti melakukan studi pengguna (kolom terakhir tabel hasil yang ditampilkan sebelumnya), di mana 40 peserta masing-masing diberikan 30 pertanyaan yang dipilih secara acak dari kumpulan 100 pertanyaan yang terkait dengan gambar yang dihasilkan melalui metode yang berbeda. 70% responden lebih menyukai teknik baru sebagai lebih ‘menarik secara visual’.
Tantangan
Makalah baru ini merupakan upaya langka dalam manipulasi tubuh berbasis AI. Sektor sintesis gambar saat ini lebih tertarik dengan menghasilkan tubuh yang dapat diedit melalui metode seperti Neural Radiance Fields (NeRF), atau lebih fokus pada menjelajahi ruang laten GAN dan potensi autoencoder untuk manipulasi wajah.
Inisiatif penulis saat ini terbatas pada menghasilkan perubahan dalam berat yang dirasakan, dan mereka belum menerapkan teknik inpainting yang dapat memulihkan latar belakang yang terungkap ketika Anda menipiskan gambar seseorang.
Namun, mereka mengusulkan bahwa pemotongan potret dan pencampuran latar belakang melalui inferensi tekstural dapat dengan mudah menyelesaikan masalah pemulihan bagian dunia yang sebelumnya tersembunyi dalam gambar oleh ‘ketidaksempurnaan’ manusia.

Solusi yang diusulkan untuk memulihkan latar belakang yang terungkap oleh pengurangan lemak AI.
* Meskipun makalah pra-cetak merujuk pada materi tambahan yang memberikan lebih banyak detail tentang dataset, serta contoh lebih lanjut dari proyek, lokasi materi ini tidak tersedia dalam makalah, dan penulis yang sesuai belum merespons permintaan kami untuk mengaksesnya.
Dipublikasikan pertama kali pada 10 Maret 2022.










