Connect with us

Kecerdasan buatan

Membuat ‘Tubuh’ yang ‘Lebih Baik’ dengan AI

mm

Penelitian baru dari akademi Alibaba DAMO menawarkan alur kerja yang digerakkan oleh AI untuk mengotomatisasi perubahan bentuk gambar tubuh – sebuah upaya langka di sektor penglihatan komputer yang saat ini didominasi oleh manipulasi berbasis wajah seperti deepfakes dan pengeditan wajah berbasis GAN.

Inset di kolom 'hasil', peta perhatian yang dihasilkan yang menentukan area yang akan diubah. Sumber: https://arxiv.org/pdf/2203.04670.pdf

Inset di kolom ‘hasil’, peta perhatian yang dihasilkan yang menentukan area yang akan diubah. Sumber: https://arxiv.org/pdf/2203.04670.pdf

Arsitektur peneliti menggunakan estimasi pose kerangka untuk mengatasi kompleksitas yang lebih besar yang dihadapi oleh sistem sintesis dan pengeditan gambar dalam memahami dan memparameterisasi gambar tubuh yang ada, setidaknya pada tingkat granularitas yang memungkinkan pengeditan yang bermakna dan selektif.

Peta kerangka yang diestimasi membantu untuk membedakan dan memfokuskan perhatian pada area tubuh yang kemungkinan akan diedit, seperti area lengan atas.

Sistem ini pada akhirnya memungkinkan pengguna untuk menetapkan parameter yang dapat mengubah penampilan berat, massa otot, atau distribusi berat pada foto orang dengan panjang penuh atau setengah, dan dapat menghasilkan transformasi arbitrer pada bagian tubuh yang berpakaian atau tidak berpakaian.

Kiri, gambar input; tengah, peta perhatian yang dihasilkan; kanan, gambar yang diubah.

Kiri, gambar input; tengah, peta perhatian yang dihasilkan; kanan, gambar yang diubah.

Motivasi untuk pekerjaan ini adalah pengembangan alur kerja yang diotomatisasi yang dapat menggantikan manipulasi digital yang melelahkan yang dilakukan oleh fotografer dan seniman grafis produksi di berbagai cabang media, dari mode hingga output gaya majalah dan bahan promosi.

Secara umum, penulis mengakui bahwa transformasi ini biasanya diterapkan dengan teknik ‘warp’ di Photoshop dan editor bitmap tradisional lainnya, dan hampir secara eksklusif digunakan pada gambar perempuan. Oleh karena itu, dataset khusus yang dikembangkan untuk memfasilitasi proses baru ini terdiri sebagian besar dari gambar subjek perempuan:

‘Karena perubahan tubuh sebagian besar diinginkan oleh perempuan, sebagian besar koleksi kami adalah foto perempuan, mempertimbangkan keanekaragaman usia, ras (Afrika:Asia:Kaukasus = 0,33:0,35:0,32), pose, dan pakaian.’

Makalah ini berjudul Structure-Aware Flow Generation for Human Body Reshaping, dan berasal dari lima penulis yang berafiliasi dengan akademi DAMO global Alibaba.

Pengembangan Dataset

Seperti biasa dengan sistem sintesis dan pengeditan gambar, arsitektur untuk proyek ini memerlukan dataset pelatihan yang disesuaikan. Penulis meminta tiga fotografer untuk menghasilkan manipulasi Photoshop standar dari gambar yang sesuai dari situs fotografi stok Unsplash, menghasilkan dataset – berjudul BR-5K* – dari 5.000 gambar berkualitas tinggi dengan resolusi 2K.

Peneliti menekankan bahwa tujuan dari pelatihan pada dataset ini bukan untuk menghasilkan fitur ‘ideal’ dan umum yang terkait dengan indeks keatraktifan atau penampilan yang diinginkan, tetapi untuk mengekstrak pemetaan fitur sentral yang terkait dengan manipulasi profesional gambar tubuh.

Namun, mereka mengakui bahwa manipulasi tersebut pada akhirnya mencerminkan proses transformasi yang memetakan kemajuan dari ‘nyata’ ke konsep ‘ideal’ yang telah ditetapkan:

‘Kami mengundang tiga seniman profesional untuk mengedit tubuh menggunakan Photoshop secara independen, dengan tujuan untuk mencapai bentuk yang ramping yang memenuhi estetika populer, dan memilih yang terbaik sebagai ground-truth.’

Karena kerangka kerja tidak menangani wajah sama sekali, wajah tersebut diburamkan sebelum dimasukkan ke dalam dataset.

Arsitektur dan Konsep Inti

Alur kerja sistem ini melibatkan memasukkan potret dengan resolusi tinggi, menskalakan gambar ke resolusi yang lebih rendah yang dapat masuk ke dalam sumber daya komputasi yang tersedia, dan mengekstrak peta pose kerangka yang diestimasi (kedua dari kiri pada gambar di bawah), serta Part Affinity Fields (PAFs), yang ditemukan pada tahun 2016 oleh The Robotics Institute di Carnegie Mellon University (lihat video yang disematkan langsung di bawah).

Part Affinity Fields membantu untuk menentukan orientasi anggota tubuh dan asosiasi umum dengan kerangka yang lebih luas, memberikan proyek baru dengan alat perhatian/lokalitas tambahan.

Dari makalah Part Affinity Fields 2016, PAF yang diprediksi mengkodekan orientasi anggota tubuh sebagai bagian dari vektor 2D yang juga mencakup posisi umum anggota tubuh. Sumber: https://arxiv.org/pdf/1611.08050.pdf

Dari makalah Part Affinity Fields 2016, PAF yang diprediksi mengkodekan orientasi anggota tubuh sebagai bagian dari vektor 2D yang juga mencakup posisi umum anggota tubuh. Sumber: https://arxiv.org/pdf/1611.08050.pdf

Meskipun tampaknya tidak relevan dengan penampilan berat, peta kerangka berguna dalam mengarahkan proses transformasi akhir ke bagian tubuh yang akan diubah, seperti lengan atas, belakang, dan paha.

Setelah itu, hasilnya diberikan kepada Structure Affinity Self-Attention (SASA) di bottleneck sentral proses (lihat gambar di bawah).

SASA mengatur konsistensi generator aliran yang menggerakkan proses, dan hasilnya kemudian diberikan kepada modul perubahan (kedua dari kanan pada gambar di atas), yang menerapkan transformasi yang dipelajari dari pelatihan pada revisi manual yang termasuk dalam dataset.

Modul Structure Affinity Self-Attention (SASA) mengalokasikan perhatian ke bagian tubuh yang relevan, membantu untuk menghindari transformasi yang tidak perlu atau tidak relevan.

Modul Structure Affinity Self-Attention (SASA) mengalokasikan perhatian ke bagian tubuh yang relevan, membantu untuk menghindari transformasi yang tidak perlu atau tidak relevan.

Gambar output kemudian diupsample kembali ke resolusi asli 2K, menggunakan proses yang tidak jauh berbeda dengan arsitektur deepfake standar 2017 yang populer seperti DeepFaceLab; proses upsampling juga umum digunakan dalam kerangka pengeditan GAN.

Jaringan perhatian untuk skema ini dimodelkan setelah Compositional De-Attention Networks (CODA), sebuah kolaborasi akademis AS/Singapura 2019 dengan Amazon AI dan Microsoft.

Pengujian

Kerangka kerja berbasis aliran diuji melawan metode berbasis aliran sebelumnya FAL dan Animating Through Warping (ATW), serta arsitektur terjemahan gambar Pix2PixHD dan GFLA, dengan SSIM, PSNR dan LPIPS sebagai metrik evaluasi.

Hasil pengujian awal (arah panah pada header menunjukkan apakah angka yang lebih rendah atau lebih tinggi lebih baik).

Hasil pengujian awal (arah panah pada header menunjukkan apakah angka yang lebih rendah atau lebih tinggi lebih baik).

Berdasarkan metrik yang diadopsi, sistem penulis outperforms arsitektur sebelumnya.

Hasil terpilih. Silakan merujuk ke PDF asli yang dilinkkan dalam artikel ini untuk perbandingan resolusi yang lebih tinggi.

Hasil terpilih. Silakan merujuk ke PDF asli yang dilinkkan dalam artikel ini untuk perbandingan resolusi yang lebih tinggi.

Selain metrik otomatis, peneliti melakukan studi pengguna (kolom terakhir tabel hasil yang ditampilkan sebelumnya), di mana 40 peserta masing-masing diberikan 30 pertanyaan yang dipilih secara acak dari kumpulan 100 pertanyaan yang terkait dengan gambar yang dihasilkan melalui metode yang berbeda. 70% responden lebih menyukai teknik baru sebagai lebih ‘menarik secara visual’.

Tantangan

Makalah baru ini merupakan upaya langka ke dalam manipulasi tubuh berbasis AI. Sektor sintesis gambar saat ini lebih tertarik untuk menghasilkan tubuh yang dapat diedit melalui metode seperti Neural Radiance Fields (NeRF), atau lebih fokus pada menjelajahi ruang laten GAN dan potensi autoencoder untuk manipulasi wajah.

Inisiatif penulis saat ini terbatas pada menghasilkan perubahan pada berat yang dirasakan, dan mereka belum menerapkan teknik inpainting yang dapat mengembalikan latar belakang yang terungkap ketika Anda menipiskan gambar seseorang.

Namun, mereka mengusulkan bahwa pemotongan potret dan penggabungan latar belakang melalui inferensi tekstur dapat dengan mudah menyelesaikan masalah mengembalikan bagian dunia yang sebelumnya tersembunyi dalam gambar oleh ‘kekurangan’ manusia.

Solusi yang diusulkan untuk mengembalikan latar belakang yang terungkap oleh pengurangan lemak AI.

Solusi yang diusulkan untuk mengembalikan latar belakang yang terungkap oleh pengurangan lemak AI.

 

* Meskipun makalah pra-cetak merujuk pada materi tambahan yang memberikan lebih banyak detail tentang dataset, serta contoh lebih lanjut dari proyek, lokasi materi ini tidak tersedia dalam makalah, dan penulis yang sesuai belum merespons permintaan kami untuk mengaksesnya.

Dipublikasikan pertama kali pada 10 Maret 2022.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.