Sudut Anderson

Mengubah Bentuk Tubuh Manusia dengan AI

mm

Kolaborasi penelitian baru dari Tiongkok menawarkan metode novel untuk mengubah bentuk tubuh manusia dalam gambar, dengan menggunakan jaringan encoder neural koordinat ganda, yang dipandu oleh model parametric, yang memungkinkan pengguna akhir untuk memodulasi berat, tinggi, dan proporsi tubuh dalam antarmuka pengguna interaktif.

Modulasi parametric bentuk tubuh, dengan slider mengubah tiga fitur yang tersedia. Sumber: https://arxiv.org/pdf/2203.10496.pdf

Modulasi parametric bentuk tubuh, dengan slider mengubah tiga fitur yang tersedia. Sumber: https://arxiv.org/pdf/2203.10496.pdf

Karya ini menawarkan beberapa perbaikan atas proyek serupa sebelumnya dari Alibaba, karena dapat mengubah tinggi dan proporsi tubuh serta berat, dan memiliki jaringan neural khusus untuk ‘mengisi’ latar belakang yang tidak ada (dalam kasus, misalnya, menipiskan tubuh – lihat gambar di bawah).

Bernama NeuralReshaper, arsitektur baru ini memasang template manusia 3D parametric ke gambar sumber, dan kemudian menggunakan distorsi pada template untuk menyesuaikan gambar asli dengan parameter baru.

Sistem ini dapat menangani transformasi tubuh pada figur berpakaian serta setengah berpakaian (yaitu pakaian renang).

Transformasi jenis ini saat ini sangat diminati oleh sektor penelitian AI mode, yang telah menghasilkan sejumlah platform berbasis StyleGAN/CycleGAN dan jaringan neural umum untuk coba pakaian virtual yang dapat menyesuaikan item pakaian yang tersedia dengan bentuk dan jenis tubuh pengguna, atau membantu dengan konformitas visual.

Makalah ini berjudul Single-image Human-body Reshaping with Deep Neural Networks, dan berasal dari peneliti di Universitas Zhejiang di Hangzhou, dan Sekolah Media Kreatif di Universitas Kota Hong Kong.

SMPL Fitting

NeuralReshaper menggunakan Skinned Multi-Person Linear Model (SMPL) yang dikembangkan oleh Max Planck Institute for Intelligent Systems dan rumah efek visual terkenal Industrial Light and Magic pada tahun 2015.

SMPL Manusia parametric dari kolaborasi Planck/ILM 2015. Sumber: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Manusia parametric dari kolaborasi Planck/ILM 2015. Sumber: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Pada tahap pertama proses, model SMPL dibuat dari gambar sumber yang diinginkan untuk diubah. Penyesuaian model SMPL dengan gambar mengikuti metodologi Human Mesh Recovery (HMR) yang diusulkan oleh universitas di Jerman dan AS pada tahun 2018.

Tiga parameter untuk deformasi (berat, tinggi, proporsi tubuh) dihitung pada tahap ini, bersama dengan pertimbangan parameter kamera, seperti panjang fokus. 2D keypoints dan siluet yang dihasilkan menyediakan wadah untuk deformasi dalam bentuk siluet 2D, langkah optimasi tambahan yang meningkatkan akurasi batas dan memungkinkan pengisian latar belakang yang otentik lebih lanjut di pipa.

Tahap penyesuaian SMPL: kiri, gambar sumber; kedua dari kiri, hasil optimasi yang diperoleh dari metode yang diuraikan dalam penelitian 2016 yang dipimpin oleh Max Planck Institute for Intelligent Systems; ketiga dari kiri, hasil inferensi langsung dari model pra-dilatih untuk Pemulihan Bentuk dan Pose Manusia; kedua dari kanan, hasil yang diperoleh setelah optimasi keypoints 2D; dan akhirnya, kanan, penyesuaian yang selesai setelah optimasi siluet (lihat di atas).

Tahap penyesuaian SMPL: kiri, gambar sumber; kedua, hasil optimasi yang diperoleh dari metode yang diuraikan dalam penelitian 2016 yang dipimpin oleh Max Planck Institute for Intelligent Systems; ketiga, hasil inferensi langsung dari model pra-dilatih untuk Pemulihan Bentuk dan Pose Manusia; keempat, hasil yang diperoleh setelah optimasi keypoints 2D; dan akhirnya, kelima, penyesuaian yang selesai setelah optimasi siluet (lihat di atas).

Deformasi 3D kemudian diproyeksikan ke ruang gambar arsitektur untuk memfasilitasi lapangan deformasi yang padat yang akan menentukan deformasi. Proses ini memakan waktu sekitar 30 detik per gambar.

NeuralReshaper Arsitektur

NeuralReshaper menjalankan dua jaringan neural secara bersamaan: encoder foreground yang menghasilkan bentuk tubuh yang diubah, dan encoder latar belakang yang fokus pada mengisi daerah latar belakang yang ‘tersembunyi’ (dalam kasus, misalnya, menipiskan tubuh – lihat gambar di bawah).

Kerangka U-net-style mengintegrasikan output dari fitur dua encoder sebelum melewatkannya ke encoder yang disatukan yang pada akhirnya menghasilkan gambar baru dari dua input. Arsitektur ini memiliki mekanisme warp-panduan novel untuk memungkinkan integrasi.

Pelatihan dan Eksperimen

NeuralReshaper diimplementasikan dalam PyTorch pada satu NVIDIA 1080ti GPU dengan 11gb VRAM. Jaringan ini dilatih selama 100 epoch di bawah optimizer Adam, dengan generator yang disetel ke target loss 0,0001 dan diskriminator ke target loss 0,0004. Pelatihan terjadi pada ukuran batch 8 untuk dataset luar ruangan propietary (diambil dari COCO, MPII, dan LSP), dan 2 untuk pelatihan pada dataset DeepFashion.

Di kiri, gambar asli, di kanan, output NeuralReshaper yang direproporsikan.

Di kiri, gambar asli, di kanan, output NeuralReshaper yang direproporsikan.

Di bawah ini adalah beberapa contoh eksklusif dari dataset DeepFashion yang dilatih untuk NeuralReshaper, dengan gambar asli selalu di kiri.

Tiga atribut yang dapat dikontrol dipisahkan, dan dapat diterapkan secara terpisah.

Transformasi pada dataset luar ruangan yang dihasilkan lebih menantang, karena sering memerlukan pengisian latar belakang yang kompleks dan pembatasan tubuh yang jelas dan meyakinkan:

Keperluan Parametric

Seperti yang diamati dalam makalah, transformasi gambar yang sama jenis ini mewakili masalah yang tidak terpecahkan dalam sintesis gambar. Banyak kerangka GAN dan encoder transformasional dapat menggunakan gambar berpasangan (seperti proyek yang dirancang untuk menghasilkan sketsa>foto dan foto>sketsa transformasi).

Namun, dalam kasus ini, ini akan memerlukan gambar berpasangan yang menampilkan orang yang sama dalam konfigurasi fisik yang berbeda, seperti ‘sebelum dan sesudah’ gambar dalam iklan diet atau bedah plastik – data yang sulit diperoleh atau dibuat.

Alternatifnya, jaringan GAN transformasional dapat dilatih pada data yang jauh lebih beragam, dan menghasilkan transformasi dengan mencari arah laten antara kode laten gambar asli (sumber) dan kelas yang diinginkan (dalam kasus ini ‘gemuk’, ‘kurus’, ‘tinggi’, dll.). Namun, pendekatan ini saat ini terlalu terbatas untuk tujuan perubahan bentuk tubuh yang halus.

Neural Radiance Fields (NeRF) pendekatan jauh lebih maju dalam simulasi tubuh penuh daripada sebagian besar sistem berbasis GAN, tetapi tetap spesifik pada adegan dan intensif sumber daya, dengan kemampuan yang sangat terbatas untuk mengedit jenis tubuh dengan cara yang halus seperti yang NeuralReshaper dan proyek sebelumnya mencoba untuk menangani (kecuali menskala seluruh tubuh relatif terhadap lingkungannya).

Ruang laten GAN sulit untuk dikuasai; VAE saja belum menangani kompleksitas reproduksi tubuh penuh; dan kemampuan NeRF untuk secara konsisten dan realistis meremodifikasi tubuh manusia masih dalam tahap awal. Oleh karena itu, penggunaan ‘metodologi’ CGI tradisional seperti SMPL tampaknya akan terus berlanjut di sektor penelitian sintesis gambar manusia, sebagai metode untuk mengumpulkan dan mengonsolidasikan fitur, kelas, dan kode laten yang parameter dan eksploitabilitasnya belum sepenuhnya dipahami dalam teknologi yang muncul ini.

 

Dipublikasikan pertama kali pada tanggal 31 Maret 2022.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.