Kecerdasan Buatan

Membentuk Kembali Tipe Tubuh Manusia Dengan AI

Updated on Desember 9, 2022

Kolaborasi penelitian baru dari China menawarkan metode baru untuk membentuk kembali tubuh manusia dalam gambar, dengan menggunakan jaringan enkoder saraf kembar terkoordinasi, dipandu oleh model parametrik, yang memungkinkan pengguna akhir untuk memodulasi berat, tinggi, dan proporsi tubuh dalam GUI interaktif.

Modulasi bentuk tubuh parametri, dengan penggeser mengubah tiga fitur yang tersedia. Sumber: https://arxiv.org/pdf/2203.10496.pdf

Pekerjaan ini menawarkan beberapa perbaikan atas a proyek serupa baru-baru ini dari Alibaba, yang secara meyakinkan dapat mengubah tinggi dan proporsi tubuh serta berat badan, dan memiliki jaringan saraf khusus untuk 'melukis' latar belakang (yang tidak ada) yang dapat diungkapkan oleh citra tubuh yang 'lebih ramping'. Itu juga meningkat pada yang terkenal metode parametrik sebelumnya untuk pembentukan kembali tubuh dengan menghilangkan kebutuhan intervensi manusia yang ekstensif selama perumusan transformasi.

Bergelar Pembentuk Syaraf, arsitektur baru menyesuaikan template manusia 3D parametrik dengan gambar sumber, lalu menggunakan distorsi pada template untuk mengadaptasi gambar asli ke parameter baru.

Sistem ini mampu menangani transformasi tubuh pada sosok berpakaian maupun semi-berpakaian (yaitu pakaian pantai).

Transformasi jenis ini saat ini sangat diminati mode AI sektor penelitian, yang telah menghasilkan sejumlah platform jaringan saraf umum dan berbasis StyleGAN/CycleGAN untuk percobaan virtual yang dapat menyesuaikan item pakaian yang tersedia dengan bentuk tubuh dan jenis gambar yang dikirimkan pengguna, atau membantu penyesuaian visual.

Grafik kertas berjudul Pembentukan Tubuh Manusia Gambar Tunggal dengan Deep Neural Networks, dan berasal dari para peneliti di Universitas Zhejiang di Hangzhou, dan Sekolah Media Kreatif di Universitas Kota Hong Kong.

Pemasangan SMPL

NeuralReshaper memanfaatkan Skinned Multi-Person Linear Model (SMPL) dikembangkan oleh Max Planck Institute for Intelligent Systems dan VFX house Industrial Light and Magic yang terkenal pada tahun 2015.

Manusia parametrik SMPL dari kolaborasi Planck/ILM 2015. Sumber: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Pada tahap pertama proses, model SMPL dihasilkan dari gambar sumber yang diinginkan untuk dibuat transformasi tubuh. Penyesuaian model SMPL dengan citra mengikuti metodologi metode Human Mesh Recovery (HMR) yang diusulkan oleh universitas di Jerman dan Amerika Serikat pada tahun 2018.

Tiga parameter deformasi (berat, tinggi, proporsi tubuh) dihitung pada tahap ini, bersama dengan pertimbangan parameter kamera, seperti panjang fokus. Titik kunci 2D dan penyelarasan siluet yang dihasilkan menyediakan penutup untuk deformasi dalam bentuk siluet 2D, ukuran pengoptimalan tambahan yang meningkatkan akurasi batas dan memungkinkan pengecatan latar belakang otentik lebih jauh ke dalam saluran pipa.

Tahapan pemasangan SMPL: kiri, gambar sumber; kedua dari kiri, hasil optimalisasi diperoleh dari metode yang diuraikan dalam penelitian 2016 yang dipimpin oleh Max Planck Institute for Intelligent Systems; ketiga dari kiri, hasil inferensi langsung dari model terlatih untuk Pemulihan Bentuk dan Pose Manusia Ujung-ke-ujung; kedua dari kanan, hasil yang diperoleh setelah pengoptimalan titik kunci 2D; dan terakhir, benar, kesesuaian yang telah selesai setelah pengoptimalan siluet (lihat di atas).

Tahapan pemasangan SMPL: kiri, gambar sumber; kedua, hasil optimalisasi yang diperoleh dari metode yang digariskan pada tahun 2016 penelitian dipimpin oleh Institut Max Planck untuk Sistem Cerdas; ketiga, hasil inferensi langsung dari model pra-terlatih untuk Pemulihan Bentuk dan Pose Manusia dari ujung ke ujung; keempat, hasil yang diperoleh setelah pengoptimalan titik kunci 2D; dan terakhir, kelima, kesesuaian yang telah selesai setelah pengoptimalan siluet (lihat di atas).

Deformasi 3D kemudian diproyeksikan ke dalam ruang gambar arsitektur untuk memfasilitasi medan warping padat yang akan menentukan deformasi. Proses ini memakan waktu sekitar 30 detik per gambar.

Arsitektur NeuralReshaper

NeuralReshaper menjalankan dua jaringan saraf secara bersamaan: pembuat enkode latar depan yang menghasilkan bentuk tubuh yang diubah, dan pembuat enkode latar belakang yang berfokus pada pengisian wilayah latar belakang yang 'tidak tersumbat' (dalam kasus, misalnya, melangsingkan tubuh – lihat gambar di bawah).

Kerangka kerja U-net-style mengintegrasikan output dari fitur dua encoder sebelum meneruskan hasilnya ke encoder terpadu yang pada akhirnya menghasilkan gambar baru dari dua input. Arsitekturnya menampilkan mekanisme panduan warp baru untuk memungkinkan integrasi.

Pelatihan dan Eksperimen

NeuralReshaper diimplementasikan di PyTorch pada satu GPU NVIDIA 1080ti dengan VRAM 11 GB. Jaringan dilatih selama 100 zaman di bawah pengoptimal Adam, dengan generator disetel ke target kerugian 0.0001 dan diskriminator ke target kerugian 0.0004. Pelatihan terjadi pada ukuran batch 8 untuk kumpulan data luar ruangan berpemilik (diambil dari COCO, MPII, dan LSP), dan 2 untuk pelatihan tentang Mode Dalam Himpunan data.

Di sebelah kiri, gambar asli, di sebelah kanan, keluaran NeuralReshaper yang proporsional.

Di bawah ini adalah beberapa contoh eksklusif dari kumpulan data DeepFashion yang dilatih untuk NeuralReshaper, dengan gambar asli selalu di sebelah kiri.

Tiga atribut yang dapat dikontrol dipisahkan, dan dapat diterapkan secara terpisah.

Transformasi pada dataset outdoor turunan lebih menantang, karena sering membutuhkan pengisian latar belakang yang kompleks dan penggambaran yang jelas dan meyakinkan dari tipe tubuh yang diubah:

Kebutuhan Parametrik

Seperti yang diamati oleh makalah ini, transformasi gambar yang sama dari jenis ini mewakili masalah yang tidak tepat dalam sintesis gambar. Banyak kerangka GAN dan encoder transformatif dapat menggunakan gambar berpasangan (seperti berbagai proyek yang dirancang untuk menghasilkan efek sketsa> foto dan foto> sketsa transformasi).

Namun, dalam kasus yang ada, ini membutuhkan pasangan gambar yang menampilkan orang yang sama dalam konfigurasi fisik yang berbeda, seperti gambar 'sebelum dan sesudah' dalam iklan diet atau operasi plastik – data yang sulit diperoleh atau dibuat.

Bergantian, jaringan GAN transformatif dapat melatih data yang jauh lebih beragam, dan efek transformasi dengan mencari arah laten antara sumber (kode laten gambar asli) dan kelas yang diinginkan (dalam hal ini 'gemuk', 'kurus', 'tinggi', dll.). Namun, pendekatan ini saat ini terlalu terbatas untuk keperluan pembentukan kembali tubuh yang disesuaikan.

Bidang Cahaya Saraf (NeRF) jauh lebih maju dalam simulasi seluruh tubuh yang kebanyakan sistem berbasis GAN, tetapi tetap spesifik adegan dan intensif sumber daya, dengan kemampuan yang saat ini sangat terbatas untuk mengedit tipe tubuh dengan cara granular yang coba ditangani oleh NeuralReshaper dan proyek sebelumnya ( kekurangan menurunkan seluruh tubuh relatif terhadap lingkungannya).

Ruang laten GAN sulit diatur; VAE saja belum membahas kompleksitas reproduksi seluruh tubuh; dan kapasitas NeRF untuk secara konsisten dan realistis merombak tubuh manusia masih baru lahir. Oleh karena itu penggabungan metodologi CGI 'tradisional' seperti SMPL tampaknya akan berlanjut di sektor penelitian sintesis citra manusia, sebagai metode untuk mengurung dan mengkonsolidasikan fitur, kelas, dan kode laten yang parameter dan eksploitasinya belum sepenuhnya dipahami di negara-negara berkembang ini. teknologi.

Pertama kali diterbitkan 31 Maret 2022.

Berikutnya

Peneliti Membuat Sistem untuk Mengekstrak Info Dari Artikel COVID-19

Jangan Miss

Beragam Tim Pakar Kembangkan Sistem Pertahanan Neural Networks

Martin Anderson

Penulis tentang pembelajaran mesin, kecerdasan buatan, dan data besar.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai