Yapay Zekâ
İnsan Vücut Tiplerini AI ile Yeniden Şekillendirme

Çin’den yeni bir araştırma işbirliği, koordine edilmiş ikiz nöral encoder ağı kullanarak, parametrik bir model tarafından yönlendirilen ve bir son kullanıcıya ağırlık, yükseklik ve vücut oranını etkileşimli bir GUI’de değiştirmesine izin veren bir insan vücudunu görüntülerde yeniden şekillendirme yöntemi sunuyor.

Parametrik vücut şekli modülasyonu, üç kullanılabilir özelliği değiştiren kaydırma çubukları ile. Kaynak: https://arxiv.org/pdf/2203.10496.pdf
Bu çalışma, yükseklik ve vücut oranını da değiştirebilmesi ve ‘inpainting’ için ayrı bir nöral ağa sahip olması nedeniyle, Alibaba’dan benzer bir önceki projeye göre birkaç iyileştirme sunuyor. Ayrıca, dönüşümün formülasyonunda kapsamlı insan müdahalesi ihtiyacını kaldırarak, 2010 yılında önemli bir önceki parametrik yöntemde iyileşme sağlıyor.
NeuralReshaper olarak adlandırılan yeni mimari, bir kaynak görüntüsüne parametrik 3D insan şablonunu uydurur ve sonra orijinal görüntüyü yeni parametrelerle uyumlu hale getirmek için şablonun bozulmalarını kullanır.
Sistem, giyinik ve yarı giyinik (yani plaj giysileri) figürlerde vücut dönüşümlerini işleyebilir.
Bu tür dönüşümler, moda AI araştırma sektörünün yoğun ilgi gösterdiği bir alandır ve StyleGAN/CycleGAN tabanlı ve genel nöral ağ platformları için bir dizi çalışma üretmiştir. Sanal deneme için kullanılabilir veya görsel uyum için yardım edebilir.
Makale, Single-image Human-body Reshaping with Deep Neural Networks olarak adlandırılmış ve Zhejiang Üniversitesi ve Hong Kong Şehir Üniversitesi’nden araştırmacılardan gelmektedir.
SMPL Uydurma
NeuralReshaper, 2015 yılında Max Planck Enstitüsü için Akıllı Sistemler ve ünlü VFX evi Industrial Light and Magic tarafından geliştirilen Skinned Multi-Person Linear Model (SMPL) kullanır.

SMPL Parametrik insanlar, 2015 Planck/ILM işbirliğinden. Kaynak: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Sürecin ilk aşamasında, vücut dönüşümlerinin yapılması istenen bir kaynak görüntüsünden bir SMPL modeli oluşturulur. SMPL modelinin görüntüye uyarlanması, 2018 yılında Almanya ve ABD’deki üniversiteler tarafından önerilen İnsan Mesh Recovery (HMR) yönteminin metodolojisini takip eder.
Bozulma için üç parametre (ağırlık, yükseklik, vücut oranı) bu aşamada hesaplanır ve kamera parametreleri gibi odak uzaklığı da dikkate alınır. 2D anahtar noktaları ve oluşturulan silüet hizalama, 2D silüet olarak deformasyon için bir sınırlama sağlar ve daha sonra pipeline’da gerçekçi arka plan boyama için ek bir optimizasyon önlemi olarak işlev görür.

SMPL uyarlama aşamaları: soldan, kaynak görüntü; ikinci soldan, 2016 araştırması sonucunda elde edilen optimizasyon sonucu; üçüncü soldan, önceden eğitilmiş modelden doğrudan çıkarım sonucu; ikinci sağdan, 2D anahtar noktalarının optimizasyon sonucu; ve sağdan, silüet optimizasyonundan sonra tamamlanan uyarlama (yukarıya bakınız).
3D bozulma daha sonra mimarinin görüntü alanına projelendirilir ve yoğun bir bozulma alanı oluşturur. Bu işlem yaklaşık 30 saniye sürer.
NeuralReshaper Mimarisi
NeuralReshaper, iki nöral ağı birlikte çalıştırır: dönüştürülmüş vücut şeklini oluşturan ön plan kodlayıcısı ve ‘de-occluded’ arka plan bölgelerini doldurmak için odaklanan arka plan kodlayıcısı.
U-net tarzı çerçeve, iki kodlayıcının özelliklerinin çıktısını birleştirir ve sonucu birleşik bir kodlayıcıya geçirir, bu da sonunda iki girişiden yeni bir görüntü üretir. Mimaride, entegrasyonu sağlamak için yeni bir warp yönlendirmeli mekanizma bulunur.
Eğitim ve Deneyler
NeuralReshaper, PyTorch’da tek bir NVIDIA 1080ti GPU’da 11gb VRAM ile uygulanır. Ağ, 100 epoch için Adam optimizatörü altında eğitilir, jeneratör hedef kaybı 0.0001 ve ayrımcı hedef kaybı 0.0004 olarak ayarlanır. Eğitim, özel bir açık hava veri kümesinde (COCO, MPII ve LSP’den alınan) 8’lik bir toplu işleme boyutunda ve DeepFashion veri kümesinde 2’lik bir toplu işleme boyutunda gerçekleşir.
Aşağıda, yalnızca DeepFashion veri kümesinden NeuralReshaper için eğitilen bazı örnekler bulunmaktadır, orijinal görüntüler her zaman solda bulunmaktadır.
Kontrollü üç özellik ayrıştırılır ve ayrı ayrı uygulanabilir.
Türetilen açık hava veri kümesindeki dönüşümler daha zorlu olup, genellikle karmaşık arka planların doldurulması ve dönüştürülmüş vücut tiplerinin net ve ikna edici bir şekilde belirlenmesini gerektirir:
Parametrik Gereklilik
Makaleye göre, bu tür aynı görüntü dönüşümleri, görüntü sentezinde kötü konumlandırılmış bir problemi temsil eder. Birçok dönüşümsel GAN ve kodlayıcı çerçevesi, çift görüntüler (örneğin, sketch>fotoğraf ve fotoğraf>sketch dönüşümleri için tasarlanan çeşitli projeler) kullanabilir.
Ancak, bu durumda, bu, aynı insanları farklı fiziksel konfigürasyonlarda gösteren görüntü çiftleri gerektirir, örneğin diyet veya plastik cerrahi reklamlarındaki ‘önce’ ve ‘sonra’ görüntüleri – bu tür veriler elde edilmesi veya üretilmesi zor olan verilerdir.
Alternatif olarak, dönüşümsel GAN ağları, daha çeşitli veriler üzerinde eğitilebilir ve dönüşümleri, kaynak (orijinal görüntü latent kodu) ve istenen sınıf (bu durumda ‘şişman’, ‘zayıf’, ‘uzun’ vb.) arasındaki latent yön aramak suretiyle gerçekleştirebilir. Ancak, bu yaklaşım, ince ayarlı vücut yeniden şekillendirme amacıyla şu anda çok sınırlıdır.
Nöral Işın Alanları (NeRF) yaklaşimleri, tam vücut simülasyonu açısından çoğu GAN tabanlı sistemden daha ileridedir, ancak sahne özgüldür ve kaynak yoğundur ve şu anda vücut tiplerini NeuralReshaper ve önceki projelerin yapmaya çalıştığı şekilde ince bir şekilde düzenleme yeteneği sınırlıdır (sahneyi tüm vücutla birlikte ölçeklendirme dışında).
GAN’ın latent uzayı kontrol etmesi zordur; VAE’ler alone, tam vücut yeniden üretimindeki karmaşıklıkları henüz ele alamaz; ve NeRF’in insan vücudunu tutarlı ve gerçekçi bir şekilde yeniden modelleme yeteneği henüz yeni ortaya çıkmaktadır. Bu nedenle, SMPL gibi ‘geleneksel’ CGI metodolojilerinin entegrasyonu, insan görüntü sentezi araştırma sektöründe, özellikler, sınıflar ve latent kodların parametrelerinin ve kullanılabilirliğinin henüz tam olarak anlaşılmadığı bu ortaya çıkan teknolojilerde devam edeceğe benzer.
İlk olarak 31 Mart 2022’de yayınlandı.




















