Yapay Zekâ
AI ile ‘Daha İyi’ Vücutlar Oluşturmak

Alibaba DAMO akademisinden yeni bir araştırma, görsellerdeki vücutların yeniden şekillendirilmesini otomatikleştirmek için bir AI sürücülü iş akışı sunuyor – bu, şu anda yüz tabanlı manipülasyonlar gibi deepfakes ve GAN tabanlı yüz düzenleme ile meşgul olan bir bilgisayar görme sektöründe nadir bir çaba.

Inset in ‘sonuç’ sütunlarında, değiştirilecek alanları tanımlayan oluşturulan dikkat haritaları. Kaynak: https://arxiv.org/pdf/2203.04670.pdf
Araştırmacıların mimarisi, görüntü sentezi ve düzenleme sistemlerinin mevcut vücut görüntülerini kavramak ve parametrelemek için karşılaştığı daha büyük karmaşıklığı ele almak için iskelet poz tahmini kullanıyor, en azından anlamlı ve seçici düzenleme yapılmasına izin veren bir düzeyde.

Tahmini iskelet haritaları, üst kol bölgesi gibi retuşe edilmeye muhtemel alanlara odaklanmaya ve bunlara dikkat çekmeye yardımcı olur.
Sistem, sonunda bir kullanıcıya, tam uzunlukta veya orta uzunluktaki insan fotoğraflarında görünümünü değiştirebileceği parametreler ayarlamasına olanak tanır ve giysili veya giysili olmayan vücut kısımlarında keyfi dönüşümler oluşturabilir.

Solda, girdi görüntüsü; ortada, türetilen dikkat alanlarının ısı haritası; sağda, dönüştürülmüş görüntü.
Çalışmanın motivasyonu, moda, dergi tarzı çıktı ve tanıtım materyali gibi çeşitli medya dallarında fotoğrafçılar ve üretim grafik sanatçıları tarafından yapılan zahmetli dijital manipülasyonların yerini alabilecek otomatik iş akışlarının geliştirilmesidir.
Genel olarak, yazarlar, bu dönüşümlerin genellikle Photoshop ve diğer geleneksel bitmap düzenleyicilerde ‘warp’ teknikleriyle uygulandığını ve neredeyse исключ olarak kadınların görüntülerinde kullanıldığını kabul ediyorlar. Dolayısıyla, yeni süreci kolaylaştırmak için geliştirilen özel veri kümesi, çoğunlukla kadın konuların resimlerinden oluşuyor:
‘Vücut düzeltmesi主要 olarak kadınlar tarafından isteniyor, koleksiyonumuzun çoğunluğu kadın fotoğraflarından oluşuyor, yaş, ırk (Afrika:Asya:Beyaz = 0.33:0.35:0.32), pozlar ve giysiler açısından çeşitliliği dikkate alarak.’
Makale, İnsan Vücut Yeniden Şekillendirme için Yapı-Aware Akış Jenerasyonu olarak adlandırılmış ve Alibaba’nın küresel DAMO akademisine bağlı beş yazar tarafından yazılmıştır.
Veri Kümesi Geliştirme
Görüntü sentezi ve düzenleme sistemleri için genellikle olduğu gibi, projenin mimarisi için özel bir eğitim veri kümesi gerekiyordu. Araştırmacılar, Unsplash stok fotoğraf sitesinden uygun görüntüleri seçerek üç fotoğrafçıyla birlikte standardize edilmiş Photoshop manipülasyonları yaptılar, sonuç olarak BR-5K* adlı 5.000 yüksek kaliteli görüntü ve 2K çözünürlükte bir veri kümesi oluşturdular.
Araştırmacılar, bu veri kümesinde eğitimin amacı, ‘ideal’ veya arzu edilen görünüm endeksine ilişkin ‘idealize’ ve genelleştirilmiş özellikler üretmek değil, sondern profesyonel vücut görüntüsü manipülasyonlarıyla ilişkili merkezi özellik eşlemelerini çıkarmak olduğunu vurguluyorlar.
Ancak, sonunda ‘gerçek’ bir görüntüden önceden belirlenmiş bir ‘ideal’ görünüme doğru bir dönüşüm süreci yansıttıklarını kabul ediyorlar:
‘Üç profesyonel sanatçıyı, Photoshop kullanarak vücutları retuş etmek için davet ediyoruz, popüler estetiğe uygun ince figürler elde etmeyi amaçlıyoruz ve en iyisini referans olarak seçiyoruz.’
Veri kümesine dahil edilmeden önce yüzler bulanıklaştırıldı.
Mimari ve Temel Kavramlar
Sistemın iş akışı, yüksek çözünürlüklü bir portreyi beslemek, bunu mevcut hesaplama kaynaklarına sığabilecek daha düşük bir çözünürlüğe örneklemlemek ve bir tahmini iskelet harita pozunu (aşağıdaki resmin ikinci figüründen soldan) çıkarmak ve ayrıca 2016 yılında Carnegie Mellon Üniversitesi’ndeki The Robotics Institute tarafından innovated edilen Part Affinity Fields (PAF’ler) içerir.
Part Affinity Fields, uzuvların yönünü ve daha geniş iskelet çerçevesiyle genel ilişkiyi tanımlamaya yardımcı olur ve bu da yeni projeye ek bir dikkat/yerelleştirme aracı sağlar.

2016 Part Affinity Fields makalesinden, predicted PAF’ler, uzuvın genel konumunu da içeren 2B bir vektör olarak uzuv yönünü kodlar. Kaynak: https://arxiv.org/pdf/1611.08050.pdf
Aşağıdaki resimdeki işlemin merkezi tıkanıklığında (Structure Affinity Self-Attention (SASA)) sonuçlar beslenir.

SASA, süreci besleyen akış jeneratörünün tutarlılığını düzenler, sonuçlar daha sonra eğitilen veri kümesindeki el ile yapılan değişikliklerden öğrenilen dönüşümleri uygulayan warping modülüne (yukarıdaki resimdeki sağdan ikinci) aktarılır.

Structure Affinity Self-Attention (SASA) modülü, ilgili vücut kısımlarına dikkat ayırır, böylece gereksiz veya alakasız dönüşümleri önler.
Çıktı görüntüsü, 2017 tarzı deepfake mimarisi ve GAN düzenleme çerçevelerinde de kullanılan süreçlerle orijinal 2K çözünürlüğe geri örneklenir.
Şemanın dikkat ağı, Compositional De-Attention Networks (CODA) modeline göre modellenmiştir, bu bir 2019 ABD/Singapur akademik işbirliğidir ve Amazon AI ve Microsoft ile birlikte gerçekleştirilmiştir.
Testler
Akış tabanlı çerçeve, önceki akış tabanlı yöntemler FAL ve Animating Through Warping (ATW) ile birlikte görüntü çevirisi mimarileri Pix2PixHD ve GFLA ile test edilmiştir, SSIM, PSNR ve LPIPS olarak değerlendirme ölçütleri kullanılmıştır.

İlk testlerin sonuçları (başlıklardaki ok yönü, daha düşük veya daha yüksek rakamların daha iyi olup olmadığını gösterir).
Kabul edilen bu ölçütler temelinde, yazarların sistemi önceki mimarileri geride bırakıyor.

Seçilen sonuçlar. Lütfen daha yüksek çözünürlüklü karşılaştırmalar için bu makalede bağlantılı olan orijinal PDF’ye bakın.
Otomatik ölçütlerin yanı sıra, araştırmacılar bir kullanıcı çalışması (önceki sonuçlar tablosunun son sütunu) gerçekleştirdiler, burada 40 katılımcı, çeşitli yöntemlerle üretilen görüntülere ilişkin 100 soru havuzundan rastgele seçilen 30 soruyu gördü. Katılımcıların %70’i yeni tekniği daha ‘görsel olarak çekici’ olarak değerlendirdi.
Zorluklar
Yeni makale, AI tabanlı vücut manipülasyonuna nadir bir çıkışdır. Görüntü sentezi sektörü şu anda daha çok Neural Radiance Fields (NeRF) gibi yöntemlerle düzenlenebilir vücutlar oluşturmak veya GAN’lerin yüz manipülasyonu için latent uzayını ve oto-encoderlerin potansiyelini keşfetmekle meşgul.
Araştırmacıların girişimi şu anda algılanan ağırlıktaki değişikliklere sınırlıdır ve arka planı geri yüklemek için herhangi bir inpainting tekniği uygulamadılar.
Ancak, portre matting ve metinsel çıkarım yoluyla arka plan karıştırma ile önceden insan ‘eksikliği’ tarafından gizlenen görüntünün geri yüklenmesinin kolayca çözülebileceğini öneriyorlar.

AI tarafından yürütülen yağ azaltma tarafından ortaya çıkan arka planın geri yüklenmesi için önerilen bir çözüm.
* Makale, veri kümesi hakkında daha fazla ayrıntı ve projeden daha fazla örnek veren ek materyale atıfta bulunsa da, bu materyalin konumu makalede sağlanmıyor ve ilgili yazar, erişim talebimize henüz cevap vermedi.
İlk olarak 10 Mart 2022’de yayınlandı.










