Yapay Zeka

Birden Çok NeRF'yi Birleştirerek Tam Vücut Deepfake'leri Oluşturma

Yayınlanan 12 Ekim 2022

Güncellenmiş 9 Aralık 2022

Martin Anderson

Görüntü sentezi araştırma sektörü, gençlerin - özellikle genç kadınların - çeşitli kıyafet türlerinde tüm vücut videolarını ve resimlerini oluşturabilen sistemler için yeni tekliflerle dolu. Çoğunlukla oluşturulan görüntüler statik; bazen çok iyi olmasa da temsiller hareket eder.

Bu özel araştırma kolunun hızı, ilgili alanlardaki mevcut baş döndürücü ilerleme düzeyine kıyasla buz gibi. gizli difüzyon modelleri; yine de çoğunluğu Asya'da olan araştırma grupları, amansızca sorunla uğraşmaya devam ediyor.

Son 10-15 yılda vücutların makine öğrenimi tabanlı nesne tanıma yoluyla değerlendirildiği ve önerilen giysilere uyarlandığı, önerilen veya yarı kullanıma sunulan düzinelerce, hatta yüzlerce 'sanal deneme' sisteminden biri. Kaynak: https://www.youtube.com/watch?v=0ZXrgGyhbak

Son 10-15 yılda önerilen veya yarı başlatılan düzinelerce, hatta yüzlerce 'sanal deneme' sisteminden biri; bu sistemde bedenler makine öğrenmesi tabanlı nesne tanıma yoluyla değerlendiriliyor ve önerilen giyim eşyalarına göre uyarlanıyor. Kaynak: https://www.youtube.com/watch?v=2ZXrgGyhbak

Amaç, moda ve giyim pazarı için 'sanal denemeler'e olanak tanıyan yeni sistemler yaratmaktır; bu sistemler, gerçek zamanlı denemelerin hantallığı olmadan hem müşteriye hem de halihazırda mevcut olan veya piyasaya sürülmek üzere olan belirli ürüne uyum sağlayabilir. üst üste binme of Giyimveya müşterilerden isteme ihtiyacı biraz NSFW resimleri gönder makine öğrenimi tabanlı işleme ardışık düzenleri için.

Popüler sentez mimarilerinin hiçbiri bu göreve kolaylıkla uyarlanabilecek gibi görünmüyor: gizli alan Üretici Düşman Ağların (GAN'lar) yüzdesi, inandırıcı zamansal hareket (hatta düzenleme için Genel olarak); Yine de yetenekli gerçekçi insan hareketi oluşturmak, Nöral Parlaklık Alanları (NeRF) genellikle doğal olarak dayanıklı isteğe bağlı olarak insanları veya kıyafetleri 'değiştirmek' için gerekli olan düzenleme türüne; oto kodlayıcılar zahmetli kişi/kıyafet özelinde eğitim gerektirir; ve GAN'lar gibi gizli yayılma modelleri, video üretimi için sıfır yerel zamansal mekanizmaya sahiptir.

EVA3D

Bununla birlikte, belgeler ve teklifler devam ediyor. Sonuncusu, başka türlü ayırt edilemeyen ve yalnızca iş odaklı bir araştırma hattında alışılmadık bir ilgi görüyor.

EVA3DSingapur'un Nanyang Teknoloji Üniversitesi'nden olan bu çalışma, uzun zamandır beklenen bir yaklaşımın ilk göstergesidir: çoklu Her biri vücudun ayrı bir bölümüne ayrılan ve daha sonra bir araya getirilmiş ve tutarlı bir görselleştirme halinde birleştirilen Nöral Aydınlık Alan ağları.

EVA3D için birden fazla NeRF ağından birleştirilmiş mobil bir genç kadın. Kaynak: https://hongfz16.github.io/projects/EVA3D.html

Hareket açısından sonuçlar... fena değil. EVA3D'nin görselleştirmeleri çok iyi olmasa da, en azından durdukları yerden çıkış rampasını görebiliyorlar.

EVA3D'yi olağanüstü kılan şey, tam vücut görüntü sentezi sektöründe neredeyse benzersiz olan arkasındaki araştırmacıların, tek bir ağın (GAN, NeRF veya başka türlü) düzenlenebilir ve esnek insan tam- kısmen araştırmaların hızından ve kısmen de donanım ve diğer lojistik sınırlamalardan dolayı.

Bu nedenle, Nanyang ekibi görevi 16 ağ ve çoklu teknolojiler arasında alt bölümlere ayırdı; Blok-NeRF ve ŞehirNeRFve yeni kavramsal veya donanım gelişmelerine bağlı olarak, önümüzdeki beş yıl içinde tam vücut deepfake'lerine ulaşmak için giderek daha ilginç ve potansiyel olarak verimli bir yarı yol önlemi haline gelmesi muhtemel görünüyor.

Bu tür bir 'sanal deneme' yaratmada karşılaşılan tüm zorluklar teknik veya lojistik değildir ve makalede, özellikle gözetimsiz öğrenmeyle ilgili olarak bazı veri sorunları özetlenmektedir:

'[Moda] veri kümeleri çoğunlukla çok sınırlı insan pozları (çoğu benzer ayakta durma pozlarıdır) ve oldukça dengesiz görüş açıları (çoğu önden görünümdür) içerir. Bu dengesiz 2B veri dağılımı, 3B GAN'ların gözetimsiz öğrenmesini engelleyerek yeni görünüm/poz sentezinde zorluklara yol açabilir. Bu nedenle, sorunu hafifletmek için uygun bir eğitim stratejisine ihtiyaç vardır.'

EVA3D iş akışı, insan vücudunu her biri kendi NeRF ağı üzerinden oluşturulan 16 ayrı parçaya böler. Bu, hareket yakalama veya diğer hareket verileriyle figürü canlandırmak için yeterli sayıda "donmamış" bölüm oluşturur. Ancak bu avantajın yanı sıra, sistemin vücudun genel izlenimi "satan" kısımlarına maksimum kaynak ayırmasına da olanak tanır.

Örneğin, insan ayakları çok sınırlı bir artikülasyon aralığına sahipken, genel olarak tüm vücut hareketinin kalitesinin yanı sıra yüzün ve başın özgünlüğü, sunum için özgünlüğün odak noktası olabilir.

EVA3D ve önceki yöntemler arasında niteliksel bir karşılaştırma. Yazarlar, SOTA'nın bu açıdan sonuç verdiğini iddia etmektedir.

Bu yaklaşım, kavramsal olarak ilişkili olduğu NeRF merkezli projeden kökten farklıdır - 2021'in A-NeRFBritish Columbia Üniversitesi ve Reality Labs Research'ten gelen bir çalışma, geleneksel olarak tek parçadan oluşan NeRF temsiline dahili bir kontrol iskeleti eklemeyi ve böylece ihtiyaç temelinde vücudun farklı bölgelerine işlem kaynakları tahsis etmeyi zorlaştırmayı amaçlıyor.

Önceki hareketler – A-NeRF, VFX endüstrisinin CGI karakterlerini canlandırmak için çok uzun süredir kullandığı aynı tür sünek ve mafsallı merkezi teçhizatla 'pişmiş' bir NeRF'yi donatıyor. Kaynak: https://lemonatsu.github.io/anerf/

Önceki önergeler – A-NeRF, 'fırınlanmış' bir NeRF'ü, VFX sektörünün uzun zamandır CGI karakterlerini canlandırmak için kullandığı aynı tür esnek ve eklemli merkezi donanımla donatıyor. Kaynak: https://lemonatsu.github.io/anerf/

Çeşitli popüler yaklaşımların gizli alanından yararlanmaya çalışan benzer insan merkezli projelerin çoğuyla ortak olarak, EVA3D Dış Görünümlü Çok Kişili Doğrusal Model kullanır (SMPL), mevcut sentez yöntemlerinin genel soyutlamasına araçsallık katmak için 'geleneksel' bir CGI tabanlı yöntemdir. Bu yılın başlarında, bu kez Hangzhou'daki Zhejiang Üniversitesi ve Hong Kong Şehir Üniversitesi Yaratıcı Medya Okulu'ndan bir başka makale, bu yöntemleri kullanarak nöral vücut yeniden şekillendirme.

EVA3D'nin DeepFashion üzerindeki kalitatif sonuçları.

EVA3D'nin DeepFashion'daki nitel sonuçları.

Yöntem

İşlemde kullanılan SMPL modeli, insan 'önceki durumuna', yani esasen EVA3D tarafından gönüllü olarak deepfake edilen kişiye göre ayarlanmıştır ve deri değiştirme ağırlıkları, kanonik uzay (yani bir SMPL modelinin 'hareketsiz' veya 'nötr' pozu) ile nihai görünümün işlenme şekli arasındaki farkları müzakere eder.

EVA3D için kavramsal iş akışı. Kaynak: https://arxiv.org/pdf/2210.04888.pdf

Yukarıdaki çizimde görüldüğü gibi, SMPL'nin sınırlayıcı kutuları, sonunda gövdeyi oluşturacak olan 16 ağ için sınır tanımları olarak kullanılır. Ters Doğrusal Karışım Dış Görünümü SMPL'nin (LBS) algoritması daha sonra görünür örneklenmiş ışınları kanonik (pasif poz) uzaya aktarmak için kullanılır. Ardından, bu yapılandırmalara dayalı olarak 16 alt ağ sorgulanır ve nihai olarak nihai bir işlemeye uyarlanır.

NeRF bileşiminin tamamı daha sonra bir 3B insan GAN çerçevesi oluşturmak için kullanılır.

İkinci aşama GAN çerçevesinin görselleştirmeleri, nihai olarak, insan/modanın gerçek 2B görüntü koleksiyonlarına karşı eğitilecektir.

İnsan vücudunun bir bölümünü temsil eden her bir alt ağ, istiflenmiş Çok Katmanlı Algılayıcılardan (MLP'ler) oluşur. SİREN (Sinüzoidal Temsil Ağları) aktivasyonu. SIREN, bunun gibi bir iş akışında ve benzer projelerde pek çok sorunu çözse de, genelleme yapmak yerine fazla uydurma eğilimindedir ve araştırmacılar gelecekte alternatif kitaplıkların kullanılabileceğini öne sürmektedir (makalenin sonuna bakın).

Veriler, Eğitim ve Testler

EVA3D, alternatif veya yeni görüşlerden yoksun olma eğiliminde olan ve dikkati odaklamak için belki de kasıtlı olarak tekrarlayan moda tabanlı veri kümelerinde bulunan pozların sınırlamaları ve şablonlu stili nedeniyle olağandışı veri sorunlarıyla karşı karşıyadır. onları giyen insandan ziyade giysiler.

Bu dengesiz poz dağılımı nedeniyle EVA3D, SMPL şablon geometrisine dayalı olarak insan önceliklerini (yukarıya bakın) kullanır ve ardından bir İşaretli Mesafe Alanı (SDF) basit bir hedef pozu yerine bu pozun dengelenmesi.

Destekleyici deneyler için araştırmacılar dört veri seti kullandı: Derin Moda; SHHQ; UBCModa; ve AIST Dans Video Veritabanı (AIST Dans DB).

Son ikisi, ilk ikisinden daha çeşitli pozlar içerir, ancak aynı bireyleri tekrar tekrar temsil eder, bu da aksi takdirde yararlı olan bu çeşitliliği iptal eder; kısacası, görev verildiğinde veriler zorlayıcı olmaktan çok daha fazlasıdır.

SSHQ'dan örnekler. Kaynak: https://arxiv.org/pdf/2204.11823.pdf

Kullanılan taban çizgileri ENARF-GAN2D görüntü veri kümelerinden NeRF görsellerini işleyen ilk proje; Stanford ve NVIDIA'nın EG3D; Ve StilSDF, Washington Üniversitesi, Adobe Research ve Stanford Üniversitesi arasındaki bir işbirliği - yerelden yüksek çözünürlüğe ölçeklendirmek için süper çözünürlüklü kitaplıklar gerektiren tüm yöntemler.

Kabul edilen metrikler tartışmalı Frechet Başlangıç Mesafesi (FID) ve Çekirdek Başlangıç Mesafesi (ÇOCUK), Doğru Anahtar Noktaların Yüzdesi ([e-posta korumalı]).

Kantitatif değerlendirmelerde EVA3D, dört veri kümesindeki tüm metriklere öncülük etti:

Nicel sonuçlar.

Araştırmacılar, EVA3D'nin bu tür bir projede kritik bir faktör olan geometri oluşturma için en düşük hata oranını elde ettiğini belirtiyor. Ayrıca, sistemlerinin oluşturulan pozu kontrol edebildiğini ve daha yüksek performans elde edebildiğini gözlemlerler. [e-posta korumalı] puanlar, bir kategoride daha yüksek puan alan tek rakip yöntem olan EG3D'nin aksine.

EVA3D, yerel olarak şimdiye kadarki standart 512x512 piksel çözünürlükte çalışır, ancak Google'ın kısa süre önce 1024 çözünürlüklü metinden videoya teklifiyle yaptığı gibi, üst düzey katmanları bir araya getirerek kolayca ve etkili bir şekilde HD çözünürlüğe yükseltilebilir. Görüntü Videosu.

Yöntem sınırsız değildir. Belgede, SIREN aktivasyonunun, 3D kod çözücü ile kombinasyon halinde EG2D gibi alternatif bir temel temsil kullanılarak gelecekteki sürümlerde giderilebilecek dairesel eserlere neden olabileceği belirtilmektedir. Ek olarak, SMPL'yi moda veri kaynaklarına tam olarak uydurmak zordur.

Son olarak, sistem, büyük elbiseler gibi daha büyük ve daha akıcı giysileri kolayca barındıramaz; bu tip giysiler, sinirsel olarak oluşturulmuş saçların yaratılmasını sağlayan aynı türde akışkan dinamiği sergiler. böyle bir meydan okuma. Muhtemelen, uygun bir çözüm her iki sorunu da çözmeye yardımcı olabilir.

İlk olarak 12 Ekim 2022'de yayınlandı.

İlgili konular:Çin DeepFakes görüntü sentezi araştırma

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

Birden Çok NeRF'yi Birleştirerek Tam Vücut Deepfake'leri Oluşturma

EVA3D

Yöntem

Veriler, Eğitim ve Testler

Beğenebilirsin