Connect with us

Yapay Zekâ

RigNeRF: Derin Sahtekarlık için Yeni Bir Yöntem – Neural Radiance Fields Kullanımı

mm

Adobe’de geliştirilen yeni bir araştırma, Neural Radiance Fields (NeRF) – belki de 2017’de derin sahtekarlıkların ortaya çıkmasından bu yana ilk gerçek mimari veya yaklaşım yeniliği – temelinde ilk uygulanabilir ve etkili derin sahtekarlık yöntemini sunuyor.

Bu method, RigNeRF olarak adlandırılıyor ve Neural Radiance Fields (NeRF) – vielleicht ilk gerçek mimari veya yaklaşım yeniliği – temelinde ilk uygulanabilir ve etkili derin sahtekarlık yöntemini sunuyor. Bu method, 3D morphable face modellerini (3DMMs) girdi olarak (yani NeRF renderına uygulanacak kimlik) ve nöral uzay arasında bir aracı katman olarak kullanıyor. Bu approach, son yıllarda Genel Adversarial Network (GAN) yüz sentezleme yaklaşımları tarafından yaygın olarak benimsenmiştir, ancak bunlar arasında işlevsel ve faydalı yüz değiştirme çerçeveleri üretemeyenler vardır.

Yeni makale için ek materyallerden, 3D morphable face modelinin (3DMM) 70 saniyelik gerçek görüntüleri (akıllı telefon ile çekilen) ve Neural Radiance Field görselleştirmesinin genellikle stoik parametreleri arasında bir arayüz olarak hareket ettiğini görüyoruz. Bu klipin yüksek çözünürlüklü bir versiyonu ve diğer birçok örnek için lütfen projenin sayfasını veya bu makalenin sonundaki gömülü videoları ziyaret edin. Kaynak: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Tradisyonel derin sahtekarlık videolarının aksine, burada görünen hareketli içeriklerin hiçbiri ‘gerçek’ değil, ancak brief footage ile eğitilen bir nöral uzaydır. Sağ tarafta, 3D morphable face modelinin (3DMM) istenen manipülasyonlar (‘gülümse’, ‘sola bak’, ‘yukarı bak’ vs.) ve Neural Radiance Field görselleştirmesinin genellikle erişilemeyen parametreleri arasında bir arayüz olarak hareket ettiğini görüyoruz. Bu klipin yüksek çözünürlüklü bir versiyonu ve diğer örnekler için lütfen projelerin sayfasını veya bu makalenin sonundaki gömülü videoları ziyaret edin. Kaynak: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMM’ler temelde yüzlerin CGI modelleridir ve parametreleri daha soyut görüntü sentezleme sistemlerine, örneğin NeRF ve GAN’a uyarlanabilir.

Yukarıdaki resimdeki (orta resim, mavi gömlekli adam) ve aşağıdaki resimdeki (sol resim, mavi gömlekli adam) görünen şey, ‘gerçek’ bir video değil, tamamen sentezlenmiş bir sahnedir – vücut ve arka plan dahil:

Yukarıdaki örnekte, sağ taraftaki gerçek video (kırmızı elbise giyen kadın) sol taraftaki yakalanan kimliği (mavi gömlekli adam) RigNeRF aracılığıyla ‘kukla’ olarak kullanıyor, bu da (yazarların iddia ettiği üzere) ilk NeRF tabanlı sistemdir ve poz ve ifadeyi ayırabilir ve yeni görüş sentezleri gerçekleştirebilir.

Sol taraftaki erkek figürü, 70 saniyelik bir akıllı telefon videosundan ‘yakalanmıştır’ ve girdi verisi (tüm sahne bilgisi dahil) 4 V100 GPU’da eğitilerek sahne elde edilmiştir.

3DMM tarzı parametrik rig’ler aynı zamanda tüm vücut parametrik CGI proxy’leri olarak mevcuttur (sadece yüz rig’leri değil), RigNeRF böylece tam vücut derin sahtekarlıklarının olasılığını açar, burada gerçek insan hareketi, doku ve ifade, CGI tabanlı parametrik katmana aktarılır ve bu da eylem ve ifadeyi render edilmiş NeRF ortamları ve videolara çevirir.

RigNeRF – mevcut anlamda bir derin sahtekarlık yöntemi midir? Veya sadece DeepFaceLab ve diğer 2017 dönemi oto-encoder derin sahtekarlık sistemlerine göre yarı engelli bir başka yöntem midir?

Yeni makalenin araştırmacıları bu konuda nettir:

‘Yüzleri canlandırabilen bir method olarak, RigNeRF kötü aktörler tarafından derin sahtekarlıklar üretmek için suistimal edilmeye eğilimlidir.’

Yeni makale RigNeRF: Tamamen Kontrol Edilebilir Nöral 3D Portreler olarak adlandırılmış ve Stonybrook Üniversitesi’nden ShahRukh Atha ve Adobe Research’ten dört diğer yazar tarafından yazılmıştır.

Oto-Encoder Tabanlı Deepfakes’in Ötesinde

Son birkaç yıldır başlıkları ele geçiren majority viral derin sahtekarlıklar, oto-encoder tabanlı sistemler tarafından üretilmiştir, 2017’de r/deepfakes subreddit’de yayınlanan koddan türetilmiştir – ancak önce GitHub’a kopyalanmıştır, burada şu anda binlerce kez forklanmıştır, en azından DeepFaceLab dağıtımı ve FaceSwap projesine dahil edilmiştir.

GAN ve NeRF’nin yanı sıra, oto-encoder çerçeveleri de yüz sentezleme çerçeveleri için ‘kılavuz’ olarak 3DMM’leri denemiştir. Bir örnek, Temmuz 2021’den HifiFace projesidir. Ancak, bu yaklaşımdan şimdiye kadar hiçbir uygulanabilir veya popüler girişim geliştirilmemiştir.

RigNeRF sahneleri için veriler, kısa akıllı telefon videoları aracılığıyla elde edilir. Projede, RigNeRF araştırmacıları tüm deneyler için iPhone XR veya iPhone 12 kullanmıştır. Kaydın ilk yarısında, konu çeşitli yüz ifadeleri ve konuşma yaparken başını sabit tutarken kamera etrafında hareket ettirilir.

Kaydın ikinci yarısında, kamera sabit bir konumda kalırken, konu başını etrafında hareket ettirir ve çeşitli ifadeler gösterir. Sonuç olarak, 40-70 saniye (yaklaşık 1200-2100 kare)lik bir veri seti elde edilir ve bu da modeli eğitmek için kullanılacaktır.

Veri Toplama Süresini Kısaltma

Karşılaştırıldığında, oto-encoder sistemleri gibi DeepFaceLab, çeşitli fotoğrafların (çoğunlukla YouTube videoları ve diğer sosyal medya kanallarından alınan) ve filmlerden (ünlü derin sahtekarlıklar için) toplanması ve düzenlenmesi gerekir.

Sonuç olarak elde edilen eğitilmiş oto-encoder modelleri genellikle çeşitli durumlar için kullanılır. Ancak, en titiz ‘ünlü’ derin sahtekarlık yapanlar, tek bir video için tüm modelleri sıfırdan eğitebilir, eğitimin bir hafta veya daha uzun sürebileceği halde.

Yeni makalenin araştırmacılarının uyarısına rağmen, AI porn ve popüler YouTube/TikTok ‘derin sahtekarlık yeniden dağıtımı’ için kullanılan ‘yama’ ve geniş olarak derlenen veri setleri, sahne özgü metodolojiye sahip bir derin sahtekarlık sistemi olan RigNeRF’de kabul edilebilir ve tutarlı sonuçlar üretmeyeunlikely görünüyor. Veri toplama kısıtlamaları, bu tür kimlik suistimaline karşı ek bir güvenlik önlemi olabilir.

NeRF’i Derin Sahtekarlık Videosuna Uyarlama

NeRF, bir dizi kaynak resmin çeşitli açılardan birleştirilerek keşfedilebilen bir 3D nöral uzay oluşturulan bir fotogrametri tabanlı yöntemdir. Bu yaklaşım, NVIDIA’nın Instant NeRF sistemini tanıttığında öne çıktı, bu da NeRF için eğitim sürelerini dakika veya saniyelere indirgeyebiliyor:

Instant NeRF. Kaynak: https://www.youtube.com/watch?v=DJ2hcC1orc4

Sonuç olarak elde edilen Neural Radiance Field sahnesi, temelde statik bir ortamdır ve keşfedilebilir, ancak düzenlemek zordur. Araştırmacılar, iki önceki NeRF tabanlı girişimin – HyperNeRF + E/P ve NerFACE – yüz video sentezlemesine yönelik bir girişimde bulunduğunu, ancak (muhtemelen tamamlık ve özen için) RigNeRF’i bu iki çerçeve ile test etmişlerdir:

Instant NeRF. Kaynak: https://www.youtube.com/watch?v=DJ2hcC1orc4

RigNeRF, HyperNeRF ve NerFACE arasında nitel bir karşılaştırma. Bağlı kaynak videoları ve PDF için daha yüksek kaliteli sürümler için lütfen ziyaret edin. Statik görüntü kaynağı: https://arxiv.org/pdf/2012.03065.pdf

RigNeRF, HyperNeRF ve NerFACE arasında nitel bir karşılaştırma. Bağlı kaynak videoları ve PDF için daha yüksek kaliteli sürümler için lütfen ziyaret edin. Statik görüntü kaynağı: https://arxiv.org/pdf/2012.03065.pdf

Ancak bu durumda, RigNeRF’i destekleyen sonuçlar, iki nedenle assez anormaldır: ilk olarak, yazarlar ‘elma ile elma karşılaştırması için mevcut bir çalışma olmadığını’ gözlemlemektedir; ikinci olarak, bu, RigNeRF’in yeteneklerinin daha kısıtlı önceki sistemlerin kısmen eşleştirilmesi gerektiği anlamına gelmektedir.

Sonuçlar, önceki çalışmaların üzerine yapılan bir geliştirme değil, NeRF düzenlenebilirliği ve faydasında bir ‘kırılma’ noktasını temsil ettiğinden, test turunu bir kenara bırakacağız ve RigNeRF’in önceki sistemlerden farklı olarak ne yaptığını göreceğiz.

Birleşik Güçler

NerFACE’in temel kısıtlaması, kaynak görüntülerin statik bir kamera ile çekildiğini varsaymasıdır, bu da yalnızca ‘hareketli portreler’ oluşturabilir, ancak derin sahtekarlık tarzı video için uygun değildir.

HyperNeRF ise, yeni ve gerçekçi görüntüler üretebilir, ancak baş pozisyonlarını veya yüz ifadelerini değiştirmek için herhangi bir araç sağlamaz, bu da derin sahtekarlık için bir rakip oluşturmaz.

RigNeRF, 3DMM modülünden girdi alan ‘kanonik bir uzay’ oluşturarak bu iki ayrı işlevi birleştirebiliyor, bu da deformasyonlar ve değişikliklere izin veriyor.

Deformasyonlar (yani pozlar ve ifadeler) için bir 'kanonik uzay' (poz veya ifade yok) oluşturma.

Deformasyonlar (yani pozlar ve ifadeler) için bir ‘kanonik uzay’ (poz veya ifade yok) oluşturma.

3DMM sistemi, yakalanan konuya tam olarak eşleşmeyebilir, bu nedenle bu süreci telafi etmek önemlidir. RigNeRF, bu deformasyon alanını, kaynak görüntüden türetilen bir Multilayer Perceptron (MLP) kullanarak hesaplar.

Kamera parametreleri, deformasyonların hesaplanması için COLMAP aracılığıyla elde edilir, her kare için ifade ve şekil parametreleri ise DECA aracılığıyla elde edilir.

Konum, landmark fitting ve COLMAP’ın kamera parametreleri aracılığıyla daha da optimize edilir ve, donanım kısıtlamaları nedeniyle, video çıkışı eğitim için 256×256 çözünürlüğe küçültülür (oto-encoder derin sahtekarlık sahnesini de etkileyen bir donanım kısıtlamalı bir küçültme işlemi).

Sonuç olarak, araştırmacılar şunları belirtiyorlar:

‘Diğer yöntemlerin aksine, RigNeRF, 3DMM rehberli deformasyon modülünün kullanılması sayesinde, baş pozisyonu, yüz ifadeleri ve tam 3D portre sahnesini yüksek doğrulukla modelleyebiliyor, böylece daha iyi yeniden yapılandırmalar ve keskin ayrıntılar elde ediliyor.’

Ayrıntılı bilgiler ve sonuç videoları için lütfen aşağıdaki gömülü videoları ziyaret edin.

 

 

İlk olarak 15 Haziran 2022’de yayınlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]