Bizimle iletişime geçin

Yapay Zeka

'Geleneksel' CGI için Yüz Oluşturucu Olarak GAN

mm

Görüş Üretken Düşman Ağlar (GAN'lar) şaşırtıcı bir şekilde yeniden üretme yeteneklerini ilk kez gösterdiklerinde реалистичный,en 3D yüzler, geliş, insan yüzlerini içeren geçici olarak tutarlı videolar oluşturmak için GAN'ların keşfedilmemiş potansiyeli için bir altına hücumu tetikledi.

GAN'ın gizli uzayında bir yerlerde, öyle görünüyordu ki , eğer mülteci statüleri sona erdirilmemişse Amerika'ya geldikten bir yıl sonra gizli düzen ve rasyonellik - bir GAN'ın tutarlı çoklu görünümler ve çoklu yorumlar (ifade değişiklikleri gibi) üretmesine izin verecek, gizli kodlara gömülmüş, yeni oluşan bir anlamsal mantık şeması aynı yüz - ve ardından geçici olarak ikna edici bir deepfake video yöntemi sunar. otomatik kodlayıcılar suyun dışında.

GPU kısıtlamalarının DeepFaceLab ve FaceSwap'ı çalışmaya zorladığı gecekondu benzeri düşük çözünürlüklü ortamlarla karşılaştırıldığında, yüksek çözünürlüklü çıktı önemsiz olurdu; bir yüzün 'değiştirme bölgesi' (otomatik kodlayıcı iş akışlarında) ise bir avuç girdi görüntüsü veya hatta tek bir görüntü tarafından bilgilendirilen bir GAN'ın 'oluşturma bölgesi' haline gelirdi.

'Takas' ve 'ana bilgisayar' yüzleri arasında artık uyumsuzluk olmayacaktı, çünkü bütünlük Görüntünün tamamı sıfırdan oluşturulacak, buna saç, çene çizgileri ve yüz hatlarının en dış kısımları da dahil olacak ve bu da sıklıkla 'geleneksel' oto kodlayıcı deepfake'ler için zorluk teşkil ediyor.

GAN Cilt Bakımı Videosu Kış

Ortaya çıktığı gibi, neredeyse o kadar kolay olmayacaktı. En sonunda, çözülme ana sorunu kanıtladı ve birincil zorluk olmaya devam ediyor. Otomatik kodlayıcı sistemlerinin çok zahmetli bir şekilde yaptığı gibi, bu değişiklikler yürürlüğe girdiğinde ne olduğunu bir sinir ağına öğreten binlerce referans görüntüden oluşan bir külliyatı bir araya toplamadan, belirgin bir yüz kimliğini nasıl koruyabilir ve onun pozunu veya ifadesini nasıl değiştirebilirsiniz?

Bunun yerine, GAN yüz canlandırma ve sentez araştırmasındaki sonraki düşünce, bir girdi kimliğinin belki de teleolojik, jenerik, şablonlu kimliğe özgü olmayan dönüşümler. Buna örnek olarak, bir GAN yüzüne, GAN'ın bildiği o kişinin görüntülerinden hiçbirinde olmayan bir ifade uygulamak verilebilir.

StyleGAN Latent Space'te 2022 tarihli Tensor-based Emotion Editing makalesinden, şablonlu ifadeler, FFHQ veri kümesinden bir giriş yüzüne uygulanır. Kaynak: https://arxiv.org/pdf/2205.06102.pdf

StyleGAN Latent Space'te 2022 tarihli Tensor-based Emotion Editing makalesinden, FFHQ veri kümesinden bir giriş yüzüne şablonlu ifadeler uygulanır. Kaynak: https://arxiv.org/pdf/2205.06102.pdf

"Herkese uyan tek bir yaklaşımın", bir bireye özgü yüz ifadelerinin çeşitliliğini kapsayamayacağı aşikar. Jack Nicholson veya Willem Dafoe'nunki kadar benzersiz bir gülümsemenin, böylesi "ortalama ortalama ifade" gizli kodlarının etkisi altında, sadık bir yoruma sahip olup olamayacağını merak etmeliyiz.

Bu büyüleyici Latin yabancı kim? GAN yöntemi daha gerçekçi ve daha yüksek çözünürlüklü bir yüz üretse de, binlerce kişiden oluşan bir veritabanında kapsamlı bir şekilde ve çoğu zaman bir miktar masrafla eğitim veren DeepFaceLab'da olduğu gibi, dönüşüm, aktörün birden fazla gerçek dünya görüntüsü tarafından bilgilendirilmez. bu tür görüntüler Burada (arka planda) bir DeepFaceLab modeli, popüler ve tartışmalı yazılımın bir akış uygulaması olan DeepFaceLive'a aktarılmıştır. Örnekler https://www.youtube.com/watch?v=9tr35y-yQRY (2022) ve https://arxiv.org/pdf/2205.06102.pdf'dendir.

Bu büyüleyici Latin yabancı kim? GAN yöntemi daha "gerçekçi" ve daha yüksek çözünürlüklü bir yüz üretse de, dönüşüm, binlerce benzer görüntüden oluşan bir veritabanı üzerinde kapsamlı bir şekilde eğitim alan DeepFaceLab'de olduğu gibi, aktörün birden fazla gerçek dünya görüntüsünden etkilenmez ve sonuç olarak benzerlik bozulur. Burada (arka plan), bir DeepFaceLab modeli içe aktarılır. DerinYüzCanlı, popüler ve tartışmalı yazılımın bir akış uygulaması. Örnekler https://www.youtube.com/watch?v=9tr35y-yQRY (2022) ve https://arxiv.org/pdf/2205.06102.pdf'dendir.

Son birkaç yılda, çoğu GAN yüz ifadesi düzenleyicisi ortaya atılmıştır. bilinmeyen kimliklerle uğraşmak, dönüşümlerin aslına uygunluğunu sıradan okuyucunun bilmesinin imkansız olduğu, çünkü bunlar tanıdık yüzler değil.

Cascade-EF-GAN sunan 2020'de belirsiz kimlikler dönüştü. Kaynak: https://arxiv.org/pdf/2003.05905.pdf

Cascade-EF-GAN sunan 2020'de belirsiz kimlikler dönüştü. Kaynak: https://arxiv.org/pdf/2003.05905.pdf

Belki de son üç yılda en çok ilgi (ve alıntı) alan GAN yüz editörü ArayüzGAN, poz (kamera/yüz açısı), ifade, yaş, ırk, cinsiyet ve diğer temel niteliklerle ilgili gizli kodlarda gizli uzay geçişleri gerçekleştirebilir.

InterFaceGAN ve benzeri çerçevelerin 1980'ler tarzı "dönüştürme" yetenekleri, esas olarak bir görüntünün uygun bir gizli kod (örneğin "yaş") aracılığıyla yeniden yansıtılmasıyla dönüşüme giden yolu göstermenin bir yoludur. Zamansal sürekliliğe sahip video görüntüleri üretme açısından, bu tür planlar bugüne kadar "etkileyici felaketler" olarak nitelendirilmiştir.

buna eklerseniz geçici olarak tutarlı saç oluşturmanın zorluğuve gizli kod keşfetme/manipülasyon tekniğinin çalışmak için doğuştan gelen zamansal yönergeleri olmadığı gerçeği (ve bu tür yönergeleri barındırmak ve hareketsiz görüntüler oluşturmak için tasarlanmış ve yerel bir hükmü olmayan bir çerçeveye nasıl enjekte edileceğini bilmek zordur) video çıkışı için), yüz video sentezi için GAN'ın All You Need™ olmadığı sonucuna varmak mantıklı olabilir.

Bu nedenle, sonraki çabalar sonuç verdi. artımlı iyileştirmeler Diğerleri ise 2021 sonlarında kontrol mekanizması olarak anlamsal segmentasyonun kullanımı gibi, bilgisayar görüşündeki diğer kuralları bir 'kılavuz katmanı' olarak benimsediler. kâğıt SemanticStyleGAN: Kontrol Edilebilir Görüntü Sentezi ve Düzenleme için Kompozisyon Üretken Öncelikler Öğrenme.

SemanticStyleGAN'da bir gizli alan araçsallığı yöntemi olarak anlamsal bölümleme. Kaynak: https://semanticstylegan.github.io/

SemanticStyleGAN'da bir gizli alan araçsallığı yöntemi olarak anlamsal bölümleme. Kaynak: https://semanticstylegan.github.io/

Parametrik Rehberlik

GAN yüz sentezi araştırma topluluğu, GAN'ın gizli alanındaki etkileyici ancak asi gizli kodları yönlendirmek ve düzene sokmak için bir yöntem olarak giderek daha fazla 'geleneksel' parametrik CGI yüzlerinin kullanımına yöneliyor.

Parametrik yüz ilkelleri, bilgisayarla görme araştırmalarının temelini oluştursa da, yirmi yıldan fazla, son zamanlarda Skinned Multi-Person Linear Model'in kullanımının artmasıyla bu yaklaşıma olan ilgi arttı (SMPL) Max Planck Enstitüsü ve ILM'nin öncülüğünü yaptığı ve o zamandan beri Seyrek Eğitilmiş Eklemli İnsan Vücudu Regresörü ile geliştirilmiş bir yaklaşım olan CGI ilkelleri (YILDIZ) çerçeve.

SMPL (bu durumda SMPL-X olarak adlandırılan bir değişken), bir görüntüde yer alan insan vücudunun tamamının tahmini pozuyla (gerektiğinde ifadeler dahil) uyumlu olan bir CGI parametrik ağı empoze edebilir ve yeni işlemlerin gerçekleştirilmesine olanak tanır. hacimsel veya algısal bir kılavuz olarak parametrik ağı kullanan görüntü. Kaynak: https://arxiv.org/pdf/1904.05866.pdf

SMPL (bu durumda adı verilen bir varyant) SMPL-X), bir görüntüde yer alan insan vücudunun tamamının tahmini pozuyla (gerektiğinde ifadeler dahil) uyumlu bir CGI parametrik ağı empoze ederek, parametrik ağı hacimsel veya algısal olarak kullanarak görüntü üzerinde yeni işlemlerin gerçekleştirilmesine olanak tanır. yönerge. Kaynak: https://arxiv.org/pdf/1904.05866.pdf

Bu alandaki en beğenilen gelişme Disney'in 2019'daki Stil ile İşleme Geleneksel doku haritalarının GAN tarafından üretilen görsellerle birleştirilerek geliştirilmiş, 'deepfake tarzı' animasyonlu çıktılar yaratmayı amaçlayan girişim.

Disney'in GAN tarafından oluşturulan derin sahtekarlıklara hibrit yaklaşımında eski yeniyle buluşuyor. Kaynak: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disney'in GAN ile üretilen deepfake'lere yönelik hibrit yaklaşımında eskiyle yeni buluşuyor. Kaynak: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disney yaklaşımı, video üretimi için zamansal tutarlılığın sorun olduğu 'sorunlu alanlarda' (örneğin cilt dokusu gibi) insan yüzlerini 'boyama' amacıyla geleneksel olarak oluşturulmuş CGI yönlerini bir StyleGAN2 ağına yerleştirir.

Stil ile İşleme iş akışı.

Stil ile İşleme iş akışı.

Bu sürece rehberlik eden parametrik CGI kafası, kullanıcıya uyacak şekilde ayarlanabildiği ve değiştirilebildiği için, GAN tarafından oluşturulan yüz, başın duruşu ve ifadesindeki değişiklikler de dahil olmak üzere bu değişiklikleri yansıtabilir.

CGI araçsallığını GAN yüzlerinin doğal gerçekçiliğiyle birleştirmek üzere tasarlanmış olsa da, sonuçta sonuçlar her iki dünyanın da en kötüsünü gösteriyor ve yine de saç dokusunu ve hatta temel özellik konumlandırmasını tutarlı tutmada başarısız oluyor:

Rendering with Style'dan yeni bir tür tekinsiz vadi ortaya çıkıyor, ancak prensip hâlâ bir miktar potansiyel taşıyor.

Rendering with Style'dan yeni bir tür tekinsiz vadi ortaya çıkıyor, ancak prensip hâlâ bir miktar potansiyel taşıyor.

The 2020 kâğıt StyleRig: Portre Görüntüleri Üzerinde 3D Kontrol için StyleGAN Donanımı kullanımıyla giderek daha popüler bir yaklaşım benimsiyor. üç boyutlu değiştirilebilir yüz modelleri (3DMM'ler), bir StyleGAN ortamındaki özellikleri değiştirmek için proxy'ler olarak, bu durumda RigNet adlı yeni bir arma ağı aracılığıyla:

3DMM'ler, StyleRig'de gizli alan yorumlamaları için proxy'ler olarak duruyor. Kaynak: https://arxiv.org/pdf/2004.00121.pdf

3DMM'ler, StyleRig'de gizli alan yorumlamaları için proxy'ler olarak duruyor. Kaynak: https://arxiv.org/pdf/2004.00121.pdf

Ancak, bu tür girişimlerde her zaman olduğu gibi, bugüne kadar elde edilen sonuçlar, minimal poz manipülasyonları ve 'bilgisiz' ifade/duygu değişiklikleriyle sınırlı görünüyor.

StyleRig, kontrol seviyesini geliştirir, ancak geçici olarak tutarlı saçlar çözülmemiş bir sorun olmaya devam eder. Kaynak:

StyleRig, kontrol seviyesini geliştirir, ancak geçici olarak tutarlı saçlar çözülmemiş bir sorun olmaya devam eder. Kaynak: https://www.youtube.com/watch?v=eaW_P85wQ9k

Mitsubishi Research'ün benzer çıktıları da bulunabilir MOST-GAN, bir 2021 kâğıt çözme mimarisi olarak doğrusal olmayan 3DMM'leri kullanan, ancak aynı zamanda mücadele dinamik ve tutarlı hareket elde etmek için.

Araçsallık ve çözme girişiminde bulunan en son araştırma, Megapiksellerde Tek Çekim Yüz Canlandırması, yine StyleGAN için kullanıcı dostu bir arayüz olarak 3DMM parametrik kafaları kullanır.

One-Shot Face Reenactment'in MegaFR iş akışında ağ, ters çevrilmiş bir gerçek dünya görüntüsünü işlenmiş bir 3DMM modelinden alınan parametrelerle birleştirerek yüz sentezi gerçekleştirir. Kaynak: https://arxiv.org/pdf/2205.13368.pdf

One-Shot Face Reenactment'in MegaFR iş akışında ağ, ters çevrilmiş bir gerçek dünya görüntüsünü işlenmiş bir 3DMM modelinden alınan parametrelerle birleştirerek yüz sentezi gerçekleştirir. Kaynak: https://arxiv.org/pdf/2205.13368.pdf

OSFR, kullanıcının ilgili gizli kodlar için gizli alanda gezinmek yerine, üzerinde dönüşümlerin uygulanabileceği istenen bir görüntüyü girebileceği Photoshop/After Effects tarzı doğrusal düzenleme iş akışları geliştirmeye çalışan, büyüyen bir GAN yüz düzenleyicileri sınıfına aittir. bir kimlik.

Tekrar ediyorum, parametrik ifadeler, ifadeyi enjekte etmenin kapsamlı ve kişiselleştirilmemiş bir yöntemini temsil eder ve her zaman olumlu olmayan, kendi başlarına 'tuhaf' görünen manipülasyonlara yol açar.

OSFR'de enjekte edilen ifadeler.

OSFR'de enjekte edilen ifadeler.

Önceki çalışmalarda olduğu gibi, OSFR tek bir görüntüden orijinale yakın pozlar çıkarabiliyor ve ayrıca merkezden uzakta pozlanmış bir görüntünün bir sabıka fotoğrafına dönüştürüldüğü 'önden görünüm' işlemini gerçekleştirebiliyor:

OSFR uygulamalarından birinin orijinal (yukarıda) ve çıkarımsal sabıka fotoğrafı görüntüleri yeni belgede ayrıntılı olarak açıklanmıştır.

OSFR uygulamalarından birinin orijinal (yukarıda) ve çıkarımsal sabıka fotoğrafı görüntüleri yeni belgede ayrıntılı olarak açıklanmıştır.

Uygulamada, bu tür bir çıkarım, temel oluşturan bazı fotogrametri ilkelerine benzer. Nöral Parlaklık Alanları (NeRF), ancak buradaki geometri, NeRF'in eksik ara pozları yorumlamasına ve insanları içeren keşfedilebilir nöral 3D sahneler oluşturmasına olanak tanıyan 4-3 bakış açısı yerine tek bir fotoğrafla tanımlanmalıdır.

(Bununla birlikte, NeRF de All You Need™ değildir, çünkü neredeyse tamamen farklı barikatlar yüz video sentezi oluşturma açısından GAN'lara)

GAN'ın Yüz Video Sentezinde Yeri Var mı?

Şu anda GAN yüz sentezi araştırmalarında tek bir kaynak görüntüden dinamik ifadeler ve dağıtım dışı pozlar elde etmek simya benzeri bir saplantı gibi görünüyor, bunun başlıca nedeni GAN'ların şu anda oldukça yüksek çözünürlükte ve nispeten yüksek sadakatli sinir yüzleri üretebilen tek yöntem olmasıdır: oto kodlayıcı deepfake çerçeveleri çok sayıda gerçek dünya pozu ve ifadesi üzerinde eğitim alabilmelerine rağmen, VRAM ile kısıtlanmış giriş/çıkış çözünürlüklerinde çalışmaları ve bir 'ana bilgisayara' ihtiyaç duymaları gerekir; NeRF de benzer şekilde kısıtlıdır ve – diğer iki yaklaşımın aksine – şu anda yüz ifadelerini değiştirmek için yerleşik metodolojilere sahip değildir ve genel olarak sınırlı düzenlenebilirlikten muzdariptir.

Doğru bir CGI/GAN yüz sentezleme sistemi için ileriye doğru tek yolun, gizli uzay içerisinde çoklu fotoğraf kimlik varlığı oluşturmanın bir yolunu bulmak için yeni bir girişim olması gerektiği anlaşılıyor. Bu durumda, bir kişinin kimliği için gizli bir kod, ilgisiz poz parametrelerinden yararlanmak için gizli uzayın tamamını dolaşmak zorunda kalmayacak, ancak dönüşümler için referans olarak kendi ilgili (gerçek dünya) görüntülerine başvurabilecek.

Böyle bir durumda veya tüm StyleGAN ağı tek kimlikli bir yüz kümesinde eğitilmiş olsa bile (otokodlayıcıların kullandığı eğitim kümelerine benzer), eksik anlamsal mantığın yine de yardımcı teknolojiler tarafından sağlanması gerekebilir. böyle bir senaryoda en azından çalışmak için daha fazla malzemeye sahip olacak semantik segmentasyon veya parametrik 3DMM yüzleri.

 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai