Bizimle iletişime geçin

Yapay Zeka

Adobe Araştırması Çözülmüş GAN Yüz Düzenlemesini Genişletiyor

mm

Bunun nedenini anlamak zor değil dolaşıklık Görüntü sentezinde bir sorundur, çünkü hayatın diğer alanlarında da sıklıkla karşılaşılan bir sorundur; örneğin, köri soslu bir yemekten zerdeçalı çıkarmak, hamburgerdeki turşuyu çıkarmaktan çok daha zordur ve bir fincan kahvenin şekerini gidermek neredeyse imkansızdır. Bazı şeyler paket halinde gelir.

Benzer şekilde dolaşma, yüzleri oluşturmak veya düzenlemek için makine öğrenimini kullanırken ideal olarak farklı özellikleri ve kavramları ayırmak isteyen görüntü sentezi mimarileri için de bir engeldir (veya köpekler, tekneler, veya başka bir etki alanı).

gibi ipleri ayırabilseydiniz yaş, cinsiyet, saç rengi, cilt tonu, duyguve benzeri şekilde, istenmeyen 'yolcuları' bu dönüşümlere sürüklemeden, gerçekten ayrıntılı bir düzeyde yüz görüntüleri oluşturabilen ve düzenleyebilen bir çerçevede gerçek araçsallığın ve esnekliğin başlangıcına sahip olurdunuz.

Maksimum dolaşıklıkta (sol üstte) yapabileceğiniz tek şey, öğrenilmiş bir GAN ağının görüntüsünü başka bir kişinin görüntüsüyle değiştirmektir.

Bu, başka yollarla çözülen bir şeyi başarmak için en yeni yapay zeka bilgisayarlı görüntüleme teknolojisini etkili bir şekilde kullanmaktır otuz yılı aşkın bir süre önce.

Belirli bir ayırma derecesiyle (yukarıdaki önceki görselde 'Orta Ayırma'), saç rengi, ifade, kozmetik uygulama ve sınırlı baş döndürme gibi stil bazlı değişiklikler yapmak mümkündür.

Kaynak: FEAT: Dikkatle Yüz Düzenleme, Şubat 2022, https://arxiv.org/pdf/2202.02713.pdf

Kaynak: FEAT: Dikkatle Yüz Düzenleme, Şubat 2022, https://arxiv.org/pdf/2202.02713.pdf

Son iki yılda, eklemeler veya değişiklikler yaparken hedef yüzün temel özelliklerini olduğu gibi tutarken, bir kullanıcının kaydırıcılar ve diğer geleneksel UI etkileşimleriyle yüz özelliklerini değiştirmesine izin veren etkileşimli yüz düzenleme ortamları oluşturmak için birkaç girişimde bulunuldu. Bununla birlikte, bu, GAN'ın gizli alanındaki temel özellik/stil karışıklığından dolayı bir zorluk olduğunu kanıtladı.

Örneğin, gözlük özellik sıklıkla yaşlı Bu, gözlük eklemenin yüzün 'yaşlanmasına' yol açabileceği anlamına gelirken, yüzün yaşlanması, uygulanan yüksek seviyeli özelliklerin ayrılma derecesine bağlı olarak gözlük ekleyebilir (örnekler için aşağıdaki 'Test' bölümüne bakın).

En önemlisi, saç telleri ve yapısı yeniden hesaplanmadan saç rengini ve diğer saç özelliklerini değiştirmek neredeyse imkansız hale geldi; bu da 'cızırtılı', geçişli bir etki yaratıyor.

Kaynak: InterFaceGAN Demosu (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Kaynak: InterFaceGAN Demosu (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Gizliden Gizliye GAN Geçişi

Adobe liderliğindeki yeni bir kağıt girdi WACV 2022 için bu temel sorunlara yeni bir yaklaşım sunuyor. kâğıt adlı Gizliden Gizliye: StyleGAN tarafından oluşturulan Görüntülerde Birden Çok Yüz Niteliğinin Düzenlenmesini Koruyarak Kimlik Koruma için Öğrenilmiş Bir Eşleyici.

Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes in StyleGAN-generated Images adlı makaleden ek materyal. Burada öğrenilen yüzdeki temel özelliklerin ilgisiz değişimlere sürüklenmediğini görüyoruz. Daha iyi ayrıntı ve çözünürlük için makalenin sonunda tam video yerleştirmeye bakın. Kaynak: https://www.youtube.com/watch?v=rf_61llRH0Q

Kağıttan ek malzeme Gizliden Gizliye: StyleGAN tarafından oluşturulan Görüntülerde Birden Çok Yüz Niteliğinin Düzenlenmesini Koruyarak Kimlik Koruma için Öğrenilmiş Bir Eşleyici. Burada öğrenilen yüzdeki temel özelliklerin ilgisiz değişimlere sürüklenmediğini görüyoruz. Daha iyi ayrıntı ve çözünürlük için makalenin sonunda tam video yerleştirmeye bakın. Kaynak: https://www.youtube.com/watch?v=rf_61llRH0Q

Makale, Adobe Uygulamalı Bilim Adamı Siavash Khodadadeh, diğer dört Adobe araştırmacısı ve Central Florida Üniversitesi Bilgisayar Bilimleri Bölümü'nden bir araştırmacı ile birlikte yönetiliyor.

Bu parçanın ilgi çekici olmasının bir nedeni Adobe'nin bu alanda bir süredir faaliyet göstermesi ve bu işlevselliğin önümüzdeki birkaç yıl içinde bir Creative Suite projesine dahil edileceğini hayal etmek cazip geliyor; ancak asıl nedeni proje için oluşturulan mimarinin, değişiklikler uygulanırken bir GAN yüz düzenleyicisinde görsel bütünlüğü korumaya yönelik farklı bir yaklaşım benimsemesi.

Yazarlar beyan eder:

"[Biz] bir nöral ağı, değiştirilmiş özniteliğe sahip görüntüye karşılık gelen gizli kodlamayı bulan bir gizliden gizliye dönüşümü gerçekleştirmesi için eğitiyoruz. Teknik tek seferlik olduğundan, niteliklerin kademeli değişiminin doğrusal veya doğrusal olmayan bir yörüngesine dayanmaz.

Ağı uçtan uca tam üretim boru hattı üzerinden eğiterek, sistem kullanıma hazır jeneratör mimarilerinin gizli alanlarına uyum sağlayabilir. Kişinin kimliğini koruma gibi koruma özellikleri, eğitim kayıpları şeklinde kodlanabilir.

'Gizli-gizli ağ bir kez eğitildikten sonra, yeniden eğitilmeden keyfi görüntüler için yeniden kullanılabilir.'

Bu son kısım, önerilen mimarinin son kullanıcıya tamamlanmış bir halde ulaştığı anlamına gelir. Yerel kaynaklar üzerinde bir sinir ağı çalıştırması gerekir, ancak çerçeve, görüntüye özgü ek bir eğitim gerektirmeyecek kadar ayrıştırılmış olduğundan, yeni görüntüler "eklenebilir" ve neredeyse anında değişikliğe hazır hale getirilebilir.

Kaydırıcılar yalnızca 'uç noktalar arasında geçiş yapmakla' değil, gizli boşlukta rastgele ve gelişigüzel yollar çizdikçe cinsiyet ve yüz kılı değişti.

Cinsiyet ve yüz kılları, kaydırıcılar gizli alanda rastgele ve keyfi yollar çizdikçe değişti; yalnızca 'uç noktalar arasında geçiş' olmadı. Daha iyi çözünürlükte daha fazla dönüşüm için makalenin sonundaki gömülü videoyu izleyin.

Çalışmadaki başlıca başarılar arasında, ağın hedef vektördeki yalnızca niteliği değiştirerek gizli uzaydaki kimlikleri 'dondurma' ve dönüştürülen kimlikleri koruyan 'düzeltme terimleri' sağlama yeteneği yer alıyor.

Temel olarak, önerilen ağ, dönüşümler üzerinde istenmeyen yanal etkiler üretmeyecek donmuş ağırlıklara sahip önceden eğitilmiş bileşenlerden geçen tüm işlenmiş öğeleri düzenleyen daha geniş bir mimariye gömülüdür.

Çünkü eğitim süreci, üçüz bir tohum görüntüsü tarafından oluşturulabilen (altında GAN ters çevirme) veya mevcut bir ilk gizli kodlama, tüm eğitim süreci denetimsizdir ve bu tür sistemlerdeki geleneksel etiketleme ve düzenleme sistemlerinin zımni eylemleri etkin bir şekilde mimariye işlenir. Aslında, yeni sistem kullanıma hazır öznitelik regresörlerini kullanır:

'Ağımızın bağımsız olarak kontrol edebileceği öznitelik sayısı, yalnızca tanıyıcı(lar)ın yetenekleriyle sınırlıdır; bir öznitelik için bir tanıyıcımız varsa, bunu keyfi yüzlere ekleyebiliriz. Deneylerimizde, gizli-gizli ağı, önceki tüm yaklaşımlardan daha fazla olan 35 farklı yüz özniteliğinin ayarlanmasına izin verecek şekilde eğittik.'

Sistem, istenmeyen 'yan etki' dönüşümlerine karşı ek bir koruma önlemi içeriyor: Bir öznitelik değişikliği talebi olmadığında, gizli-gizli ağ, kendisine gizli bir vektör eşleyecek ve böylece hedef kimliğinin kararlı kalıcılığı daha da artacaktır.

Yüz tanıma

Son birkaç yıldır GAN ve kodlayıcı/kod çözücü tabanlı yüz editörlerinde yinelenen bir sorun, uygulanan dönüşümlerin benzerliği bozma eğiliminde olmasıdır. Bununla mücadele etmek için Adobe projesi, adı verilen yerleşik bir yüz tanıma ağı kullanır. FaceNet ayrımcı olarak

Proje mimarisi, FaceNet'in dahil edilmesi için sol alt orta kısma bakın. Kaynak: Latent to Latent: A Learned Mapper for Identity Koruyarak Çoklu Yüz Niteliklerini StyleGAN Tarafından Oluşturulan Görüntülerde Düzenleme, OpenAccess.

Proje mimarisi, FaceNet'in dahil edilmesi için sol alt orta kısma bakın. Kaynak: Gizliden Gizliye: StyleGAN tarafından oluşturulan Görüntülerde Birden Çok Yüz Niteliğinin Düzenlenmesini Koruyarak Kimlik Koruma için Öğrenilmiş Bir Eşleyici, Açık Erişim.

(Kişisel olarak, bu, standart yüz tanıma ve hatta ifade tanıma sistemlerinin üretici ağlara entegrasyonuna yönelik cesaret verici bir hareket gibi görünüyor; kör piksel>piksel eşleme yüz oluşturma sektöründeki ifade doğruluğu ve diğer önemli alanlar pahasına mevcut derin sahte mimarilere hakim olan.)

Tüm Bölgelere Ulaşım Gizli Uzayda

Çerçevenin bir diğer etkileyici özelliği de, gizli alandaki potansiyel dönüşümler arasında kullanıcının isteğine göre keyfi bir şekilde geçiş yapabilmesidir. Keşifsel arayüzler sunan önceki bazı sistemler, kullanıcıyı genellikle sabit özellik dönüşüm zaman çizelgeleri arasında "gezinti" halinde bırakıyordu; etkileyici, ancak çoğu zaman oldukça doğrusal veya kısıtlayıcı bir deneyimdi.

Uzamsal Farkındalığı Artırarak GAN Dengesini İyileştirme'den: burada kullanıcı, gizli alanda önceden eğitilmiş konumların sınırları dahilinde, iki gizli alan konumu arasındaki bir dizi potansiyel geçiş noktasını tarar. Aynı malzemeye dayalı diğer dönüşüm türlerini uygulamak için yeniden yapılandırma ve/veya yeniden eğitim gereklidir. Kaynak: https://genforce.github.io/eqgan/

Konum Mekansal Farkındalığı Arttırarak GAN Dengesini İyileştirme: burada kullanıcı, iki gizli alan konumu arasındaki bir dizi potansiyel geçiş noktasını tarar, ancak gizli alanda önceden eğitilmiş konumların sınırları dahilindedir. Aynı malzemeye dayalı diğer dönüşüm türlerini uygulamak için yeniden yapılandırma ve/veya yeniden eğitim gereklidir. Kaynak: https://genforce.github.io/eqgan/

Kullanıcı, tamamen yeni kullanıcı görsellerine açık olmasının yanı sıra, dönüştürme işlemi sırasında korunmasını istediği öğeleri manuel olarak "dondurabilir". Bu şekilde kullanıcı, (örneğin) arka planların kaymamasını veya gözlerin açık veya kapalı kalmasını sağlayabilir.

Veri

Nitelik regresyon ağı, üç ağ üzerinde eğitildi: FFHQ, CelebAMask-HQve Z uzayından 400,000 vektör örneklenerek elde edilen yerel, GAN tarafından oluşturulmuş bir ağ TarzGAN-V2.

Dağıtım dışı (OOD) görüntüler filtrelendi ve öznitelikler Microsoft'un Yüz API'sı, ortaya çıkan görüntü seti 90/10'a bölünerek geriye karşılaştırma için 721,218 eğitim görüntüsü ve 72,172 test görüntüsü kalıyor.

Test yapmak

Deneysel ağ başlangıçta 35 potansiyel dönüşümü barındıracak şekilde yapılandırılmış olsa da, karşılaştırılabilir çerçevelere karşı benzer testler yapmak için bunlar sekize indirildi. ArayüzGAN, GANSuzay, ve Stil Akışı.

Seçilen sekiz özellik Yaş, Kellik, Sakal, ifade, Cinsiyet, Camlar, Zift, ve Rotadan çıkmak. Ekleme gibi orijinal dağıtımda sağlanmayan sekiz özelliğin belirli bir kısmı için rakip çerçeveleri yeniden düzenlemek gerekiyordu. kellik ve sakal InterFaceGAN'a.

Beklendiği gibi, rakip mimarilerde daha yüksek düzeyde bir dolaşma meydana geldi. Örneğin, bir testte hem InterFaceGAN hem de StyleFlow, başvurması istendiğinde deneğin cinsiyetini değiştirdi. yaş:

Rakip çerçevelerden ikisi, cinsiyet değişikliğini 'yaş' dönüşümüne kaydırdı ve ayrıca kullanıcının doğrudan teklifi olmadan saç rengini değiştirdi.

Rekabet eden çerçevelerden ikisi, cinsiyet değişikliğini 'yaş' dönüşümüne dahil etti, ayrıca kullanıcının doğrudan bir isteği olmadan saç rengini değiştirdi.

Ek olarak, rakiplerden ikisi gözlük ve yaşın birbirinden ayrılamaz yönler olduğunu keşfetti:

Gözlük ve saç rengi değişimi ücretsiz olarak atılır!

Gözlük ve saç rengi değişimi ücretsiz olarak atılır!

Araştırma için tekdüze bir zafer değil: Makalenin sonunda yer alan eşlik eden videoda görülebileceği gibi, çerçeve farklı açıları (sapma) ekstrapole etmeye çalışırken en az etkili olanıdır, oysa GANSpace genel olarak daha iyi bir sonuca sahiptir yaş ve dayatılması gözlük. Gizliden gizliye çerçeve, perdenin (kafa açısı) eklenmesiyle ilgili olarak GANSspace ve StyleFlow ile bağlantılıdır.

MTCNN yüz dedektörünün kalibrasyonuna dayalı olarak hesaplanan sonuçlar. Düşük sonuçlar daha iyidir.

Kalibrasyona dayalı olarak hesaplanan sonuçlar MTCNN yüz dedektörü. Düşük sonuçlar daha iyidir.

Daha fazla ayrıntı ve örneklerin daha iyi çözümü için aşağıdaki makaleye eşlik eden videoyu izleyin.

 

İlk olarak 16 Şubat 2022'de yayınlandı.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai