Bizimle iletişime geçin

Artırılmış Gerçeklik

Artırılmış Gerçeklik Uygulamaları İçin Yüzleri Silen TikTok Geliştiricileri

mm

TikTok'un arkasındaki Çinli çok uluslu internet şirketi ByteDance, artırılmış gerçeklik uygulamalarında insanlara kimlik bozulması ve diğer tuhaf etkilerin uygulanabilmesi için videodaki yüzleri silmek için yeni bir yöntem geliştirdi. Şirket, hangi ürünlerde olduğunu belirtmese de, tekniğin zaten ticari mobil ürünlere entegre edildiğini iddia ediyor.

Videodaki yüzler "sıfırlandığında", göz kamaştırıcı bozulmalar yaratmaya ve potansiyel olarak başka kimlikleri üst üste bindirmeye yetecek kadar "yüz tuvali" oluşur. ByteDance araştırmacılarının yeni bir makalesinde sunulan örnekler, çeşitli komik (ve kesinlikle biraz da grotesk) konfigürasyonlarda "silinen" özelliklerin geri kazanılması da dahil olmak üzere olasılıkları gösteriyor:

ByteDance makalesinde yüzün yeniden yapılandırılması için bazı olasılıklar yer almaktadır. Kaynak: https://arxiv.org/pdf/2109.10760.pdf

ByteDance makalesinde yüzün yeniden yapılandırılması için bazı olasılıklar yer almaktadır. Kaynak: https://arxiv.org/pdf/2109.10760.pdf

Ağustos ayının sonlarına doğru, ortaya çıktı Facebook dışı ilk uygulama olan TikTok, üç milyar yüklemeye ulaş, TikTok Effect Studio'yu (şu anda kapalı betada), artırılmış gerçeklik (AR) geliştiricilerinin TikTok içerik akışları için AR efektleri oluşturmasına yönelik bir platform.

Şirket, etkili bir şekilde, benzer geliştirici topluluklarını yakalıyor. Facebook'un AR Stüdyosu ve Ek ARApple'ın saygıdeğer AR Ar-Ge topluluğu ayrıca yakında galvanizlenecek yeni donanım önümüzdeki yıl.

Boş İfadeler

MKS kâğıtbaşlıklı FaceEraser: Artırılmış Gerçeklik İçin Yüz Bölümlerini Çıkarma, mevcut boyama içi/dolgu algoritmalarının, örneğin NVIDIA'nın SPADE'i, bu alışılmadık 'boşluk' prosedürünü gerçekleştirmektense kesilmiş veya yarı gizlenmiş görüntüleri tamamlamaya daha fazla odaklanmışlardır ve bu nedenle mevcut veri seti materyali öngörülebilir şekilde kıttır.

Yüzlerinin olması gereken yerde sağlam bir et genişliğine sahip insanlar için mevcut hiçbir gerçek veri seti olmadığından, araştırmacılar yeni bir ağ mimarisi yarattılar. piksel klonu, mevcut nöral iç boyama modellerine eklenebilen ve aşağıdaki gibi daha eski yöntemlerle sergilenen doku ve renk tutarsızlıklarıyla ilgili sorunları çözen (kağıt kanıtlıyor). Yapı Akışı ve EdgeConnect.

Yeni ardışık düzende piksel klonunun genel iş akışı.

Yeni ardışık düzende piksel klonunun genel iş akışı.

Araştırmacılar, bir modeli 'boş' yüzler üzerinde eğitmek için gözlük takılmış veya saçın alnı kapattığı görüntüleri hariç tuttular, çünkü saç çizgisi ile kaşlar arasındaki alan genellikle yüzün merkezi özellikleri için 'yapıştırma' malzemesi sağlayabilen en büyük piksel grubudur.

Eğitim görsellerinin hazırlanması. Alın alanı, yüz hizalaması tanımadaki kilit noktalara göre kırpılır, dikey olarak çevrilir ve dikilir.

Eğitim görsellerinin hazırlanması. Alın alanı, yüz hizalaması tanımadaki kilit noktalara göre kırpılır, dikey olarak çevrilir ve dikilir.

Genelleştirmeyi başaracak kadar büyük gruplar halinde bir sinir ağının gizli alanına beslenmeye yetecek kadar küçük boyutta, 256x256 piksellik bir görüntü elde edilir. Daha sonra algoritmik yükseltme, AR alanında çalışmak için gerekli çözünürlükleri geri yükleyecektir.

mimari

Ağ, Edge Completion, Pixel-Clone ve bir iyileştirme ağından oluşan üç iç ağdan oluşur. Kenar tamamlama ağı, EdgeConnect'te (yukarıya bakın) ve en popüler iki derin sahte uygulamada kullanılan aynı tür kodlayıcı-kod çözücü mimarisini kullanır. Kodlayıcılar görüntü içeriğini iki kez altörnekler ve kod çözücüler orijinal görüntü boyutlarını geri yükler.

Pixel-Clone, değiştirilmiş bir kodlayıcı-kod çözücü metodolojisi kullanırken, arıtma katmanı orijinal olarak geliştirilmiş bir teknik olan U-Net mimarisini kullanır. biyomedikal görüntüleme için, genellikle görüntü sentezi araştırma projelerinde yer alır.

Eğitim iş akışı sırasında, dönüşümlerin doğruluğunu değerlendirmek ve gerektiğinde girişimleri yinelemeli olarak tekrarlamak gerekir. yakınsama. Bu amaçla, iki ayrımcı yamaGAN her biri 70×70 piksel yamalarının yerelleştirilmiş gerçekçiliğini değerlendirerek tüm görüntünün gerçekçilik değerini göz ardı ederek kullanılır.

Eğitim ve Veri

Kenar tamamlama ağı başlangıçta bağımsız olarak eğitilirken, diğer iki ağ bu prosedür sırasında sabitlenen ve dondurulan kenar tamamlama eğitiminden kaynaklanan ağırlıklara dayalı olarak birlikte eğitilir.

Makalede, son özellik bozulması örneklerinin modelin temel amacı olduğu açıkça belirtilmese de, sistemin dayanıklılığını test etmek için kaş kaldırma, büyütülmüş ağızlar, küçültülmüş alt yüzler ve 'çizgi film' efektleri (yukarıdaki önceki görselde gösterildiği gibi) dahil olmak üzere çeşitli komik efektler uygulanıyor.

Makalede, 'silinen yüzlerin, kullanıcı tarafından özelleştirilmiş öğelerin yerleştirilmesini gerektiren çeşitli artırılmış gerçeklik uygulamalarına olanak sağladığı' iddia ediliyor ve bu da yüzlerin üçüncü taraf, kullanıcı tarafından katkıda bulunulan öğelerle özelleştirilebileceğine işaret ediliyor.

Model, NVIDIA tarafından oluşturulan maskeler üzerinde eğitilmiştir. FFHQ veri kümesiYararlı bir genelleme elde etmek için yeterli çeşitlilikte yaş, etnik köken, aydınlatma ve yüz pozları ve stilleri içerir. Veri seti, dönüşüm alanlarını belirlemek için 35,000 görüntü ve 10,000 eğitim maskesi içerirken, doğrulama amacıyla ayrılan 4000 görüntü ve 1000 maske içerir.

Eğitim veri örnekleri.

Eğitim veri örnekleri.

Eğitilen model, 2017'deki veriler üzerinde çıkarım yapabilir CelebA-HQ ve VoxÜnlü, FFHQ'dan görünmeyen yüzler ve kendisine sunulan diğer kısıtlanmamış, görünmeyen yüzler. 256x256 boyutlarındaki görüntüler, PyTorch'ta uygulanan ve '8 dönem' boyunca bir Tesla V100 GPU'da çalışan bir Adam optimizasyon aracı kullanılarak 2000,000'li gruplar halinde ağ üzerinde eğitildi.

Gerçek bir yüz üzerinde elde edilen çıkarım sonuçları.

Gerçek bir yüz üzerinde elde edilen çıkarım sonuçları.

Yüze dayalı görüntü sentezi araştırmasında yaygın olduğu gibi, sistem saç, çevre birimleri, gözlük ve sakal gibi engeller veya tıkanıklıkların neden olduğu ara sıra meydana gelen başarısızlıklarla uğraşmak zorundadır.

Rapor şu sonuca varıyor:

'Yaklaşımımız ticarileştirildi ve kısıtlanmamış kullanıcı girdileri için ürünlerde iyi çalışıyor.'

 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai