Yapay Zeka
Derin Sahte Duyguların Şafağı

Araştırmacılar, dudak hareketlerini yabancı dil dublajıyla eşleştirmek için çözüm olarak yakın zamanda ortaya çıkan mevcut teknolojileri uyarlayarak, videodaki yüzlere keyfi olarak yeni duygular empoze etmek için yeni bir makine öğrenme tekniği geliştirdiler.
Araştırma, Boston'daki Northeastern Üniversitesi ile MIT'deki Media Lab arasında eşit düzeyde bir işbirliğidir ve Tersine Çevrilebilir Kaşlar: Videodan Videoya Yüz Duygu Çevirisi. Araştırmacılar, sonuçların ilk kalitesinin daha fazla araştırma yoluyla geliştirilmesi gerektiğini kabul etseler de, Wav2Lip-Emotion adlı tekniğin, nöral ağ teknikleri yoluyla tam video ifade değişikliğini doğrudan ele alan türünün ilk örneği olduğunu iddia ediyorlar.
taban kodu olmuştur serbest GitHub'da, model kontrol noktaları daha sonra açık kaynak deposuna eklenecek olsa da, yazarlar söz veriyor.

Solda, kaynak videonun "üzgün" bir karesi. Sağda, "mutlu" bir kare. Ortada, alternatif duyguları sentezlemeye yönelik iki yeni yaklaşım var: üst sıra: ifade yüzeyinin tamamının değiştirildiği tamamen maskelenmiş bir yüz; alt sıra: yüzün yalnızca alt kısmını değiştiren daha geleneksel bir Wav2Lip yöntemi. Kaynak: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Kaynak Veri Olarak Tek Video
Teorik olarak, bu tür manipülasyonlar artık aşağıdakiler gibi geleneksel derin sahte depolar üzerinde tam kapsamlı eğitim yoluyla elde edilebilir: DeepFaceLab veya FaceSwapAncak standart iş akışı, "hedef" kimliğine alternatif bir kimlik kullanmayı içerir; örneğin, hedefi taklit eden bir aktör, kendi ifadelerini performansın geri kalanıyla birlikte başka bir kişiye aktarır. Ayrıca, illüzyonu tamamlamak için genellikle deepfake ses klonlama teknikleri gerekir.
Ayrıca, aslında ifadesinin değiştirilmesi hedef1>hedef1 Bu popüler çerçeveler altındaki tek kaynaklı bir videoda, yüz hizalama vektörleri bu mimarilerin şu anda kolaylaştırmadığı bir şekilde.

Wav2Lip-Emotion, ilgili ifadeleri dönüştürürken orijinal video sesli diyaloğun dudak senkronizasyonunu korur.
Bunun yerine, Wav2Lip-Emotion etkili bir şekilde videonun bir bölümünden duyguyla ilgili ifadeleri 'kopyalayıp yapıştırmayı' ve bunları diğer noktalara yerleştirmeyi amaçlıyor; sonunda ifade manipülasyonu için daha az çaba gerektiren bir yöntem sunmayı amaçlayan kaynak verilerinin kendi kendine dayattığı tutumlulukla.
Daha sonra konuşmacının alternatif videoları üzerinde eğitilen çevrimdışı modeller geliştirilebilir ve bu sayede herhangi bir videonun, videoyu manipüle etmek için bir ifade durumları 'paletini' içermesi ihtiyacı ortadan kaldırılabilir.
Potansiyel Amaçlar
Yazarlar, PTSD ve yüz felci hastalarının etkilerini telafi etmek için canlı bir video filtresi de dahil olmak üzere, ifade modifikasyonu için bir dizi uygulama önermektedir. Kağıt şunları gözlemliyor:
'Yüz ifadeleri kısıtlı olsun ya da olmasın, bireyler kendi ifadelerini sosyal ortamlarına daha iyi uyacak şekilde ayarlamaktan faydalanabilirler. Kişi, kendisine gösterilen videolardaki ifadeleri değiştirmek isteyebilir. Bir video konferans sırasında konuşmacılar birbirlerine bağırıyor olabilir, ancak yine de konuşmalarındaki içeriği, rahatsız edici ifadeler olmadan toparlamak isteyebilirler. Ya da bir film yönetmeni, bir oyuncunun ifadelerini güçlendirmek veya azaltmak isteyebilir.'
Çünkü yüz ifadesi bir niyetin temel ve temel göstergesi, konuşulan sözcükleri aşındırsa bile, ifadeyi değiştirme yeteneği, bir dereceye kadar, iletişimin nasıl yapıldığını değiştirme yeteneği de sunar. Alınan.
Önceki Çalışma
Makine öğrenimi ifade değişikliğine olan ilgi en az 2012 yılına kadar gider. işbirliği Adobe, Facebook ve Rutgers Üniversitesi arasında, değişikliği etkilemek için bir hedef videonun her karesine zahmetli bir şekilde bir CGI ağı uygulayan Tensör tabanlı bir 3B geometri yeniden oluşturma yaklaşımı kullanarak ifadeleri değiştirmek için bir yöntem önerdiler.

2012 Adobe/Facebook araştırması, video çekimlerine geleneksel, CGI odaklı değişiklikler uygulayarak ifadeleri manipüle etti. İfadeler artırılabilir veya bastırılabilir. Kaynak: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Sonuçlar umut verici olsa da teknik külfetliydi ve ihtiyaç duyulan kaynaklar oldukça fazlaydı. Bu noktada CGI, doğrudan özellik alanı ve piksel manipülasyonuna yönelik bilgisayar görüşü tabanlı yaklaşımların çok ilerisindeydi.
Yeni makaleyle daha yakından ilişkili olan, 2020'de yayınlanan bir veri seti ve ifade oluşturma modeli olan MEAD, gerçek kaynak videoyu doğrudan değiştirerek elde edilebilecek karmaşıklık düzeyine sahip olmasa da 'konuşan kafa' videoları üretebiliyor.

SenseTime Research, Carnegie Mellon ve üç Çin üniversitesinin işbirliğiyle 2020'nin MEAD'i ile ifade üretimi. Kaynak: https://wywu.github.io/projects/MEAD/MEAD.html
2018'de başka bir makale, başlıklı GANimation: Tek Bir Görüntüden Anatomik Farkındalıklı Yüz Animasyonu, ABD/İspanyol akademik araştırma işbirliği olarak ortaya çıktı ve yalnızca durağan görüntülerdeki ifadeleri artırmak veya değiştirmek için Generative Adversarial Networks'ü kullandı.

GANimation ile durağan görüntülerdeki ifadeleri değiştirme. Kaynak: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emotion
Bunun yerine, yeni proje Wav2Lip'e dayanmaktadır. toplanan tanıtım 2020'de dudak hareketini yeni konuşmaya uyum sağlamak için yeniden senkronize etmek için potansiyel bir yöntem sunarak (veya şarkı) orijinal videoda hiç yer almayan girdi.
Özgün Wav2Lip mimarisi BBC arşivlerinden alınan sözlü cümlelerden oluşan bir grup üzerinde eğitim verildi. Wav2Lip'i ifade değişikliği görevine uyarlamak için araştırmacılar, yukarıda bahsedilen MEAD veri kümesi üzerinde mimariyi "ince ayarladılar".
MEAD, 40 oyuncunun çeşitli yüz ifadeleri yaparken aynı cümleyi okuduğu 60 saatlik bir videodan oluşuyor. Aktörler 15 farklı ülkeden geliyor ve projenin (ve türetilmiş projelerin) uygulanabilir ve iyi genelleştirilmiş ifade sentezi üretmesine yardımcı olmayı amaçlayan bir dizi uluslararası özellik sunuyor.
Araştırma sırasında MEAD, veri setinin yalnızca ilk bölümünü yayınlamıştı. Bu bölümde, "öfkeli", "tiksinti", "korku", "aşağılama", "mutlu", "üzgün" ve "şaşkınlık" gibi ifadeleri kullanan 47 kişi yer alıyordu. Yeni bir yaklaşıma yönelik bu ilk girişimde, araştırmacılar projenin kapsamını, en kolay tanınan "mutlu" ve "üzgün" duyguları üst üste bindirmek veya başka şekillerde değiştirmekle sınırladılar.
Yöntem ve Sonuçlar
Orijinal Wav2Lip mimarisi yüzün yalnızca alt kısmını değiştirirken, Wav2Lip-Emotion ayrıca tam bir yüz değiştirme maskesi ve ifade sentezi ile deneyler yapar. Bu nedenle, araştırmacıların yerleşik değerlendirme yöntemlerini ek olarak değiştirmeleri gerekiyordu, çünkü bunlar tam yüz konfigürasyonu için tasarlanmamıştı.
Yazarlar, orijinal ses girişini koruyarak ve dudak hareketinin tutarlılığını koruyarak orijinal kodu geliştirirler.
Jeneratör elemanı, önceki çalışmaya uygun olarak bir kimlik kodlayıcı, konuşma kodlayıcı ve yüz kod çözücü içerir. Konuşma öğesi ek olarak, ilişkili çerçeve/çerçevelerle daha sonra birleştirilen istiflenmiş 2B evrişimler olarak kodlanır.
Üretken unsurun yanı sıra, değiştirilmiş mimari, dudak senkronizasyonunun kalitesini hedefleyen üç ana ayırt edici bileşene, bir duygu objektif unsuruna ve rakip olarak eğitilmiş bir görsel kalite objektifine sahiptir.
Tam yüz rekonstrüksiyonu için orijinal Wav2Lip çalışması emsali yoktu ve bu nedenle model sıfırdan eğitildi. Alt yüz eğitimi (yarım maske) için, araştırmacılar orijinal Wav2Lip kodunda yer alan kontrol noktalarından ilerlediler.
Araştırmacılar, otomatik değerlendirmenin yanı sıra, yarı otomatik bir hizmet platformu tarafından sağlanan kitle kaynaklı görüşleri de kullandılar. Çalışanlar, üst üste binen duyguları tanıma açısından çıktıyı genellikle yüksek puanlarken, görüntü kalitesi için yalnızca 'orta' değerlendirmeler bildirdiler.
Yazarlar, üretilen video kalitesini daha fazla ayrıntılandırmayla iyileştirmenin yanı sıra, çalışmanın gelecekteki yinelemelerinin daha geniş bir duygu yelpazesini kapsayabileceğini ve çalışmanın gelecekte etiketli veya otomatik olarak çıkarsanan kaynak verilere ve veri kümelerine eşit şekilde uygulanabileceğini ve sonuçta yol açabileceğini öne sürüyorlar. , duyguların kullanıcının isteğine göre artırılıp azaltılabildiği veya nihai olarak orijinal kaynak videoya göre zıt duygularla değiştirilebildiği özgün bir sisteme.