Yapay Zekâ
Derin Sahte Emotionların Şafağı

Araştırmacılar, video中的 yüzlerde keyfi olarak yeni emotions eklemek için bir makine öğrenimi tekniği geliştirdiler ve bu, son zamanlarda ortaya çıkan ve dudak hareketlerini yabancı dil dublajına uydurmak için kullanılan mevcut teknolojileri uyarlar.
Araştırma, Northeastern Üniversitesi ve MIT Medya Laboratuvarı arasında eşit bir işbirliğidir ve İnvertable Frowns: Video-to-Video Facial Emotion Translation olarak adlandırılmıştır. Araştırmacılar, ilk sonuçların kalitesinin daha fazla araştırmayla geliştirilmesi gerektiğini kabul etseler de, Wav2Lip-Emotion adlı tekniğin, tam video ifade değişikliğini doğrudan ele alan ilk türünün olduğunu iddia ediyorlar.
Temel kod GitHub‘da yayınlandı, ancak model kontrol noktaları daha sonra açık kaynak depoya eklenecek, yazarlar söz veriyor.

Solda, kaynak videonun ‘üzgün’ bir karesi. Sağda, ‘mutlu’ bir kare. Ortada, alternatif emotions sentezlemek için iki yeni yaklaşım var – üst satır: tüm ifade yüzeyi değiştirilmiş, tam maskeli bir yüz; alt satır: daha geleneksel bir Wav2Lip yöntemi, yalnızca yüzün alt kısmını değiştirir. Kaynak: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Tek Bir Video Kaynak Verisi
Teoride, bu tür manipülasyonlar, geleneksel derin sahte depoları gibi DeepFaceLab veya FaceSwap kullanarak elde edilebilir. Ancak standart iş akışı, ‘hedef’ kimliğe ait alternatif bir kimlik kullanmayı içerir, Örneğin, hedefi taklit eden bir aktör, kendi ifadelerini başka bir kişiye aktarır ve performansın geri kalanıyla birlikte. Ayrıca, derin sahte ses klonlama teknikleri genellikle illüzyonu tamamlamak için gerekli olur.
Dahası, bu popüler çerçeveler altında tek bir kaynak videodaki hedef1>hedef1 ifadesini değiştirmek, yüz hizalama vektörlerini bu mimarilerin şu anda kolaylaştırmadığı bir şekilde değiştirmeyi içerir.

Wav2Lip-Emotion, orijinal video ses diyalogunun dudak senkronizasyonunu korurken ilgili ifadeleri dönüştürür..
Bunun yerine, Wav2Lip-Emotion, bir videonun bir bölümünden emotion ile ilgili ifadeleri kopyalamak ve bunları diğer noktalara yapıştırmak için çalışır ve bu, kaynak verilerini değiştirmek için daha az çaba gerektiren bir yöntem sunmayı amaçlar.
Gelecekte, konuşmacının alternatif videolarına dayalı olarak geliştirilebilecek offline modeller, videoyu manipüle etmek için bir ‘renk paleti’ ifadesine sahip olmayı gerektirmez.
Potansiyel Amaçlar
Yazarlar, ifadesi değiştirme için bir dizi uygulama önerirler, bunlar arasında PTSD ve yüz felci hastaları için canlı video filtreleri bulunur. Makalede şunlar belirtilmiştir:
‘Kısıtlı veya kısıtlı olmayan yüz ifadelerine sahip bireyler, sosyal durumlarına daha iyi uymak için kendi ifadelerini ayarlamaktan yararlanabilirler. Birisi, onlara gösterilen videolardaki ifadeleri değiştirmek isteyebilir. Video konferans sırasında konuşmacılar birbirlerine bağırabilir, ancak yine de birbirleriyle olan etkileşim içeriğini hoş olmayan ifadelerdenWithout olmadan toplamak isteyebilirler. Ya da bir film yönetmeni, bir aktörün ifadelerini artırabilir veya azaltabilir.’
Yüz ifadesi, sözlerin söylendiği şekilde sogar karşıt olduğunda bile, niyetin ana ve temel göstergesi olduğundan, ifadeyi değiştirme yeteneği, iletişimin nasıl alındığı konusunda da bir ölçüde değişiklik sunar.
Önceki Çalışmalar
Makine öğrenimi ifade değişikliği ilgisi en az 2012 yılına kadar uzanmaktadır, o zamanlar bir işbirliği Adobe, Facebook ve Rutgers Üniversitesi, bir Tensor tabanlı 3D geometri yeniden yapılandırma yaklaşımı önerdi, bu, hedef videonun her bir karesi üzerinde CGI mesh yerleştirerek değişikliği gerçekleştirdi.

2012 Adobe/Facebook araştırması, video görüntülerine geleneksel CGI sürücülü değişiklikler uygulayarak ifadeleri değiştirdi. İfadeler artırılabilir veya bastırılabilir. Kaynak: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Bu teknik vaat edildiği halde, zahmetli ve gerekli kaynaklar önemliydi. O zaman, CGI, doğrudan özellik alanı ve piksel manipülasyonu için bilgisayar görüşü tabanlı yaklaşımlardan çok daha öndeydi.
Yeni makaleye daha yakın ilgili bir çalışma, 2020 yılında yayınlanan MEAD, ‘konuşan baş’ videoları üretebilen bir veri kümesi ve ifade oluşturma modeli, ancak gerçek kaynak videolarını doğrudan değiştirerek elde edilebilecek sofistike seviyeyi sunmuyor.

2020’nin MEAD’ı, SenseTime Research, Carnegie Mellon ve üç Çin üniversitesi arasındaki bir işbirliğidir. Kaynak: https://wywu.github.io/projects/MEAD/MEAD.html
2018 yılında, GANimation: Anatomically-aware Facial Animation from a Single Image adlı bir makale, ABD/İspanyol akademik bir araştırma işbirliği olarak ortaya çıktı ve yalnızca stiller için ifadeleri değiştirmek veya artırmak için Generative Adversarial Networks kullandı.

Still görüntülerde ifadeleri değiştirmek için GANimation. Kaynak: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emotion
Bunun yerine, yeni proje, Wav2Lip’e dayanmaktadır, bu, 2020 yılında, orijinal videoda hiç yer almayan yeni konuşma (veya şarkı) girişini accommod etmek için dudak hareketini yeniden senkronize etme potansiyel bir yöntemi sunarak dikkat çekmiştir.
Orijinal Wav2Lip mimarisi, BBC arşivlerinden alınan cümlelerden oluşan bir korpus üzerinde eğitilmiştir. Wav2Lip’i ifade değişikliği görevine uyarlamak için araştırmacılar, yukarıda bahsedilen MEAD veri kümesi üzerinde mimariyi ‘ince ayarladılar’.
MEAD, 60 aktörün aynı cümleyi okurken çeşitli yüz ifadeleri yaptığı 40 saatlik video içerir. Aktörler 15 farklı ülkeden gelir ve projeye (ve türetilen projelere) uygulanabilir ve iyi genellemeye sahip ifade sentezini üretmeye yardımcı olmak için uluslararası özellikler sunar.
Araştırmalar sırasında, MEAD yalnızca veri kümesinin ilk bölümünü yayınlamıştı, bu, 47 kişinin ‘kızgın’, ‘iğrenme’, ‘korku’, ‘küçümseme’, ‘mutlu’, ‘üzgün’ ve ‘şaşkınlık’ gibi ifadeler yaptığı bir bölümü içeriyordu. Bu yeni yaklaşımın ilk denemesinde araştırmacılar, kapsamını ‘mutlu’ ve ‘üzgün’ duygularını süperimpoze etme veya değiştirmeyle sınırlı tuttu, çünkü bunlar en kolay tanınanlardır.
Yöntem ve Sonuçlar
Orijinal Wav2Lip mimarisi yalnızca yüzün alt kısmını değiştirirken, Wav2Lip-Emotion ayrıca tam yüz değiştirme maskesi ve ifade sentezi ile deneyseller.
Araştırmacılar, orijinal ses girişini korurken, dudak hareketi tutarlılığını koruyarak orijinal kodu geliştirdiler.
Jeneratör bileşeni, kimlik kodlayıcı, konuşma kodlayıcı ve yüz dekoder içerir, önceki çalışmaya uygun olarak. Konuşma bileşeni, daha sonra ilgili karelerine eklenen yığınlanmış 2B convolutions olarak kodlanır.
Jeneratif elemanın yanı sıra, değiştirilmiş mimari, dudak senkronizasyonunun kalitesine, emotion hedefine ve karşıt olarak eğitilmiş görsel kalite hedefine yönelik üç ana ayrımcı bileşen içerir.
Tam yüz yeniden yapılandırması için, orijinal Wav2Lip çalışmasında hiçbir先例 yoktu, bu nedenle model sıfırdan eğitildi. Alt-yüz eğitimi (yarı maskeli) için araştırmacılar, orijinal Wav2Lip kodunda dahil edilen kontrol noktalarından devam ettiler.
Otomatik değerlendirme yanı sıra, araştırmacılar, yarı otomatik bir hizmet platformu tarafından sağlanan kalabalık tarafından sağlanan görüşü kullandılar. Çalışanlar, süperimpoze edilen duyguları tanıma açısından çıktı için genellikle yüksek puanlar verdi, ancak yalnızca ‘orta’ değerlendirmeler olarak görüntü kalitesi için rapor verdi.
Yazarlar, üretilen video kalitesini daha da iyileştirmenin yanı sıra, gelecekteki işin, daha geniş bir emotion yelpazesini kapsayabileceğini ve gelecekte, etiketlenmiş veya otomatik olarak çıkarılan kaynak verilerine ve veri kümelerine uygulanabileceğini, sonunda kullanıcının keyfine göre emotionsu artırma veya azaltma veya orijinal kaynak videосuna karşıt duygularla değiştirme yeteneği sunan bir sistemi ortaya çıkarabileceğini öne sürüyorlar.












