Anderson’un Açısı
Dudak Okuma İle Visemler ve Makine Öğrenimi

Tahran Bilgisayar Mühendisliği Okulu’ndan yeni bir araştırma, makine öğrenimi sistemlerinin dudaklarını okumaya yönelik zorluğa karşı geliştirilmiş bir yaklaşım sunuyor.
Makale, Viseme Çözme Kullanarak Dudak Okuma adlı çalışmanın, benzer önceki modellerin en iyisi üzerinde kelime hata oranında %4’lük bir iyileşme sağladığını bildiriyor. Sistem, bu sektörde faydalı eğitim verilerinin genel eksikliğini, altı milyon örneği içeren OpenSubtitles veri setinden metin içeriğine dayalı visemeleri eşleyerek gideriyor.
Viseme, bir fonemin görsel eşdeğeri olup, efektif olarak bir ses-görüntü eşlemesidir ve bir makine öğrenimi modelinde bir ‘özellik’ oluşturabilir.

Visemler çalışır durumda. Kaynak: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Araştırmacılar, mevcut veri setlerinde en düşük hata oranını belirleyerek ve kurulmuş eşleme prosedürlerinden viseme dizileri geliştirerek başladı. Bu süreç, yavaş yavaş, kelime görsel bir sözlüğü geliştirir – ancak ‘heart’ ve ‘art’ gibi aynı visemeyi paylaşan farklı kelimelerin doğruluk olasılıklarını tanımlamak gerekli.
Aynı iki kelime aynı visemeye yol açarsa, en sık görülen kelime seçilir.
Model, geleneksel dizi-dizi öğrenmeye, metinden visemeleri.predict eden ve ayrı bir işlem hattında modelleyen bir alt-işlem aşaması ekleyerek devam eder:

Yukarıda, karakter modelinde geleneksel dizi-dizi yöntemler; aşağıda, Tahran araştırması modelinde viseme karakter modellemesi. Kaynak: https://arxiv.org/pdf/2104.04784.pdf
Model, görsel bağlam olmadan LRS3-TED veri seti veri seti karşı sınandı ve en kötü kelime hata oranı %24.29 olarak elde edildi.
Tahran araştırması ayrıca bir grafem-fonem dönüştürücünün kullanımını içeriyor.
2017 Oxford araştırması Vahşi Doğada Dudak Okuma Cümleleri (aşağıya bakınız) karşı yapılan bir testte, Video-Viseme yöntemi %62.3’lük bir kelime hata oranına ulaştı, Oxford yönteminin %69.5’ine kıyasla.
Araştırmacılar, daha yüksek hacimli metin bilgisi kullanımının, grafem-fonem ve viseme eşlemesiyle birleştirilmesinin, otomatik dudak okuma makine sistemlerinde mevcut durumdan daha iyi sonuçlar vaat ettiğini, ancak kullanılan yöntemlerin daha gelişmiş mevcut çerçevelerde daha iyi sonuçlar verebileceğini belirtiyorlar.
Makine tabanlı dudak okuma, son yirmi yıldır bilgisayar vizyonu ve NLP araştırmasının aktif ve sürekli bir alanı olmuştur. Birçok diğer örnek ve projeler arasında, 2006 yılında otomatik dudak okuma yazılımının manşetlere taşınması, Adolf Hitler’in famous sessiz filmlerinde neler dediğini yorumlamak için kullanıldığında oldu, ancak bu uygulama o zamandan beri gözden kayboldu (on iki yıl sonra, Sir Peter Jackson insan dudak okuyucularına başvurdu. WW1 film restoration projesi Onlar Büyümeyecek için konuşmaları restore etmek için).
2017’de, Vahşi Doğada Dudak Okuma Cümleleri, Oxford Üniversitesi ve Google’ın AI araştırma bölümü arasındaki bir işbirliği, sesli video olmadan konuşmayı doğru bir şekilde çıkarsayabilen bir dudak okuma AI geliştirdi, bir insan dudak okuyucusu aynı materyalden yalnızca %12.4’lük bir doğruluk elde edebiliyordu. Model, binlerce saatlik BBC TV görüntülerine dayandırıldı.
Bu çalışma, bir önceki yıl Oxford/Google işbirliği tarafından yapılan ayrı bir girişimin ardından geldi, LipNet adlı bir sinir ağı mimarisi, değişken uzunluktaki video dizilerini metin dizilerine Gated Recurrent Network (GRN) kullanarak eşledi ve temel bir Recurrent Neural Network (RNN) mimarisine işlevsellik ekledi. Model, insan dudak okuyucularına kıyasla %4.1’lik bir performans iyileşmesi sağladı.
Gerçek zamanlı doğru bir transkript elde etme sorununa ek olarak, konuşmayı videoya yorumlama zorluğu, ses, ‘yüz yüze’ iyi aydınlatılmış görüntüleri ve dil/kültürün fonem/visemelerinin nispeten ayırt edilebilir olduğu gibi yardımcı bağlamları kaldırarak derinleşir.
Henüz hangi dillerin ses olmadan dudak okumada en zor olduğu konusunda ampirik bir anlayış bulunmasa da, Japonca önde gelen bir aday. Japon yerlileri (ve belirli diğer Batı ve Doğu Asya yerlileri) gibi yüz ifadelerini konuşma içeriğine karşı kullandıkları farklı şekiller, zaten daha büyük bir zorluk oluşturuyor. duygudurum analiz sistemleri için.
Ancak, bu konudaki bilimsel literatürün genellikle dikkatli olduğu unutulmamalıdır, çünkü bu alanda yapılan iyi niyetli objektif araştırmalar bile, ırksal profil oluşturma ve mevcut stereotiplerin yayılma riskini taşıyor.
Guttural bileşenlerin yüksek bir oranına sahip diller, chẳng hạn sebagai Çeçence ve Felemenkçe, otomatik konuşma çıkarma teknikleri için özellikle sorunludur, mientras kültürler, konuşmacıların konuşma içeriğine karşı yüz ifadelerini veya saygıyı ifade etmek için bakışlarını başka yöne çevirmesi (yeniden Asya kültürlerinde olduğu gibi) AI dudak okuma araştırmacılarının diğer bağlamsal ipuçlarından ‘doldurma’ yöntemlerini geliştirmeleri gereken başka bir boyut ekler.













