Yapay Zekâ
Dudak Okuma: Visemler ve Makine Öğrenimi ile

Tahran Bilgisayar Mühendisliği Okulu’ndan yeni bir araştırma, makine öğrenimi sistemlerinin dudaklarını okumaya yönelik zorluğa karşı geliştirilmiş bir yaklaşım sunuyor.
Makale, Viseme Çözme Kullanarak Dudak Okuma adlı çalışmada, yeni sistemin benzer önceki modellerin en iyisi üzerinde kelime hata oranında %4’lük bir iyileşme sağladığı bildiriliyor. Sistem, bu sektörde faydalı eğitim verilerinin genel eksikliğini, altı milyon örneğin bulunduğu OpenSubtitles veri setindeki metin içeriklerinden türetilen visemleri metne eşleyerek gideriyor.
Bir viseme, bir fonemin görsel eşdeğeri olup, efektif olarak bir ses-görüntü eşleme olup, bir makine öğrenimi modelinde bir ‘özellik’ oluşturabilir.

Visemler çalışır durumda. Kaynak: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Araştırmacılar, mevcut veri setlerinde en düşük hata oranını belirleyerek ve kurulmuş eşleme prosedürlerinden viseme dizilerini geliştirerek başladı. Bu süreç, yavaş yavaş bir görsel sözlük oluşturur – ancak (‘heart’ ve ‘art’ gibi) aynı visemeyi paylaşan farklı kelimelerin doğruluk olasılıklarını tanımlamak gerekli.
İki aynı kelime aynı visemeye sonuçlandığında, en sık görülen kelime seçilir.
Model, geleneksel dizi-dizi öğrenme üzerine visemelerin metinden tahmin edildiği ve ayrı bir işlem hattında modellendiği bir alt-işlem aşaması ekleyerek inşa edilir:

Yukarda, karakter modelinde geleneksel dizi-dizi yöntemler; aşağıda, Tahran araştırma modelinde viseme karakter modellemesi. Kaynak: https://arxiv.org/pdf/2104.04784.pdf
Model, görsel bağlam olmadan LRS3-TED veri seti veri seti karşı uygulanmıştır. En kötü kelime hata oranı (WER) %24,29 olarak elde edilmiştir.
Tahran araştırması ayrıca grafem-fonem dönüştürücünün kullanımını içermektedir.
2017 Oxford araştırması Vahşi Doğada Dudak Okuma Cümleleri (aşağıya bakınız) karşı yapılan testte, Video-Viseme yöntemi %62,3’lük bir kelime hata oranı elde ederken, Oxford yöntemi %69,5 elde etti.
Araştırmacılar, daha yüksek hacimli metin bilgisi kullanımının, grafem-fonem ve viseme eşlemesiyle birlikte, otomatik dudak okuma makineleri sistemlerinde mevcut durumun üzerine iyileşme vaat ettiğini kếtüllerken, kullanılan yöntemlerin daha gelişmiş güncel çerçevelere entegre edildiğinde daha iyi sonuçlar elde edilebileceğini belirtiyorlar.
Makine tabanlı dudak okuma, son yirmi yıl boyunca bilgisayar görme ve NLP araştırmasının aktif ve devam eden bir alanı olmuştur. Birçok diğer örnek ve projeler arasında, 2006 yılında otomatik dudak okuma yazılımlarının manşetlere yakalanması, Adolf Hitler’in famous sessiz filmlerinde neler dediğini yorumlamak için kullanıldığında, ancak bu uygulamanın on iki yıl sonra Sir Peter Jackson’un insan dudak okuyucularına başvurmak zorunda kaldığı I. Dünya Savaşı görüntülerinin restore projesi They Shall Not Grow Old için geride kaldı.
2017’de, Vahşi Doğada Dudak Okuma Cümleleri, Oxford Üniversitesi ve Google’ın AI araştırma bölümü arasındaki bir işbirliği, ses olmadan video中的 konuşmayı %48 oranında doğru şekilde çıkaran bir dudak okuma AI geliştirdi. Bu model, bir insan dudak okuyucusunun aynı malzemeden yalnızca %12,4’lük bir doğruluk elde edebildiği bir başarı elde etti. Model, binlerce saatlik BBC TV görüntülerine dayandırıldı.
Bu çalışma, önceki yıl Oxford/Google işbirliği başka bir girişimin ardından geldi. LipNet adlı bir sinir ağı mimarisi, bir Gated Recurrent Network (GRN) kullanarak değişken uzunluktaki video dizilerini metin dizilerine eşledi. Model, temel bir Recurrent Neural Network (RNN) mimarisine işlevsellik ekledi. Model, insan dudak okuyucularının 4,1 kat daha iyi bir performans elde etti.
Gerçek zamanlı olarak doğru bir transkript elde etme sorununa ek olarak, konuşmayı video中的 yorumlama zorluğu, ses, iyi aydınlatılmış ‘yüz yüze’ görüntüleri ve dil/kültür gibi yardımcı bağlamları kaldırarak derinleşir.
Henüz, ses tamamen yok olduğunda hangi dillerin dudak okunmasının en zor olduğu konusunda empirik bir anlayış bulunmamaktadır, ancak Japonca önde gelen bir adaydır. Japon yerlileri (ve belirli diğer Batı ve Doğu Asya yerlileri) tarafından already yüz ifadelerini konuşma içeriğine karşı nasıl kullandıkları, zaten onları daha büyük bir zorluk haline getirmektedir.
Ancak, bilimsel literatürün bu konudaki genel yaklaşımının dikkatli olduğu unutulmamalıdır, çünkü bu alanda yapılan iyi niyetli objektif araştırmalar bile ırksal profil oluşturma ve mevcut stereotiplerin yayılmasına yol açabilir.
Gutural bileşenlerin yüksek bir oranına sahip diller, özellikle Çeçence ve Felemenkçe, otomatik konuşma çıkarma teknikleri için özellikle sorunludur, जबकi konuşmacıların duyguyu veya saygıyı bakışlarını başka yöne çevirmekle ifade edebileceği kültürler (genellikle Asya kültürlerinde), AI dudak okuma araştırmacılarının diğer bağlamsal ipuçlarından ‘doldurma’ yöntemleri geliştirmeleri gereken bir başka boyuttur.













