Bizimle iletişime geçin

Yapay Zeka

Mengene ve Makine Öğrenimi ile Dudak Okuma

mm
HAL, 2001: A Space Odyssey'de (1968) dudak okur

Tahran Bilgisayar Mühendisliği Okulu'nun yeni araştırması, dudak okuyabilen makine öğrenimi sistemleri oluşturma zorluğuna karşı gelişmiş bir yaklaşım sunuyor.

MKS kâğıtBaşlıklı Viseme Kod Çözme Kullanarak Dudak Okuma, yeni sistemin kelime hatası oranında önceki benzer modellerin en iyisine göre %4'lük bir iyileşme sağladığını bildiriyor. Sistem, haritalama yoluyla bu sektördeki yararlı eğitim verilerinin genel eksikliğini giderir. vezneler çevrilmiş film başlıklarının OpenSubtitles veri kümesindeki altı milyon örnekten elde edilen metin içeriğine.

Viseme, bir fonem'in görsel eşdeğeridir, etkili bir şekilde bir işitsel>görüntüdür. haritalama makine öğrenmesi modelinde bir 'özellik' oluşturabilecek.

mengene gif

Visemeler iş başında. Kaynak: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Araştırmacılar, mevcut veri kümelerinde en düşük hata oranını belirleyerek ve yerleşik eşleme prosedürlerinden vizem dizileri geliştirerek işe başladılar. Bu süreç, kademeli olarak görsel bir kelime sözlüğü oluşturur; ancak vizemi paylaşan farklı kelimeler (örneğin 'kalp' ve 'sanat') için doğruluk olasılıklarını tanımlamak gerekir.

kodu çözülmüş vizemler

Metinden çıkarılan mengeneler. Kaynak: https://arxiv.org/pdf/2104.04784.pdf

İki özdeş kelimenin aynı viseme ile sonuçlanması durumunda, en sık tekrarlanan kelime seçilir.

Model, geleneksel diziden diziye Visemelerin metinden tahmin edildiği ve özel bir ardışık düzende modellendiği bir alt işleme aşaması ekleyerek öğrenme:

Viseme mimarisi dudak okuma

Yukarıda, bir karakter modelinde geleneksel diziden diziye yöntemler; Aşağıda, Tahran araştırma modeline viseme karakter modellemesinin eklenmesi. Kaynak: https://arxiv.org/pdf/2104.04784.pdf

Model, görsel bağlam olmadan uygulandı. LRS3-TED veri seti, serbest 2018 yılında Oxford Üniversitesi'nden, en kötü kelime hata oranı (WER) ile %24.29 gibi saygın bir değer elde etti.

Tahran araştırması aynı zamanda bir harften sese dönüştürücü.

2017 Oxford araştırmasına karşı bir testte Vahşi Dudak Okuma Cümleleri (aşağıya bakın), Video-To-Viseme yöntemi, Oxford yöntemi için %62.3'e kıyasla %69.5'lük bir sözcük hata oranı elde etti.

Araştırmacılar, kullanılan yöntemlerin bile üretebileceğini kabul ederken, daha yüksek hacimli metin bilgisi kullanımının, yazıdan sese ve viseme eşleme ile birleştiğinde, otomatik dudak okuma makinesi sistemlerindeki son teknolojiye göre iyileştirmeler vaat ettiği sonucuna varıyorlar. daha sofistike mevcut çerçevelere dahil edildiğinde daha iyi sonuçlar.

Makine güdümlü dudak okuma, son yirmi yılda bilgisayarlı görme ve NLP araştırmalarının aktif ve devam eden bir alanı olmuştur. Diğer birçok örnek ve projenin yanı sıra, 2006 yılında otomatik dudak okuma yazılımının kullanımı yakalanan manşetler Adolf Hitler'in Bavyera'daki inziva yerinde çekilen ünlü sessiz filmlerin bazılarında söylediklerini yorumlamak için kullanıldığında, uygulama o zamandan beri (on iki yıl sonra, Sir Peter Jackson, başvurdular restorasyon projesindeki 1. Dünya Savaşı görüntülerinin konuşmalarını geri yüklemek için insan dudak okuyucularına Yaşlanmayacaklar).

2017 olarak, Vahşi Yaşamda Dudak Okuma CümleleriOxford Üniversitesi ile Google'ın AI araştırma bölümü arasındaki bir işbirliği, dudak okuma yapay zekası ses olmadan videodaki konuşmanın %48'ini doğru bir şekilde anlayabilirken, bir insan dudak okuyucu aynı materyalden yalnızca %12.4'lük bir doğruluğa ulaşabilir. Model, binlerce saatlik BBC TV görüntüleri üzerinde eğitildi.

Bu çalışmayı takip eden bir ayrı başlıklı bir önceki yılın Oxford/Google girişimi Lipnet, bir Tekrarlayan Sinir Ağının (RNN) temel mimarisine işlevsellik ekleyen, Geçitli Tekrarlayan Ağ (GRN) kullanarak değişken uzunluktaki video dizilerini metin dizileriyle eşleyen bir sinir ağı mimarisi. Model, insan dudak okuyucularına göre 4.1 kat daha iyi performans elde etti.

Gerçek zamanlı olarak doğru bir transkript çıkarma sorununun yanı sıra, videodan konuşmayı yorumlamanın zorluğu, ses, iyi aydınlatılmış 'yüz yüze' çekimler ve fonemlerin/vizemlerin nispeten farklı olduğu bir dil/kültür gibi yararlı bağlamlar çıkarıldığında daha da derinleşir.

Her ne kadar şu anda sesin tamamen yokluğunda dudak okumanın hangi dillerde en zor olduğuna dair deneysel bir anlayış olmasa da Japonca, ana yarışmacı. Japon yerlilerinin (diğer bazı Batı ve Doğu Asya yerlilerinin yanı sıra) konuşmalarının içeriğine karşı yüz ifadelerini kullanmalarının farklı yolları, onları halihazırda bir daha büyük zorluk duyarlılık analiz sistemleri için.

Ancak, konuya ilişkin bilimsel literatürün çoğunun genellikle ihtiyatlı, çünkü bu alandaki iyi niyetli nesnel araştırma bile ırksal profil oluşturmaya ve mevcut klişelerin ilan edilmesine geçme riski taşıyor.

Yüksek oranda gırtlaksal bileşenlere sahip diller, örneğin Çeçen ve Flemenkçe, otomatik konuşma çıkarma teknikleri için özellikle sorunluyken, konuşmacının duygularını veya hürmetini başka tarafa bakarak ifade edebildiği kültürlerde (yine genellikle Asya kültürlerinde) Yapay zeka dudak okuma araştırmacılarının diğer bağlamsal ipuçlarından 'doldurma' için ek yöntemler geliştirmeleri gerekeceği başka bir boyut daha ekleyecek.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai