Yapay Zeka
Birleştirici Konuşma ve Jest Sentezi

Güney İtalya'da geçirdiğim birkaç yıldan sonra Britanya'ya döndüğümde, konuşurken el kol hareketi yapmayı bırakmam epey zaman aldı. Birleşik Krallık'ta, konuşmanızı cesur el hareketleriyle desteklemek sizi aşırı kafeinli gösterir; İtalya'da dil öğrenen biri olarak aslında bana yardımcı oldu anlaşılmakŞimdi bile, İtalyanca konuştuğum nadir durumlarda, 'vahşi eller' tekrar devreye giriyor. Hareket etmeden İtalyanca konuşmak neredeyse imkansız.
Son yıllarda jest destekli iletişim İtalyan ve Yahudi kültüründe Martin Scorsese'nin çalışmalarından ve Woody Allen'ın ilk filmlerinden bir mecazdan daha fazlası olarak kamuoyunun dikkatini çekti. 2013 yılında New York Times bir kısa video geçmişi İtalyan el hareketlerinden; akademi, konuyu bir klişe olarak göz ardı etmek yerine, el hareketi için ırksal eğilimleri incelemeye başlıyor; ve Unicode Konsorsiyumundan yeni emojiler jest eksikliğini kapatmak tamamen dijital, metin tabanlı iletişimle birlikte gelir.
Konuşma ve El Hareketlerine Birleşik Bir Yaklaşım
Şimdi, yeni araştırma İsveç'teki KTH Kraliyet Teknoloji Enstitüsü'nün Konuşma, Müzik ve İşitme Bölümü'nden bir araştırmacı, konuşma ve jest tanımayı, beden dilini paralel bir çalışma alanı olarak kullanmak yerine, konuşmaya dayalı iletişim anlayışımızı potansiyel olarak artırabilecek, birleşik, çok modlu bir sistemde birleştirmeyi hedefliyor.

İsveççe konuşma/jest projesinin test sayfasından görseller. Kaynak: https://swatsw.github.io/isg_icmi21/
Araştırma, Entegre Konuşma ve Hareket (ISG) sentezi adı verilen yeni bir model öneriyor ve konuşma ve jest araştırmalarından bir dizi son teknoloji nöral modeli bir araya getiriyor.
Yeni yaklaşım doğrusallığı terk ediyor boru hattı modeli (hareket bilgilerinin ikincil bir işleme aşaması olarak konuşmadan sırayla türetildiği), son kullanıcılara göre mevcut sistemlerle eşit oranlarda olan ve daha hızlı sentez süresi ve azaltılmış parametre sayısı sağlayan daha entegre bir yaklaşım için.

Doğrusal ve entegre yaklaşımlar. Kaynak: https://arxiv.org/pdf/2108.11436.pdf
Yeni multimodal sistem, her ikisi de mevcut Trinity Speech Gesture üzerinde eğitilmiş, spontane bir metinden konuşmaya sentezleyici ve ses-konuşma güdümlü bir hareket oluşturucu içerir. veri kümesi. Veri seti, farklı konularda konuşan ve özgürce el kol hareketleri yapan bir adamın 244 dakikalık ses ve vücut görüntüsünü içeriyor.
İş, romana eşdeğer ve teğetsel bir eserdir. DURIAN jest ve konuşma yerine yüz ifadeleri ve konuşma üreten ve daha çok ifade tanıma ve sentez alanına giren proje.
Mimarileri
Projenin konuşma ve görsel (jest) bileşenleri veri açısından dengesizdir; metin seyrek ve jestler zengin ve veri yoğun - hedefleri ve ölçümleri tanımlama açısından bir zorluk. Bu nedenle araştırmacılar sistemi, ortalama karesel hata (MSE) gibi daha bariz mekanik yaklaşımlardan ziyade, öncelikle çıktıya verilen insan tepkisine göre değerlendirdiler.
İki ana ISG modeli, ikinci yineleme Google'ın 2017'sinin takotron uçtan uca konuşma sentezi projesi ve Güney Kore Glow-TTS girişim 2020'de yayınlandı. Tacotron, otoregresif bir LSTM mimarisi kullanırken, Glow-TTS, daha hızlı GPU performansıyla ve otoregresif modellerde görülebilecek kararlılık sorunları olmadan evrişim operatörleri aracılığıyla paralel olarak hareket eder.
Araştırmacılar, proje sırasında üç etkili konuşma/jest sistemini test ettiler: çok modlu bir konuşma ve jest oluşturma sisteminin değiştirilmiş bir versiyonu. yayınlanan 2021'de aynı araştırmacılar tarafından yeni projede; açık kaynaklı Tacotron 2'nin özel ve değiştirilmiş bir ISG versiyonu; ve Glow-TTS'nin oldukça değiştirilmiş bir ISG versiyonu.
Araştırmacılar, sistemleri değerlendirmek için, önceden tanımlanmış metin bölümlerine konuşan ve hareket eden eklemli 3B insanları içeren web tabanlı bir geri bildirim ortamı oluşturdu (ortamın genel görünümü, arka planda görülebilir). genel proje sayfası).

Test ortamı.
Deneklerden sistem performansını konuşma ve mimiklere, yalnızca konuşmaya ve yalnızca mimiklere göre değerlendirmeleri istendi. Sonuçlar, daha yeni sistemin daha hızlı ve azaltılmış kaynaklarla çalışmasına rağmen, yeni ISG versiyonunda eski ardışık düzen versiyonuna göre hafif bir iyileşme olduğunu gösterdi.

'Bu hareket ne kadar insani?' sorusuna tam entegre ISG modeli, daha yavaş olan boru hattı modelinden biraz önde yer alırken, Tacotron ve Glow tabanlı modeller daha da geride kalıyor.
gömülü omuz silkme
Üç yaklaşımın en başarılısı olan Tacotron2-ISG modeli, veri setindeki en yaygın ifadelerden bazılarıyla ilgili bir düzeyde 'bilinçaltı' öğrenme gösteriyor; örneğin 'Bilmiyorum' - bu ifadeye eşlik edecek bir omuz silkme tepkisi üretmesini sağlayacak açık veri olmamasına rağmen, araştırmacılar üretecin gerçekten omuz silktiğini buldular.
Araştırmacılar, bu yeni projenin son derece özel yapısının, konuşma ve jest verilerini böyle bir sistemi eğitmeye uygun bir şekilde birleştiren özel veri kümeleri gibi genel kaynakların kaçınılmaz olarak kıtlığı anlamına geldiğini belirtiyorlar. Bununla birlikte, araştırmanın öncü niteliğine rağmen, bunu konuşma, dilbilim ve jest tanıma alanında umut verici ve henüz keşfedilmemiş bir alan olarak görüyorlar.