Yapay Zekâ

Konuşma ve Jest Senkronizasyonunu Birleştirmek

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Güney İtalya’da birkaç yıl geçirdikten sonra İngiltere’ye döndüğümde, konuşurken jest yapmayı bırakmak biraz zaman aldı. İngiltere’de konuşmanızı güçlü el hareketleriyle desteklemek, sadece aşırı kafein almış gibi görünmenize neden olur; İtalya’da, dili öğrenirken, gerçekten anlaşılmanıza yardımcı oldu. Şimdi, daha nadir olarak İtalyanca konuştuğum zamanlarda, “vahşi eller” tekrar hizmete girer. İtalyanca konuşmak neredeysejest yapmadan imkansızdır.

Son yıllarda, jest destekli iletişim İtalyan ve Yahudi kültüründe Martin Scorsese ve erken Woody Allen filmlerindeki bir klişeden daha fazlası olarak kamuoyunun dikkatine geldi. 2013 yılında New York Times, İtalyan el jestlerinin kısa bir video tarihini derledi; akademisyenler, konuyu bir klişe olarak reddetmek yerine, ırksal jest yapma eğilimlerini incelemeye başladılar ve Unicode Konsorsiyumunun yeni emojileri, jest açığını kapatıyor.

Konuşma ve Jest için Birleştirilmiş Bir Yaklaşım

Şimdi, İsveç’in KTH Kraliyet Teknoloji Enstitüsü’nün Konuşma, Müzik ve İşitme Bölümünden yeni bir araştırma, konuşma ve jest tanıma sistemlerini birleştirmeyi amaçlıyor. Bu, konuşma tabanlı iletişiminizi, konuşma için entegre bir ek olarak değil, paralel bir araştırma alanı olarakjest kullanarak artırabilir.

İsveç konuşma/jest projesinin test sayfasından görseller. Kaynak: https://swatsw.github.io/isg_icmi21/

Araştırma, Entegre Konuşma ve Jest (ISG) sentezleme adı verilen yeni bir model öneriyor ve konuşma ve jest araştırmalarından bir dizi state-of-the-art nöral modeli bir araya getiriyor.

Yeni yaklaşım, konuşma olarak doğrusal pipeline modelini (jest bilgisi konuşmadan sonra birincil işleme aşaması olarak sıralı olarak türetilir) terk ediyor ve daha entegre bir yaklaşım benimseyerek, mevcut sistemlerle eşit derecede puan alıyor ve daha hızlı sentez zamanı ve azaltılmış parametre sayısına ulaşıyor.

Doğrusal vs entegre yaklaşımlar. Kaynak: https://arxiv.org/pdf/2108.11436.pdf

Çok modlu sistem, bir spontan metin-konuşma sentezleyici ve bir ses-konuşma ile yönlendirilen jest üreticisini içerir ve her ikisi de mevcut Trinity Speech Gesture veri setine göre eğitilir. Veri seti, farklı konularda konuşan ve özgürce jest yapan bir erkeğin 244 dakika ses ve vücut kaydını içerir.

Çalışma, yüz ifadeleri ve konuşmayı üreten DurIAN projesine benzer bir şekilde, jest ve konuşma üretir ve daha çok ifade tanıma ve sentezinin alanına girer.

Mimari

Projenin konuşma ve görsel (jest) bileşenleri, veri açısından dengesizdir; metin sığ ve jest zengindir ve veri yoğundur – bu, hedefleri ve metrikleri tanımlama açısından bir zorluktur. Bu nedenle araştırmacılar, sistemleri daha çok mekanik yaklaşımlar yerine, insan yanıtıyla değerlendirdi.

İki ana ISG modeli, Google’ın 2017 ikinci iterasyonuna dayalı olarak geliştirildi. ve Güney Koreli Glow-TTS girişimi 2020 yılında yayımlandı. Tacotron, otoregresif bir LSTM mimarisini kullanırken, Glow-TTS paralel olarak konvolüsyon operatörleri aracılığıyla çalışır ve daha hızlı GPU performansı sağlar ve otoregresif modellerde görülebilen kararlılık sorunları olmadan.

Araştırmacılar, projenin sırasında üç etkili konuşma/jest sistemini test etti: aynı projenin bazı araştırmacıları tarafından 2021 yılında yayımlanan çift modlu konuşma ve jest oluşturma için değiştirilmiş bir sürüm; Tacotron 2’nin ISG’ye özgü değiştirilmiş bir sürümü; ve Glow-TTS’nin ISG’ye özgü olarak büyük ölçüde değiştirilmiş bir sürümü.

Sistemleri değerlendirmek için araştırmacılar, önceden tanımlanmış metin parçalarına konuşan ve hareket eden 3D insanlarla bir web tabanlı geri bildirim ortamı oluşturdular (ortamın genel görünümü public proje sayfasında görülebilir).

Test ortamı.

Deneklere, sistem performansı hakkında konuşma ve jest, sadece konuşma ve sadece jest açısından geri bildirimde bulunmaları istendi. Sonuçlar, yeni ISG sürümünde, daha eski pipeline sürümüne göre hafif bir iyileşme gösterdi, ancak daha yeni sistem daha hızlı ve azaltılmış kaynaklarla çalışıyor.

Sorulduğunda ‘Jest ne kadar insancıldır?’, tam entegre ISG modeli, daha yavaş pipeline modelinden biraz daha önde bitiyor, Tacotron ve Glow tabanlı modeller daha geride kalıyor.

Gömülü Omuz Silkiş

Tacotron2-ISG modeli, üç yaklaşımın en başarılısı, veri setindeki bazı en yaygın cümlelerle ilgili olarak ‘altbilinçli’ öğrenme düzeyini gösteriyor, örneğin ‘Bilmiyorum’ – bu cümleyi doprovleyen bir omuz silkişini üretmesi için açık veri olmasa da, araştırmacılar üreticinin gerçekten omuz silkeceğini buldular.

Araştırmacılar, bu yeni projenin çok özel doğası, doğal olarak konuşma ve jest verilerini entegre bir şekilde uygun bir şekilde eğitebilecek özel kaynakların eksikliğine yol açar. Buna rağmen, ve bu araştırmaların öncü doğasına rağmen, konuşma, dilbilim ve jest tanıma alanında umut verici ve az araştırılan bir alan olarak görüyorlar.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

Konuşma ve Jest Senkronizasyonunu Birleştirmek

Konuşma ve Jest için Birleştirilmiş Bir Yaklaşım

Mimari

Gömülü Omuz Silkiş

You may like