Kecerdasan buatan
Mengintegrasikan Sintesis Ucapan dan Gerakan

Ketika saya kembali ke Britania dari beberapa tahun di Italia Selatan, butuh beberapa waktu untuk berhenti menggestikulasi saat berbicara. Di Inggris, mendukung ucapan dengan gerakan tangan yang berani hanya membuat Anda terlihat terlalu bersemangat; di Italia, sebagai orang yang belajar bahasa, itu sebenarnya membantu saya untuk dipahami. Bahkan sekarang, pada kesempatan yang lebih jarang bahwa saya berbicara bahasa Italia, ‘tangan liar’ itu kembali berfungsi. Hampir mustahil untuk berbicara bahasa Italia tanpa bergerak.
Dalam beberapa tahun terakhir, komunikasi yang didukung gerakan dalam budaya Italia dan Yahudi telah mendapat perhatian publik sebagai lebih dari sekadar trope dari karya Martin Scorsese dan film Woody Allen awal. Pada 2013, New York Times mengumpulkan sejarah video singkat tentang gerakan tangan Italia; akademisi mulai mempelajari kecenderungan rasial untuk menggestikulasi, bukan menolak subjek sebagai stereotip; dan emoji baru dari Unicode Consortium menutup kekurangan gerakan yang datang dengan komunikasi digital, berbasis teks murni.
Pendekatan Terintegrasi untuk Ucapan dan Gesticulasi
Sekarang, penelitian baru dari Departemen Ucapan, Musik, dan Pendengaran di KTH Royal Institute of Technology Swedia berusaha untuk menggabungkan pengenalan ucapan dan gerakan menjadi sistem multi-modal terintegrasi yang berpotensi meningkatkan pemahaman kita tentang komunikasi berbasis ucapan dengan menggunakan bahasa tubuh sebagai pelengkap terintegrasi untuk ucapan, bukan bidang studi paralel.

Visual dari halaman tes proyek ucapan/gerakan Swedia. Sumber: https://swatsw.github.io/isg_icmi21/
Penelitian ini mengusulkan model baru yang disebut Sintesis Ucapan dan Gerakan Terintegrasi (ISG), dan menggabungkan sejumlah model neural mutakhir dari penelitian ucapan dan gerakan.
Pendekatan baru ini meninggalkan model pipa linier (di mana informasi gerakan dihasilkan secara berurutan dari ucapan sebagai tahap pemrosesan sekunder) untuk pendekatan yang lebih terintegrasi, yang dinilai sama dengan sistem yang ada menurut pengguna akhir, dan yang mencapai waktu sintesis yang lebih cepat dan mengurangi jumlah parameter.

Pendekatan linier vs terintegrasi. Sumber: https://arxiv.org/pdf/2108.11436.pdf
Sistem multi-modal baru ini mencakup sintetisator teks-ke-ucapan spontan dan generator gerakan yang digerakkan oleh audio-ucapan, keduanya dilatih pada dataset Trinity Speech Gesture yang ada. Dataset ini berisi 244 menit audio dan tubuh yang ditangkap dari seorang pria yang berbicara tentang topik yang berbeda dan menggestikulasi secara bebas.
Pekerjaan ini adalah setara novel dan tangensial dengan proyek DurIAN, yang menghasilkan ekspresi wajah dan ucapan, bukan gerakan dan ucapan, dan yang lebih masuk dalam ranah pengenalan dan sintesis ekspresi.
Arsitektur
Komponen ucapan dan visual (gerakan) dari proyek ini tidak seimbang dalam hal data; teks jarang dan gesticulasi kaya dan intensif data – tantangan dalam menentukan tujuan dan metrik. Oleh karena itu, peneliti menilai sistem ini terutama dengan respons manusia terhadap output, bukan dengan pendekatan mekanis yang lebih jelas seperti mean square error (MSE).
Dua model ISG utama dikembangkan di sekitar iterasi kedua dari proyek sintesis ucapan akhir-ke-akhir Google 2017 Tacotron, dan inisiatif Glow-TTS Korea Selatan yang diterbitkan pada 2020. Tacotron menggunakan arsitektur LSTM autoregresif, sedangkan Glow-TTS bekerja secara paralel melalui operator konvolusi, dengan kinerja GPU yang lebih cepat dan tanpa masalah stabilitas yang dapat terjadi pada model autoregresif.












