Terhubung dengan kami

Kecerdasan Buatan

Menyatukan Pidato dan Gestur Sintesis

mm

Ketika saya kembali ke Inggris dari beberapa tahun di Italia Selatan, butuh waktu cukup lama untuk berhenti menggerakkan tangan saat berbicara. Di Inggris, mendukung pidato Anda dengan gerakan tangan yang berani hanya membuat Anda terlihat terlalu banyak berkafein; di Italia, sebagai seseorang yang belajar bahasa, itu benar-benar membantu saya untuk dipahamiBahkan sekarang, di saat-saat yang jarang saya gunakan bahasa Italia, 'tangan-tangan liar' itu kembali muncul. Hampir mustahil untuk berbicara bahasa Italia tanpa bergerak.

Dalam beberapa tahun terakhir, komunikasi yang didukung gerakan dalam budaya Italia dan Yahudi telah menjadi perhatian publik lebih dari sekadar kiasan dari karya Martin Scorsese dan film Woody Allen awal. Pada tahun 2013, New York Times menyusun a riwayat video singkat gerakan tangan Italia; akademisi mulai mempelajari kecenderungan rasial untuk gerakan tangan, daripada menolak subjek sebagai stereotip; dan emoji baru dari Konsorsium Unicode adalah menutup kekurangan isyarat yang datang dengan murni digital, komunikasi berbasis teks.

Pendekatan Terpadu untuk Ucapan dan Gerakan

Sekarang, penelitian baru dari Departemen Bicara, Musik, dan Pendengaran di Institut Teknologi Kerajaan KTH Swedia berupaya menggabungkan pengenalan bicara dan gerakan menjadi sistem multi-moda terpadu yang berpotensi meningkatkan pemahaman kita tentang komunikasi berbasis bicara dengan menggunakan bahasa tubuh sebagai pelengkap terpadu untuk bicara, alih-alih bidang studi paralel.

Visual dari halaman pengujian proyek ucapan/isyarat bahasa Swedia. Sumber: https://swatsw.github.io/isg_icmi21/

Visual dari halaman pengujian proyek ucapan/isyarat bahasa Swedia. Sumber: https://swatsw.github.io/isg_icmi21/

Penelitian ini mengusulkan model baru yang disebut sintesis Integrated Speech and Gesture (ISG), dan menyatukan sejumlah model saraf canggih dari penelitian ucapan dan gerakan.

Pendekatan baru meninggalkan linear model pipa (di mana informasi gerakan diturunkan secara berurutan dari ucapan sebagai tahap pemrosesan sekunder) untuk pendekatan yang lebih terintegrasi, yang menilai sama dengan sistem yang ada menurut pengguna akhir, dan yang mencapai waktu sintesis lebih cepat dan mengurangi jumlah parameter.

Pendekatan linier vs terintegrasi. Sumber: https://arxiv.org/pdf/2108.11436.pdf

Pendekatan linier vs terintegrasi. Sumber: https://arxiv.org/pdf/2108.11436.pdf

Sistem multimodal yang baru menggabungkan synthesizer text-to-speech spontan dan generator gerakan berbasis audio-speech, keduanya dilatih pada Trinity Speech Gesture yang ada. kumpulan data. Dataset berisi 244 menit rekaman audio dan tubuh seorang pria yang berbicara tentang berbagai topik dan menggerakkan tangan dengan bebas.

Karya itu novel dan setara tangensial dengan Durian proyek, yang menghasilkan ekspresi wajah dan ucapan, daripada gerak tubuh dan ucapan, dan yang lebih masuk ke ranah pengenalan dan sintesis ekspresi.

Arsitektur

Komponen ucapan dan visual (gerakan) proyek tidak seimbang dalam hal data; teks jarang dan isyarat kaya dan padat data – sebuah tantangan dalam hal menentukan tujuan dan metrik. Oleh karena itu para peneliti mengevaluasi sistem terutama dengan tanggapan manusia terhadap keluaran, daripada pendekatan mekanistik yang lebih jelas seperti mean square error (MSE).

Dua model ISG utama dikembangkan di sekitar iterasi kedua dari Google tahun 2017 Tacotron proyek sintesis pidato end-to-end, dan Korea Selatan Cahaya-TTS inisiatif diterbitkan pada tahun 2020. Tacotron menggunakan arsitektur LSTM autoregresif, sementara Glow-TTS bekerja secara paralel melalui operator konvolusi, dengan kinerja GPU yang lebih cepat dan tanpa masalah stabilitas yang dapat muncul pada model autoregresif.

Para peneliti menguji tiga sistem ucapan/isyarat yang efektif selama proyek: versi modifikasi dari generasi ucapan dan isyarat multimodal diterbitkan pada tahun 2021 oleh sejumlah peneliti yang sama pada proyek baru; versi ISG khusus dan dimodifikasi dari sumber terbuka Tacotron 2; dan versi ISG dari Glow-TTS yang sangat diubah.

Untuk mengevaluasi sistem, para peneliti membuat lingkungan umpan balik berbasis web yang menampilkan orang-orang 3D yang diartikulasikan berbicara dan berpindah ke segmen teks yang telah ditentukan sebelumnya (tampilan umum lingkungan dapat dilihat di halaman proyek publik).

Lingkungan ujian.

Lingkungan ujian.

Subjek uji diminta untuk mengevaluasi kinerja sistem berdasarkan ucapan dan isyarat, ucapan saja, dan isyarat saja. Hasilnya menunjukkan sedikit peningkatan dalam versi ISG yang baru dibandingkan dengan versi pipeline yang lebih lama, meskipun sistem yang lebih baru beroperasi lebih cepat dan dengan sumber daya yang lebih sedikit.

Ditanya 'How human is the gesture?', model ISG yang terintegrasi penuh selesai sedikit di depan model pipa yang lebih lambat, dengan model berbasis Tacotron dan Glow jauh di belakang.

Ketika ditanya 'Seberapa manusiawikah gerakan tersebut?', model ISG yang terintegrasi sepenuhnya finis sedikit di depan model jalur yang lebih lambat, sedangkan model berbasis Tacotron dan Glow tertinggal jauh di belakang.

Mengangkat Bahu Tertanam

Model Tacotron2-ISG, yang paling berhasil dari ketiga pendekatan, menunjukkan tingkat pembelajaran 'bawah sadar' yang terkait dengan beberapa frasa paling umum dalam kumpulan data, seperti 'Saya tidak tahu' – meskipun tidak ada data eksplisit yang menyebabkannya memunculkan gerakan mengangkat bahu untuk menyertai frasa ini, para peneliti menemukan bahwa generator tersebut memang mengangkat bahu.

Para peneliti mencatat bahwa sifat spesifik proyek baru ini mau tidak mau menyebabkan kelangkaan sumber daya umum, seperti kumpulan data khusus yang menggabungkan data ucapan dan gestur dengan cara yang sesuai untuk melatih sistem tersebut. Meskipun demikian, terlepas dari sifat penelitiannya yang inovatif, mereka menganggapnya sebagai jalur yang menjanjikan dan masih sedikit dieksplorasi dalam pengenalan ucapan, linguistik, dan gestur.

 

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai