Trí tuệ nhân tạo
Tích hợp Tổng hợp Giọng nói và Gesture

Khi tôi trở về Anh từ miền Nam Ý sau một vài năm, tôi đã mất một thời gian để ngừng sử dụng cử chỉ khi nói. Ở Anh, việc sử dụng cử chỉ tay để hỗ trợ giọng nói chỉ làm cho bạn trông như đang quá caffein; ở Ý, khi tôi học ngôn ngữ, nó thực sự giúp tôi được hiểu. Ngay cả bây giờ, khi tôi nói tiếng Ý ít hơn, những ‘cử chỉ điên rồ’ lại xuất hiện. Việc nói tiếng Ý gần như không thể nếu không di chuyển.
Trong những năm gần đây, giao tiếp hỗ trợ cử chỉ trong văn hóa Ý và Do Thái đã thu hút sự chú ý của công chúng như một yếu tố hơn là chỉ là một hình ảnh từ các bộ phim của Martin Scorsese và Woody Allen. Năm 2013, New York Times đã biên soạn một lịch sử ngắn về cử chỉ tay Ý; giới học thuật đang bắt đầu nghiên cứu về khuynh hướng chủng tộc đối với cử chỉ tay, thay vì bác bỏ chủ đề này như một khuôn mẫu; và các biểu tượng cảm xúc mới từ Unicode Consortium đang làm giảm khoảng cách cử chỉ khi giao tiếp kỹ thuật số.
Phương pháp Tích hợp Giọng nói và Cử chỉ
Bây giờ, nghiên cứu mới từ Bộ phận Giọng nói, Âm nhạc và Nghe tại Viện Công nghệ Hoàng gia KTH Thụy Điển đang tìm cách kết hợp nhận dạng giọng nói và cử chỉ vào một hệ thống đa phương thức thống nhất, có thể tăng cường hiểu biết về giao tiếp dựa trên giọng nói bằng cách sử dụng ngôn ngữ cơ thể như một phần phụ trợ tích hợp vào giọng nói, thay vì một lĩnh vực nghiên cứu song song.

Hình ảnh từ trang thử nghiệm của dự án giọng nói/cử chỉ Thụy Điển. Nguồn: https://swatsw.github.io/isg_icmi21/
Nghiên cứu đề xuất một mô hình mới gọi là Tổng hợp Giọng nói và Cử chỉ Tích hợp (ISG), và kết hợp một số mô hình thần kinh tiên tiến từ nghiên cứu giọng nói và cử chỉ.
Phương pháp mới này từ bỏ mô hình dòng chảy tuyến tính (trong đó thông tin cử chỉ được suy dẫn tuần tự từ giọng nói như một giai đoạn xử lý thứ cấp) cho một phương pháp tích hợp hơn, được đánh giá ngang bằng với các hệ thống hiện có theo người dùng cuối, và đạt được thời gian tổng hợp nhanh hơn và giảm số lượng tham số.

Phương pháp tuyến tính so với phương pháp tích hợp. Nguồn: https://arxiv.org/pdf/2108.11436.pdf
Hệ thống đa phương thức mới này kết hợp một bộ tổng hợp giọng nói tự nhiên và một bộ tạo cử chỉ điều khiển bằng âm thanh, cả hai đều được đào tạo trên cơ sở dữ liệu Trinity Speech Gesture hiện có. Cơ sở dữ liệu chứa 244 phút âm thanh và hình ảnh của một người đàn ông nói về các chủ đề khác nhau và cử chỉ tự do.
Công việc này là một tương đương mới và độc đáo với dự án DurIAN, tạo ra biểu cảm khuôn mặt và giọng nói, thay vì cử chỉ và giọng nói, và thuộc phạm vi nhận dạng và tổng hợp biểu cảm.
Kiến trúc
Các thành phần giọng nói và hình ảnh (cử chỉ) của dự án không cân bằng về mặt dữ liệu; văn bản thưa thớt và cử chỉ phong phú và đòi hỏi nhiều dữ liệu – một thách thức trong việc xác định mục tiêu và chỉ số. Do đó, các nhà nghiên cứu đánh giá hệ thống chủ yếu dựa trên phản ứng của con người đối với đầu ra, thay vì các phương pháp cơ học rõ ràng hơn như sai số trung bình (MSE).
Hai mô hình ISG chính được phát triển xung quanh phiên bản thứ hai của dự án tổng hợp giọng nói Tacotron của Google năm 2017, và sáng kiến Glow-TTS của Hàn Quốc được công bố năm 2020. Tacotron sử dụng kiến trúc LSTM tự hồi quy, trong khi Glow-TTS hoạt động song song thông qua các toán tử convolution, với hiệu suất GPU nhanh hơn và không có vấn đề ổn định có thể xảy ra với các mô hình tự hồi quy.
Các nhà nghiên cứu đã thử nghiệm ba hệ thống giọng nói/cử chỉ hiệu quả trong dự án: một phiên bản sửa đổi của một mô hình đã xuất bản vào năm 2021 bởi một số nhà nghiên cứu cùng dự án mới; một phiên bản ISG chuyên dụng và sửa đổi của Tacotron 2 mã nguồn mở; và một phiên bản ISG được sửa đổi rất nhiều của Glow-TTS.
Để đánh giá các hệ thống, các nhà nghiên cứu đã tạo một môi trường phản hồi dựa trên web với những người 3D được nói và di chuyển đến các đoạn văn bản được định nghĩa trước (tổng quan về môi trường có thể được xem tại trang dự án công khai).

Môi trường thử nghiệm.
Các đối tượng thử nghiệm được yêu cầu đánh giá hiệu suất của hệ thống dựa trên giọng nói và cử chỉ, giọng nói chỉ, và cử chỉ chỉ. Kết quả cho thấy sự cải thiện nhỏ trong phiên bản ISG mới so với phiên bản đường ống cũ, mặc dù hệ thống mới hoạt động nhanh hơn và với ít tài nguyên hơn.

Khi được hỏi ‘Cử chỉ này có giống con người đến mức nào?’, mô hình ISG tích hợp hoàn toàn kết thúc hơi dẫn trước mô hình đường ống chậm hơn, với các mô hình dựa trên Tacotron và Glow ở phía sau.
Cử chỉ Được Nhúng
Mô hình Tacotron2-ISG, cách tiếp cận thành công nhất trong số ba, thể hiện một mức độ ‘học tiềm thức’ liên quan đến một số cụm từ phổ biến nhất trong cơ sở dữ liệu, chẳng hạn như ‘Tôi không biết’ – mặc dù không có dữ liệu rõ ràng nào sẽ khiến nó tạo ra một cử chỉ vẫy để đi kèm với cụm từ này, các nhà nghiên cứu phát hiện ra rằng bộ tạo ra thực sự vẫy.
Các nhà nghiên cứu lưu ý rằng bản chất rất cụ thể của dự án này chắc chắn có nghĩa là sự khan hiếm các tài nguyên chung, chẳng hạn như các tập dữ liệu chuyên dụng kết hợp dữ liệu giọng nói và cử chỉ theo cách phù hợp cho việc đào tạo một hệ thống như vậy. Tuy nhiên, và bất chấp tính chất tiên phong của nghiên cứu, họ coi đây là một con đường đầy hứa hẹn và ít được khám phá trong lĩnh vực giọng nói, ngôn ngữ học và nhận dạng cử chỉ.












