Trí tuệ nhân tạo

Tích hợp Tổng hợp Giọng nói và Gesture

Published August 28, 2021

Updated April 28, 2026

Martin Anderson

Khi tôi trở về Anh từ miền Nam Ý sau một vài năm, tôi đã mất khá nhiều thời gian để ngừng sử dụng cử chỉ khi nói. Ở Anh, việc sử dụng cử chỉ tay mạnh mẽ khi nói chỉ làm cho bạn看起来 quá caffeinated; ở Ý, khi tôi học tiếng Ý, nó thực sự giúp tôi được hiểu. Ngay cả bây giờ, khi tôi nói tiếng Ý trong những dịp hiếm hoi, ‘cử chỉ điên rồ’ lại xuất hiện. Việc nói tiếng Ý gần như không thể nếu không di chuyển.

Trong những năm gần đây, việc giao tiếp được hỗ trợ bởi cử chỉ trong văn hóa Ý và Do Thái đã thu hút sự chú ý của công chúng như một thứ hơn là một trope từ công việc của Martin Scorsese và những bộ phim đầu tiên của Woody Allen. Năm 2013, New York Times đã biên soạn một lịch sử ngắn về cử chỉ tay Ý; giới học thuật đang bắt đầu nghiên cứu về khuynh hướng chủng tộc đối với cử chỉ tay, thay vì xem chủ đề này như một khuôn mẫu; và những biểu tượng cảm xúc mới từ Unicode Consortium đang lấp đầy khoảng trống về cử chỉ mà giao tiếp kỹ thuật số thuần túy không thể cung cấp.

Phương pháp Tổng hợp Giọng nói và Cử chỉ Tích hợp

Bây giờ, nghiên cứu mới từ Bộ phận Giọng nói, Âm nhạc và Nghe tại Viện Công nghệ Hoàng gia KTH Thụy Điển đang tìm cách kết hợp nhận dạng giọng nói và cử chỉ vào một hệ thống đa phương thức thống nhất, có thể tăng cường hiểu biết về giao tiếp dựa trên giọng nói bằng cách sử dụng ngôn ngữ cơ thể như một phần phụ trợ tích hợp vào giọng nói, thay vì một lĩnh vực nghiên cứu song song.

Hình ảnh từ trang thử nghiệm của dự án giọng nói/cử chỉ Thụy Điển. Nguồn: https://swatsw.github.io/isg_icmi21/

Nghiên cứu đề xuất một mô hình mới gọi là Tổng hợp Giọng nói và Cử chỉ Tích hợp (ISG), và kết hợp một số mô hình thần kinh tiên tiến từ nghiên cứu về giọng nói và cử chỉ.

Phương pháp mới này bỏ qua mô hình dòng chảy tuyến tính (trong đó thông tin cử chỉ được suy dẫn tuần tự từ giọng nói như một giai đoạn xử lý thứ cấp) để áp dụng một phương pháp tích hợp hơn, được đánh giá ngang bằng với các hệ thống hiện có theo người dùng cuối, và đạt được thời gian tổng hợp nhanh hơn và giảm số lượng tham số.

Phương pháp tuyến tính so với tích hợp. Nguồn: https://arxiv.org/pdf/2108.11436.pdf

Hệ thống đa phương thức mới này kết hợp một bộ tổng hợp giọng nói tự phát và một bộ tạo cử chỉ điều khiển bằng âm thanh, cả hai đều được đào tạo trên tập dữ liệu Trinity Speech Gesture hiện có. Tập dữ liệu này chứa 244 phút âm thanh và hình ảnh của một người đàn ông nói về các chủ đề khác nhau và cử chỉ tự do.

Công việc này là một tương đương mới và độc đáo với dự án DurIAN, tạo ra biểu cảm khuôn mặt và giọng nói, thay vì cử chỉ và giọng nói, và thuộc phạm vi nhận dạng và tổng hợp biểu cảm.

Cấu trúc

Các thành phần giọng nói và hình ảnh (cử chỉ) của dự án không cân bằng về mặt dữ liệu; văn bản thưa thớt và cử chỉ phong phú và đòi hỏi nhiều dữ liệu – một thách thức trong việc xác định mục tiêu và chỉ số. Do đó, các nhà nghiên cứu đánh giá hệ thống chủ yếu dựa trên phản hồi của con người đối với đầu ra, thay vì các phương pháp cơ học rõ ràng hơn như sai số trung bình (MSE).

Hai mô hình ISG chính được phát triển xung quanh phiên bản thứ hai của dự án tổng hợp giọng nói Tacotron của Google năm 2017, và sáng kiến Glow-TTS của Hàn Quốc được công bố năm 2020. Tacotron sử dụng kiến trúc LSTM tự hồi quy, trong khi Glow-TTS hoạt động song song thông qua các toán tử convolution, với hiệu suất GPU nhanh hơn và không có vấn đề ổn định có thể xảy ra với các mô hình tự hồi quy.

Các nhà nghiên cứu đã thử nghiệm ba hệ thống giọng nói/cử chỉ hiệu quả trong dự án: một phiên bản sửa đổi của một mô hình đa phương thức tạo giọng nói và cử chỉ được công bố năm 2021 bởi một số nhà nghiên cứu cùng dự án mới; một phiên bản ISG chuyên dụng và sửa đổi của Tacotron 2 mã nguồn mở; và một phiên bản ISG được sửa đổi mạnh mẽ của Glow-TTS.

Để đánh giá các hệ thống, các nhà nghiên cứu đã tạo một môi trường phản hồi dựa trên web với người 3D được mô phỏng nói và di chuyển đến các đoạn văn bản được định nghĩa trước (khung nhìn chung của môi trường có thể được xem tại trang dự án công khai).

Môi trường thử nghiệm.

Các đối tượng thử nghiệm được yêu cầu đánh giá hiệu suất của hệ thống dựa trên giọng nói và cử chỉ, giọng nói chỉ, và cử chỉ chỉ. Kết quả cho thấy sự cải thiện nhỏ trong phiên bản ISG mới so với phiên bản đường ống cũ, mặc dù hệ thống mới hoạt động nhanh hơn và với ít tài nguyên hơn.

Khi được hỏi ‘Cử chỉ này giống con người đến mức nào?’, mô hình ISG tích hợp hoàn toàn kết thúc hơi dẫn trước mô hình đường ống chậm hơn, với các mô hình dựa trên Tacotron và Glow ở phía sau.

Cử chỉ Ăn vào

Mô hình Tacotron2-ISG, cách tiếp cận thành công nhất trong số ba, thể hiện một mức độ ‘học tiềm thức’ liên quan đến một số cụm từ phổ biến nhất trong tập dữ liệu, như ‘Tôi không biết’ – mặc dù không có dữ liệu rõ ràng nào sẽ khiến nó tạo ra một cử chỉ lắc vai để đi kèm với cụm từ này, các nhà nghiên cứu phát hiện ra rằng bộ tạo ra thực sự lắc vai.

Các nhà nghiên cứu lưu ý rằng bản chất đặc biệt của dự án này chắc chắn có nghĩa là sự khan hiếm các nguồn lực chung, chẳng hạn như tập dữ liệu chuyên dụng kết hợp dữ liệu giọng nói và cử chỉ theo cách phù hợp cho việc đào tạo một hệ thống như vậy. Tuy nhiên, và bất chấp tính chất tiên phong của nghiên cứu, họ coi đây là một hướng đi đầy hứa hẹn và ít được khám phá trong lĩnh vực giọng nói, ngôn ngữ học và nhận dạng cử chỉ.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Tích hợp Tổng hợp Giọng nói và Gesture

Phương pháp Tổng hợp Giọng nói và Cử chỉ Tích hợp

Cấu trúc

Cử chỉ Ăn vào

You may like