Connect with us

Trí tuệ nhân tạo

Đọc Môi Với Visemes và Học Máy

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Nghiên cứu mới từ Trường Kỹ thuật Máy tính tại Tehran cung cấp một phương pháp cải tiến để giải quyết thách thức trong việc tạo ra các hệ thống học máy có khả năng đọc môi.

Bài báo này, với tiêu đề Đọc Môi Sử Dụng Giải Mã Viseme, báo cáo rằng hệ thống mới này đạt được sự cải thiện 4% về tỷ lệ lỗi từ so với mô hình tương tự tốt nhất trước đó. Hệ thống này giải quyết sự thiếu hụt chung về dữ liệu đào tạo hữu ích trong lĩnh vực này bằng cách ánh xạ visemes đến nội dung văn bản được dẫn xuất từ sáu triệu mẫu trong tập dữ liệu OpenSubtitles của các tiêu đề phim dịch.

Một viseme là tương đương trực quan của một phoneme, hiệu quả là một ánh xạ âm thanh > hình ảnh mapping có thể tạo thành một ‘tính năng’ trong một mô hình học máy.

Visemes gif

Visemes hoạt động. Nguồn: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Các nhà nghiên cứu bắt đầu bằng cách thiết lập tỷ lệ lỗi thấp nhất trên các tập dữ liệu có sẵn và phát triển các chuỗi viseme từ các thủ tục ánh xạ đã thiết lập. Từ từ, quá trình này phát triển một từ vựng trực quan của các từ – mặc dù cần phải định nghĩa xác suất độ chính xác cho các từ khác nhau chia sẻ một viseme (như ‘heart’ và ‘art’).

Visemes được giải mã

Visemes được trích xuất từ văn bản. Nguồn: https://arxiv.org/pdf/2104.04784.pdf

Khi hai từ giống hệt nhau kết quả trong cùng một viseme, từ thường xuyên xảy ra nhất được chọn.

Mô hình xây dựng trên học tập tuần tự truyền thống sequence-to-sequence bằng cách thêm một giai đoạn xử lý phụ trong đó visemes được dự đoán từ văn bản và được mô hình hóa trong một đường ống chuyên dụng:

Kiến trúc viseme đọc môi

Trên, phương pháp tuần tự truyền thống trong mô hình ký tự; dưới, sự bổ sung của mô hình ký tự viseme trong mô hình nghiên cứu Tehran. Nguồn: https://arxiv.org/pdf/2104.04784.pdf

Mô hình được áp dụng mà không có ngữ cảnh trực quan chống lại tập dữ liệu LRS3-TED, phát hành từ Đại học Oxford vào năm 2018, với tỷ lệ lỗi từ tệ nhất (WER) đạt được là 24,29%.

Nghiên cứu Tehran cũng kết hợp việc sử dụng một chuyển đổi grapheme-to-phoneme.

Trong một thử nghiệm chống lại nghiên cứu Oxford năm 2017 Đọc Môi Câu Trong Tự Nhiên (xem dưới), phương pháp Video-To-Viseme đạt được tỷ lệ lỗi từ là 62,3%, so với 69,5% cho phương pháp Oxford.

Các nhà nghiên cứu kết luận rằng việc sử dụng một lượng lớn thông tin văn bản, kết hợp với ánh xạ grapheme-to-phoneme và viseme, hứa hẹn sẽ cải thiện so với trạng thái hiện tại của các hệ thống đọc môi tự động, trong khi thừa nhận rằng các phương pháp được sử dụng có thể tạo ra kết quả tốt hơn khi được kết hợp vào các khuôn khổ hiện tại tinh vi hơn.

Đọc môi bằng máy đã là một lĩnh vực nghiên cứu tích cực và liên tục trong tầm nhìn máy tính và NLP trong hai thập kỷ qua. Trong số nhiều ví dụ và dự án khác, vào năm 2006, việc sử dụng phần mềm đọc môi tự động đã thu hút tiêu đề khi được sử dụng để giải thích những gì Adolf Hitler đang nói trong một số bộ phim im lặng nổi tiếng được quay tại nơi ẩn náu của ông ở Bavaria, mặc dù ứng dụng dường như đã biến mất vào sự vô danh kể từ đó (mười hai năm sau, Sir Peter Jackson đã phải dựa vào người đọc môi con người để phục hồi các cuộc trò chuyện của cảnh quay WW1 trong dự án phục hồi They Shall Not Grow Old).

Vào năm 2017, Đọc Môi Câu Trong Tự Nhiên, một sự hợp tác giữa Đại học Oxford và bộ phận nghiên cứu AI của Google, đã tạo ra một trí tuệ nhân tạo đọc môi có khả năng suy luận chính xác 48% ngôn ngữ trong video mà không có âm thanh, nơi một người đọc môi con người chỉ có thể đạt được độ chính xác 12,4% từ cùng một tài liệu. Mô hình được đào tạo trên hàng nghìn giờ cảnh quay TV của BBC.

Công việc này tiếp theo từ một sự khởi xướng riêng biệt của Oxford/Google từ năm trước, với tên LipNet, một kiến trúc mạng nơ-ron nhân tạo ánh xạ các chuỗi video có độ dài thay đổi thành các chuỗi văn bản bằng cách sử dụng Mạng nơ-ron hồi quy có cổng (GRN), thêm chức năng vào kiến trúc cơ bản của Mạng nơ-ron hồi quy (RNN). Mô hình đạt được hiệu suất tốt hơn 4,1 lần so với người đọc môi con người.

Ngoài vấn đề về việc tạo ra một bản ghi chính xác trong thời gian thực, thách thức của việc giải thích ngôn ngữ từ video trở nên sâu sắc hơn khi bạn loại bỏ các ngữ cảnh hữu ích, chẳng hạn như âm thanh, cảnh quay ‘trực diện’ được chiếu sáng tốt và ngôn ngữ/văn hóa nơi các phoneme/viseme tương đối khác biệt.

Mặc dù hiện tại không có hiểu biết kinh nghiệm về ngôn ngữ nào khó đọc môi nhất trong sự vắng mặt hoàn toàn của âm thanh, tiếng Nhật là một ứng cử viên hàng đầu. Các cách khác nhau mà người bản xứ Nhật (và một số người bản xứ Tây và Đông Á khác) tận dụng các biểu cảm khuôn mặt chống lại nội dung của lời nói của họ đã làm cho họ trở thành một thách thức lớn hơn cho các hệ thống phân tích cảm xúc.

Tuy nhiên, đáng chú ý rằng phần lớn văn học khoa học về chủ đề này thường cẩn thận, không chỉ vì ngay cả nghiên cứu khách quan có ý định tốt trong lĩnh vực này cũng có nguy cơ vượt qua vào việc lập hồ sơ chủng tộc và phổ biến các khuôn mẫu hiện có.

Ngôn ngữ có tỷ lệ cao các thành phần thanh hầu, chẳng hạn như ChechenDutch, đặc biệt là vấn đề đối với các kỹ thuật trích xuất ngôn ngữ tự động, trong khi các nền văn hóa nơi người nói có thể thể hiện cảm xúc hoặc sự tôn trọng bằng cách nhìn đi nơi khác (lại, thường trong các nền văn hóa châu Á) thêm một chiều khác nơi các nhà nghiên cứu đọc môi AI sẽ cần phải phát triển các phương pháp ‘điền vào’ từ các gợi ý ngữ cảnh khác.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]