Trí tuệ nhân tạo
Nghiên cứu Trí tuệ Nhân tạo Envisages Separate Volume Controls for Dialog, Music and Sound Effects

Một nghiên cứu hợp tác mới do Mitsubishi dẫn đầu điều tra khả năng trích xuất ba bản soundtrack riêng biệt từ một nguồn âm thanh gốc, phá vỡ bản soundtrack thành lời nói, âm nhạc và hiệu ứng âm thanh (tức là tiếng ồn xung quanh).
Vì đây là một khuôn khổ xử lý hậu kỳ, nó cung cấp tiềm năng cho các thế hệ nền tảng xem đa phương tiện sau này, bao gồm thiết bị tiêu dùng, để cung cấp các điều khiển âm lượng ba điểm, cho phép người dùng tăng âm lượng của lời nói hoặc giảm âm lượng của bản soundtrack.
Trong đoạn clip ngắn dưới đây từ video đi kèm với nghiên cứu (xem cuối bài viết để xem video đầy đủ), chúng ta thấy các khía cạnh khác nhau của bản soundtrack được nhấn mạnh khi người dùng kéo một điều khiển trên một hình tam giác với mỗi một trong ba thành phần âm thanh ở một góc:
Một đoạn clip ngắn từ video đi kèm với bài viết (xem embed ở cuối bài viết). Khi người dùng kéo con trỏ tới một trong ba khía cạnh được trích xuất trong giao diện người dùng hình tam giác (ở bên phải), âm thanh nhấn mạnh phần đó của bản soundtrack ba phần. Mặc dù video dài hơn trích dẫn một số ví dụ thêm trên YouTube, nhưng chúng dường như không có sẵn hiện tại. Nguồn: https://vimeo.com/634073402
Bài viết bài viết có tiêu đề Vấn đề Cocktail Fork: Tách âm thanh ba phần cho bản soundtrack thế giới thực, và đến từ các nhà nghiên cứu tại Mitsubishi Electric Research Laboratories (MERL) ở Cambridge, MA, và Bộ phận Kỹ thuật Hệ thống Thông minh tại Đại học Indiana ở Illinois.
Tách các khía cạnh của bản soundtrack
Các nhà nghiên cứu đã đặt tên cho thách thức này là ‘Vấn đề Cocktail Party’ vì nó liên quan đến việc cô lập các yếu tố bị xen kẽ nghiêm trọng của bản soundtrack, tạo ra một bản đồ giống như một chiếc dĩa (xem hình ảnh dưới đây). Trong thực tế, các bản soundtrack đa kênh (tức là âm thanh nổi và hơn) có thể có các loại nội dung khác nhau, chẳng hạn như lời nói, âm nhạc và âm thanh xung quanh, đặc biệt là vì lời nói thường chiếm ưu thế kênh trung tâm trong các bản mix Dolby 5.1. Hiện tại, tuy nhiên, lĩnh vực nghiên cứu hoạt động về tách âm thanh đang tập trung vào việc thu thập các sợi này từ một bản soundtrack đơn, đã được nướng, như nghiên cứu hiện tại.

Cocktail Fork – trích xuất ba bản soundtrack riêng biệt từ một bản soundtrack hợp nhất và đơn. Nguồn: https://arxiv.org/pdf/2110.09958.pdf
Nghiên cứu gần đây đã tập trung vào việc trích xuất lời nói trong các môi trường khác nhau, thường để mục đích loại bỏ tiếng ồn từ âm thanh lời nói cho các hệ thống Xử lý Ngôn ngữ Tự nhiên (NLP) sau này, nhưng cũng trên sự cô lập của các giọng hát lưu trữ, hoặc để tạo điều kiện cách ly âm nhạc theo phong cách Karaoke.
Một tập dữ liệu cho mỗi khía cạnh
Cho đến nay, ít chú ý đã được dành để sử dụng loại công nghệ AI này để cung cấp cho người dùng nhiều quyền kiểm soát hơn đối với bản soundtrack. Do đó, các nhà nghiên cứu đã chính thức hóa vấn đề và tạo ra một tập dữ liệu mới như một trợ giúp cho nghiên cứu tiếp tục về tách bản soundtrack nhiều loại, cũng như thử nghiệm nó trên các khuôn khổ tách âm thanh hiện có.
Tập dữ liệu mới mà các tác giả đã phát triển được gọi là Divide and Remaster (DnR), và được bắt nguồn từ các tập dữ liệu trước đó LibriSpeech, Free Music Archive và Freesound Dataset 50k (FSD50K). Đối với những người muốn làm việc với DnR từ đầu, tập dữ liệu phải được xây dựng lại từ ba nguồn; nếu không, nó sẽ sớm được cung cấp tại Zenodo, các tác giả tuyên bố. Tuy nhiên, tại thời điểm viết, liên kết GitHub cho các tiện ích trích xuất nguồn không hoạt động, vì vậy những người quan tâm có thể phải chờ một thời gian.
Các nhà nghiên cứu đã tìm thấy rằng kiến trúc CrossNet un-mix (XUMX) được đề xuất bởi Sony vào tháng 5 hoạt động đặc biệt tốt với DnR.

Kiến trúc CrossNet của Sony.
Các tác giả tuyên bố rằng các mô hình trích xuất học máy của họ hoạt động tốt trên các bản soundtrack từ YouTube, mặc dù các đánh giá được trình bày trong bài viết dựa trên dữ liệu tổng hợp, và video hỗ trợ chính được cung cấp (được nhúng dưới đây) là video duy nhất dường như có sẵn.
Ba tập dữ liệu được sử dụng mỗi tập hợp một bộ sưu tập các loại đầu ra cần được tách ra từ bản soundtrack: FSD50K được chiếm bởi các hiệu ứng âm thanh, và bao gồm 50.000 clip âm thanh mono 44,1 kHz được gắn thẻ với 200 nhãn lớp từ ontology AudioSet của Google; Free Music Archive bao gồm 100.000 bài hát stereo bao gồm 161 thể loại âm nhạc, mặc dù các tác giả đã sử dụng một tập con chứa 25.000 bài hát, để phù hợp với FSD50K; và LibriSpeech cung cấp cho DnR 100 giờ mẫu âm thanh sách nói dưới dạng tệp âm thanh mp3 44,1kHz.
Công việc tương lai
Các tác giả dự đoán sẽ có thêm công việc trên tập dữ liệu và sự kết hợp của các mô hình riêng biệt được phát triển cho nghiên cứu thêm về các khuôn khổ nhận dạng lời nói và phân loại âm thanh, bao gồm cả việc tạo phụ đề tự động cho lời nói và âm thanh không phải lời nói. Họ cũng dự định đánh giá các khả năng về các phương pháp remix có thể giảm các hiện象 nhận thức, vẫn là vấn đề trung tâm khi chia một bản soundtrack hợp nhất thành các thành phần cấu thành của nó.
Loại tách này có thể trong tương lai sẽ có sẵn như một hàng tiêu dùng trong các TV thông minh tích hợp các mạng suy luận tối ưu hóa cao, mặc dù dường như các triển khai sớm sẽ cần một số mức độ thời gian tiền xử lý và không gian lưu trữ. Samsung đã sử dụng các mạng nơ-ron cục bộ để nâng cấp, trong khi Cognitive Processor XR của Sony, được sử dụng trong dòng Bravia của công ty, phân tích và giải thích lại các bản soundtrack một cách trực tiếp thông qua AI tích hợp nhẹ.
Các cuộc gọi để kiểm soát nhiều hơn bản soundtrack được lặp lại định kỳ, và hầu hết các giải pháp được cung cấp phải đối mặt với thực tế là bản soundtrack đã được giảm xuống theo các tiêu chuẩn hiện tại (và các giả định về những gì người xem muốn) trong các ngành công nghiệp điện ảnh và truyền hình.
Một người xem, bị kích động bởi sự chênh lệch đáng kinh ngạc về mức âm lượng giữa các yếu tố khác nhau của bản soundtrack, đã trở nên tuyệt vọng đến mức phát triển một bộ điều chỉnh âm lượng tự động dựa trên phần cứng có khả năng bình đẳng hóa âm lượng cho phim và TV.
Mặc dù các TV thông minh cung cấp một phương pháp đa dạng để cố gắng tăng âm lượng của lời nói so với mức âm lượng lớn cho âm nhạc, nhưng chúng đều đang đấu tranh chống lại các quyết định được đưa ra tại thời điểm trộn, và có thể là tầm nhìn của các nhà sản xuất nội dung muốn khán giả trải nghiệm bản soundtrack của họ chính xác như họ đã thiết lập.
Các nhà sản xuất nội dung dường như sẽ phản đối sự bổ sung này vào ‘văn hóa remix’, vì một số nhân vật hàng đầu trong ngành đã thể hiện sự không hài lòng với các thuật toán xử lý hậu kỳ TV mặc định như làm mịn chuyển động.












