Штучний Інтелект

Дослідження AI передбачає окремі регулятори гучності для діалогів, музики та звукових ефектів

оновлений on 9 Грудня, 2022

Нове співробітництво під керівництвом Mitsubishi вивчає можливість вилучення трьох окремих звукових доріжок з оригінального аудіоджерела, розбиваючи звукову доріжку на мову, музику та звукові ефекти (тобто навколишній шум).

Оскільки це вже створена структура обробки, вона пропонує можливості для наступних поколінь мультимедійних платформ перегляду, включаючи споживче обладнання, пропонувати триточкові регулятори гучності, що дозволяє користувачеві підвищувати гучність діалогу або зменшувати гучність звукової доріжки .

У наведеному нижче короткому ролику із супровідного відео для дослідження (див. кінець статті для повного відео) ми бачимо, як підкреслюються різні аспекти звукової доріжки, коли користувач перетягує елемент керування через трикутник з кожним із трьох аудіокомпонентів в одному куті. :

Короткий уривок із відео, яке супроводжує статтю (див. вбудовування в кінці статті). Коли користувач перетягує курсор до однієї з трьох витягнутих граней в інтерфейсі користувача трикутника (праворуч), звук підкреслює цю частину тристоронньої звукової доріжки. Хоча довше відео цитує низку додаткових прикладів на YouTube, вони, здається, наразі недоступні. Джерело: https://vimeo.com/634073402

Команда папір має право Проблема коктейльної вилки: розділення аудіосистеми трьома стовбурами для звукових доріжок реального світу, і походить від дослідників з дослідницьких лабораторій Mitsubishi Electric (MERL) у Кембриджі, штат Массачусетс, і відділу розробки інтелектуальних систем Університету Індіани в Іллінойсі.

Розділення граней звукової доріжки

Дослідники назвали завдання «Проблема коктейльної вечірки», оскільки воно передбачає виділення сильно заплутаних елементів саундтреку, що створює дорожню карту, схожу на вилку (див. зображення нижче). На практиці багатоканальні (тобто стерео та інші) звукові доріжки можуть мати різну кількість типів вмісту, як-от діалог, музика та атмосфера, особливо тому, що діалог має тенденцію до домінують над центральним каналом у міксах Dolby 5.1. В даний час, однак. дуже активна галузь дослідження розділення аудіо зосереджена на захопленні цих ниток з єдиної запеченої звукової доріжки, як і поточні дослідження.

The Cocktail Fork – створення трьох різних саундтреків із об’єднаного єдиного саундтреку. Джерело: https://arxiv.org/pdf/2110.09958.pdf

Останні дослідження були зосереджені на вилученні мовлення в різних середовищах, часто з метою зменшення шуму аудіо мовлення для подальшої взаємодії з системами обробки природної мови (NLP), а також на ізоляція архівних співочих голосів або для створення синтетичних версій справжніх (навіть мертвий) співаків, або полегшити Музична ізоляція в стилі караоке.

Набір даних для кожного аспекту

На сьогодні мало уваги приділялося використанню такого типу технології штучного інтелекту, щоб дати користувачам більше контролю над міксуванням звукової доріжки. Тому дослідники формалізували проблему та створили новий набір даних як допоміжний засіб для поточних досліджень розділення звукової доріжки на кілька типів, а також тестування його на різних існуючих структурах розділення аудіо.

Новий набір даних, який розробили автори, називається Розділіть і перемастеруйте (DnR), і отримано з попередніх наборів даних LibriSpeech, Безкоштовний музичний архів і Набір даних Freesound 50k (FSD50K). Для тих, хто бажає працювати з DnR з нуля, набір даних повинен бути реконструйований з трьох джерел; в іншому випадку він незабаром буде доступний на Zenodo, стверджують автори. Однак на момент написання статті надані Посилання на GitHub для утиліт видобування вихідного коду наразі неактивний, тому зацікавленим, можливо, доведеться трохи почекати.

Дослідники виявили, що CrossNet un-mix (XUMX) архітектура, запропонована Sony у травні, особливо добре працює з DnR.

Архітектура CrossNet від Sony.

Автори стверджують, що їхні моделі вилучення за допомогою машинного навчання добре працюють із звуковими доріжками з YouTube, хоча оцінки, представлені в статті, базуються на синтетичних даних, а надане основне допоміжне відео (вбудоване нижче) наразі є єдиним, яке, здається, доступне.

Кожен із трьох використаних наборів даних містить колекцію вихідних даних, які потрібно відокремити від звукової доріжки: FSD50K займається звуковими ефектами та містить 50,000 44.1 монофонічних аудіокліпів 200 кГц, позначених 100,000 мітками класів з онтології Google AudioSet; Безкоштовний музичний архів містить 161 25,000 стереопісень, що охоплюють 50 музичний жанр, хоча автори використали підмножину, що містить 100 44.1 пісень, для порівняння з FSD3K; а LibriSpeech надає DnR XNUMX годин зразків аудіокниг у вигляді аудіофайлів mpXNUMX XNUMX кГц.

Майбутня робота

Автори очікують подальшої роботи над набором даних і поєднанням окремих моделей, розроблених для додаткових досліджень розпізнавання мовлення та систем класифікації звуків, що включає автоматичне створення підписів для мовних і немовних звуків. Вони також мають намір оцінити можливості підходів до реміксування, які можуть зменшити артефакти сприйняття, що залишається центральною проблемою при розподілі об’єднаного звукового супроводу на складові компоненти.

Такий вид поділу може бути доступним у майбутньому як споживчий товар у смарт-телевізорах, які включають високооптимізовані мережі виведення, хоча ймовірно, що перші впровадження вимагатимуть певного часу попередньої обробки та місця для зберігання. Samsung вже використовує локальні нейронні мережі для масштабування, тоді як Sony Когнітивний процесор XR, що використовується в лінійці Bravia компанії, аналізує та переосмислює звукові доріжки на живій основі за допомогою легкого інтегрованого штучного інтелекту.

Вимагає більшого контролю над міксуванням звукової доріжки періодично повторюватися, і більшість запропоновані рішення доводиться мати справу з тим фактом, що саундтрек уже був знижений відповідно до поточних стандартів (і припущень щодо того, чого хочуть глядачі) у кіно- та телеіндустрії.

Один глядач, засмучений шокуючою невідповідністю рівнів гучності між різними елементами звукових доріжок до фільму, став настільки відчайдушним, що розвивати апаратний автоматичний регулятор гучності, здатний вирівнювання гучності для фільмів і ТБ.

Хоча смарт-телевізори пропонують a різноманітний спектр методів намагаючись підвищити гучність діалогу в порівнянні з грандіозними рівнями гучності для музики, вони всі борються з рішеннями, прийнятими під час мікшування, і, можливо, з баченням виробників контенту, які бажають, щоб аудиторія відчула їхні звукові доріжки саме так, як вони були налаштовані.

Виробники контенту, схоже, будуть проти цього потенційного доповнення до «культури реміксів», оскільки кілька світил галузі вже висловили невдоволення алгоритмами постобробки за замовчуванням на основі ТБ наприклад згладжування руху.

Схожі теми:аудіо дослідження

Вгору Далі

Інструмент штучного інтелекту веде до відкриття чотирьох нових матеріалів

Не пропустіть

Нове дослідження показало, що спортсмени краще володіють динамічними візуальними навичками, ніж гравці у відеоігри

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Дослідження AI передбачає окремі регулятори гучності для діалогів, музики та звукових ефектів

Штучний Інтелект