заглушки Исследования ИИ предусматривают отдельные регуляторы громкости для диалогов, музыки и звуковых эффектов - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

AI Research предусматривает отдельные регуляторы громкости для диалогов, музыки и звуковых эффектов

mm
обновленный on

Новое исследовательское сотрудничество под руководством Mitsubishi исследует возможность извлечения трех отдельных звуковых дорожек из исходного аудиоисточника, разбивая звуковую дорожку на речь, музыку и звуковые эффекты (например, окружающий шум).

Поскольку это фреймворк постфактум обработки, он предлагает возможность для более поздних поколений платформ просмотра мультимедиа, включая потребительское оборудование, предлагать трехточечное управление громкостью, позволяющее пользователю увеличивать громкость диалогов или уменьшать громкость звуковой дорожки. .

В приведенном ниже коротком клипе из сопроводительного видео к исследованию (полное видео см. в конце статьи) мы видим, как акцентируются различные аспекты саундтрека, когда пользователь перетаскивает элемент управления по треугольнику с каждым из трех аудиокомпонентов в одном углу. :

Короткий отрывок из видео, сопровождающего статью (см. вставку в конце статьи). Когда пользователь перетаскивает курсор к одной из трех извлеченных граней в треугольном пользовательском интерфейсе (справа), звук выделяет эту часть трехчастной звуковой дорожки. Хотя в более длинном видео приводится ряд дополнительных примеров на YouTube, в настоящее время они кажутся недоступными. Источник: https://vimeo.com/634073402

Ассоциация бумаги имеет право Проблема вилки для коктейля: разделение звука по трем стеблям для саундтреков из реального мира, и исходит от исследователей из Исследовательских лабораторий Mitsubishi Electric (MERL) в Кембридже, Массачусетс, и Департамента разработки интеллектуальных систем Университета Индианы в Иллинойсе.

Разделение граней саундтрека

Исследователи назвали задачу «Проблема вечеринки с коктейлем», потому что она включает в себя выделение сильно запутанных элементов саундтрека, что создает дорожную карту, напоминающую развилку (см. Изображение ниже). На практике многоканальные (т. е. стереофонические и другие) саундтреки могут иметь различное количество типов содержимого, например, диалогов, музыки и атмосферы, особенно потому, что диалоги имеют тенденцию доминировать на центральном канале в миксах Dolby 5.1. Однако в настоящее время. очень активная область исследований разделения звука сосредоточена на захвате этих нитей из одного запеченного саундтрека, как и текущее исследование.

Коктейльная вилка - создание трех разных саундтреков из объединенного и единого саундтрека. Источник: https://arxiv.org/pdf/2110.09958.pdf

Коктейльная вилка - создание трех разных саундтреков из объединенного и единого саундтрека. Источник: https://arxiv.org/pdf/2110.09958.pdf

Недавние исследования были сосредоточены на извлечении речи в различных средах, часто в целях шумоподавления речевого звука для последующего взаимодействия с системами обработки естественного языка (NLP), а также на изоляция архивных певческих голосов, либо для создания синтетических версий реальных (даже мертвый) певцы, или облегчить Музыкальная изоляция в стиле караоке.

Набор данных для каждого аспекта

На сегодняшний день мало внимания уделялось использованию такой технологии искусственного интеллекта, чтобы дать пользователям больший контроль над микшированием саундтрека. Поэтому исследователи формализовали проблему и создали новый набор данных в качестве вспомогательного средства для текущих исследований в области многотипного разделения звуковых дорожек, а также тестирования его на различных существующих платформах разделения звука.

Новый набор данных, который разработали авторы, называется Разделяй и ремастерируй (DnR) и получен из предыдущих наборов данных ЛибриРечь, Бесплатный музыкальный архив и Набор данных Freesound 50k (ФСД50К). Для тех, кто хочет работать с DnR с нуля, набор данных должен быть реконструирован из трех источников; в противном случае, как утверждают авторы, вскоре он будет доступен в Zenodo. Однако на момент написания предоставленный Ссылка на GitHub для утилит извлечения исходного кода в настоящее время не активен, поэтому заинтересованным лицам, возможно, придется немного подождать.

Исследователи обнаружили, что система CrossNet un-mix (XUMX) Архитектура, предложенная Sony в мае, особенно хорошо работает с DnR.

Архитектура Sony CrossNet.

Архитектура Sony CrossNet.

Авторы утверждают, что их модели извлечения машинного обучения хорошо работают с саундтреками с YouTube, хотя оценки, представленные в статье, основаны на синтетических данных, а предоставленное основное вспомогательное видео (встроенное ниже) в настоящее время кажется единственным доступным.

Каждый из трех используемых наборов данных содержит набор выходных данных, которые необходимо отделить от звуковой дорожки: FSD50K занят звуковыми эффектами и содержит 50,000 44.1 монофонических аудиоклипов с частотой 200 кГц, помеченных 100,000 метками классов из онтологии Google AudioSet; Free Music Archive включает 161 25,000 стереопесен, охватывающих 50 музыкальный жанр, хотя авторы использовали подмножество, содержащее 100 44.1 песен, для паритета с FSD3K; а LibriSpeech предоставляет DnR XNUMX часов образцов аудиокниг в виде аудиофайлов mpXNUMX с частотой XNUMX кГц.

Будущая работа

Авторы ожидают дальнейшей работы над набором данных и комбинацией отдельных моделей, разработанных для дополнительных исследований основ распознавания речи и классификации звуков, с автоматическим созданием титров для речевых и неречевых звуков. Они также намерены оценить возможности для подходов к ремиксу, которые могут уменьшить артефакты восприятия, что остается центральной проблемой при разделении объединенной звуковой дорожки на составляющие ее компоненты.

Такое разделение в будущем может быть доступно в качестве потребительского товара в смарт-телевизорах, которые включают в себя высокооптимизированные сети логического вывода, хотя вполне вероятно, что ранние реализации потребуют некоторого времени на предварительную обработку и места для хранения. Самсунг уже использования локальные нейронные сети для апскейлинга, в то время как Sony Когнитивный процессор XR, используемый в ассортименте компании Bravia, анализирует и переосмысливает саундтреки в прямом эфире с помощью облегченного интегрированного искусственного интеллекта.

Призывает к большему контролю над миксом саундтрека периодически повторятьсяи большая часть предлагаемые решения приходится иметь дело с тем фактом, что саундтрек уже приведен в норму в соответствии с действующими стандартами (и предположениями о том, чего хотят зрители) в кино- и телеиндустрии.

Один зритель, раздосадованный шокирующим несоответствием уровней громкости различных элементов саундтреков к фильмам, впал в такое отчаяние, что развивать аппаратный автоматический регулятор громкости, способный выравнивание громкости для фильмов и ТВ.

Хотя смарт-телевизоры предлагают разнообразный набор методов Чтобы попытаться повысить громкость диалогов по сравнению с грандиозными уровнями громкости музыки, все они борются с решениями, принятыми во время микширования, и, возможно, с видением производителей контента, которые хотят, чтобы публика восприняла их саундтреки точно так, как они были настроены.

Производители контента, вероятно, будут недовольны этим потенциальным дополнением к «культуре ремиксов», поскольку несколько светил отрасли уже выразили недовольство стандартными алгоритмами постобработки на основе телевидения. например сглаживание движения.