Искусственный интеллект

Исследования ИИ предполагают отдельные регуляторы громкости для диалога, музыки и звуковых эффектов

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

Новое исследовательское сотрудничество под руководством Mitsubishi изучает возможность извлечения трех отдельных звуковых дорожек из исходного аудиоисточника, разбивая аудиодорожку на речь, музыку и звуковые эффекты (т.е. ambiente).

Поскольку это постфактум-процессинговый фреймворк, он предлагает потенциал для более поздних поколений платформ просмотра мультимедиа, включая потребительское оборудование, для предложения трехточечных регуляторов громкости, позволяющих пользователю повысить громкость диалога или понизить громкость саундтрека.

В коротком клипе ниже из сопровождающего видео для исследования (см. конец статьи для полного видео), мы видим различные аспекты саундтрека, подчеркиваемые, когда пользователь перетаскивает контроль через треугольник с каждым из трех аудиокомпонентов в одном углу:

Короткий клип из видео, сопровождающего статью (см. встроенный в конце статьи). Когда пользователь перетаскивает курсор к одному из трех извлеченных аспектов в треугольном интерфейсе (справа), аудио подчеркивает эту часть трипартитной саундтрека. Хотя более длинное видео цитирует ряд дополнительных примеров на YouTube, они в настоящее время seem недоступными.Источник: https://vimeo.com/634073402

Статья называется Проблема коктейльной вилки: трехстеммое аудиоразделение для реальных саундтреков и исходит от исследователей Mitsubishi Electric Research Laboratories (MERL) в Кембридже, MA, и Департамента интеллектуальных систем инженерии в Университете Индианы в Иллинойсе.

Разделение аспектов саундтрека

Исследователи назвали эту задачу ‘Проблемой коктейльной вечеринки’, потому что она включает в себя изоляцию сильно переплетенных элементов саундтрека, что создает дорожную карту, похожую на вилку (см. изображение ниже). На практике многоканальные (т.е. стерео и более) саундтреки могут иметь различное количество типов контента, таких как диалог, музыка и ambiente, особенно поскольку диалог склонен доминировать в центральном канале в миксах Dolby 5.1. В настоящее время, однако, очень активное исследовательское поле аудиоразделения концентрируется на захвате этих нитей из одного, запечатанного саундтрека, как и текущее исследование.

Коктейльная вилка – получение трех отдельных саундтреков из одного, объединенного саундтрека. Источник: https://arxiv.org/pdf/2110.09958.pdf

Недавние исследования были сосредоточены на извлечении речи в различных средах, часто для целей денойзинга речевого аудио для последующего взаимодействия с системами обработки естественного языка (NLP), но также на изоляции архивных певческих голосов, либо для создания синтетических версий реальных (даже мертвых) певцов, либо для облегчения караоке-стиля музыкальной изоляции.

Датасет для каждого аспекта

До сих пор мало внимания было уделено использованию этого типа технологии ИИ для предоставления пользователям большего контроля над миксом саундтрека. Следовательно, исследователи формализовали проблему и сгенерировали новый датасет в качестве помощи для продолжающихся исследований по разделению многотипных саундтреков, а также протестировали его на различных существующих аудиоразделительных фреймворках.

Новый датасет, разработанный авторами, называется Разделить и ремастер (DnR), и получен из предыдущих датасетов LibriSpeech, Free Music Archive и Freesound Dataset 50k (FSD50K). Для тех, кто хочет работать с DnR с нуля, датасет должен быть реконструирован из трех источников; в противном случае он будет доступен на Zenodo, утверждают авторы. Однако на момент написания предоставленная ссылка на GitHub для утилит извлечения источника в настоящее время неактивна, поэтому те, кто заинтересован, могут потребовать подождать немного.

Исследователи обнаружили, что архитектура CrossNet un-mix (XUMX), предложенная Sony в мае, работает особенно хорошо с DnR.

Архитектура CrossNet Sony.

Авторы утверждают, что их модели машинного обучения для извлечения работают хорошо на саундтреках из YouTube, хотя оценки, представленные в статье, основаны на синтетических данных, и предоставленное основное поддерживающее видео (встроенное ниже) в настоящее время является единственным, которое, кажется, доступно.

Три использованных датасета каждый составляют коллекцию того типа вывода, который необходимо разделить из саундтрека: FSD50K занят звуковыми эффектами и содержит 50 000 аудиоклипов с частотой 44,1 кГц, помеченных 200 классами из онтологии AudioSet Google; Free Music Archive содержит 100 000 стереопесен, охватывающих 161 музыкальный жанр, хотя авторы использовали подмножество, содержащее 25 000 песен, для паритета с FSD50K; и LibriSpeech предоставляет DnR 100 часов аудиокниг в качестве аудиофайлов 44,1 кГц mp3.

Будущая работа

Авторы предвидят дальнейшую работу над датасетом и комбинацией отдельных моделей, разработанных для дополнительных исследований по фреймворкам распознавания речи и классификации звуков, с функцией автоматической генерации подписей для речи и неречевых звуков. Они также намерены оценить возможности для подходов к ремиксу, которые могут уменьшить перцептивные артефакты, что остается центральной проблемой при разделении объединенного аудиосаундтрека на его составные компоненты.

Такой тип разделения может в будущем быть доступен как потребительская коммодитизация в умных телевизорах, которые включают высокооптимизированные сети вывода, хотя, вероятно, что ранние реализации потребуют некоторого уровня предварительной обработки времени и места хранения. Samsung уже использует локальные нейронные сети для апскейлинга, в то время как Когнитивный процессор XR Sony, используемый в линейке Bravia, анализирует и переинтерпретирует саундтреки в режиме реального времени через интегрированный ИИ.

Требования к большему контролю над миксом саундтрека периодически повторяются, и большинство из предлагаемых решений должны иметь дело с тем, что саундтрек уже был объединен в соответствии с текущими стандартами (и предположениями о том, чего хотят зрители) в кино- и телевизионной промышленности.

Один зритель, разочарованный в шокирующей диспропорции уровней громкости между различными элементами саундтреков фильмов, стал настолько отчаянным, что разработал аппаратный автоматический регулятор громкости, способный уравнять громкость для фильмов и телевидения.

Хотя умные телевизоры предлагают разнообразный набор методов для попытки увеличения громкости диалога против грандиозных уровней громкости для музыки, они все борются против решений, принятых на этапе микширования, и, возможно, против видений производителей контента, которые хотят, чтобы аудитория испытала их саундтреки точно так, как они были задуманы.

Производители контента, вероятно, будут сопротивляться этому потенциальному дополнению к ‘культуре ремиксов’, поскольку несколько луминаров индустрии уже выразили недовольство по поводу алгоритмов постобработки по умолчанию на основе телевидения, таких как сглаживание движения.

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Исследования ИИ предполагают отдельные регуляторы громкости для диалога, музыки и звуковых эффектов

Разделение аспектов саундтрека

Датасет для каждого аспекта

Будущая работа

You may like