заглушки AudioSep: отделяйте все, что вы описываете - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

AudioSep: отделяйте все, что вы описываете

mm

опубликованный

 on

LASS или разделение аудиоисточников по языковому запросу — это новая парадигма CASA или компьютерного анализа слуховой сцены, целью которой является отделение целевого звука от заданной смеси аудио с использованием запроса на естественном языке, который обеспечивает естественный, но масштабируемый интерфейс для задач и приложений цифрового аудио. . Хотя за последние несколько лет системы LASS значительно продвинулись в плане достижения желаемого качества работы с конкретными источниками звука, такими как музыкальные инструменты, они не способны отделить целевой звук в открытой области. 

Аудиосентябрь, — это основополагающая модель, целью которой является устранение текущих ограничений инфраструктур LASS путем обеспечения целевого разделения звука с использованием запросов на естественном языке. Разработчики платформы AudioSep тщательно обучили модель на широком спектре крупномасштабных мультимодальных наборов данных и оценили производительность платформы при выполнении широкого спектра аудиозадач, включая разделение музыкальных инструментов, разделение аудиособытий и улучшение речи. среди многих других. Начальная производительность AudioSep соответствует критериям, поскольку она демонстрирует впечатляющие возможности обучения с нуля и обеспечивает высокую производительность разделения звука. 

В этой статье мы более подробно углубимся в работу платформы AudioSep, оценив архитектуру модели, наборы данных, используемые для обучения и оценки, а также основные концепции, задействованные в работе модели AudioSep. Итак, давайте начнем с базового введения в структуру CASA. 

Платформы CASA, USS, QSS, LASS: Фонд AudioSep

CASA или среда компьютерного анализа слуховой сцены — это платформа, используемая разработчиками для разработки систем машинного прослушивания, способных воспринимать сложную звуковую среду так же, как люди воспринимают звук с помощью своих слуховых систем. Разделение звука, с особым акцентом на целевое разделение звука, является фундаментальной областью исследований в рамках CASA и направлено на решение «проблема на коктейльной вечеринкеили отделять реальные аудиозаписи от отдельных записей или файлов аудиоисточников. Важность разделения звука можно объяснить главным образом его широким применением, включая разделение источников музыки, разделение источников звука, улучшение речи, идентификацию целевого звука и многое другое. 

Большая часть работы по разделению звука, проделанной в прошлом, в основном вращалась вокруг разделения одного или нескольких источников звука, например разделения музыки или речи. Новая модель под названием USS или Universal Sound Separation направлена ​​на разделение произвольных звуков в реальных аудиозаписях. Однако отделить каждый источник звука от аудиомиксы — сложная и ограничительная задача, прежде всего из-за широкого спектра различных источников звука, существующих в мире, что является основной причиной того, почему метод USS непригоден для реальных приложений, работающих в настоящее время. 

Возможная альтернатива методу USS — это QSS или метод разделения звука на основе запросов, целью которого является отделение отдельного или целевого источника звука от аудиомиксы на основе определенного набора запросов. Благодаря этому структура QSS позволяет разработчикам и пользователям извлекать нужные источники звука из смеси в соответствии с их требованиями, что делает метод QSS более практичным решением для реальных цифровых приложений, таких как редактирование мультимедийного контента или редактирование аудио. 

Кроме того, разработчики недавно предложили расширение структуры QSS, структуры LASS или структуры разделения аудиоисточников по языковому запросу, целью которой является разделение произвольных источников звука из аудиомиксы путем использования описаний целевого источника звука на естественном языке. . Поскольку структура LASS позволяет пользователям извлекать целевые источники звука с помощью набора инструкций на естественном языке, она может стать мощным инструментом с широко распространенным применением в приложениях цифрового аудио. По сравнению с традиционными методами аудиозапросов или визуальных запросов использование инструкций на естественном языке для разделения звука дает большее преимущество, поскольку оно добавляет гибкость и делает получение информации для запроса намного проще и удобнее. Более того, по сравнению со структурами разделения звука на основе запросов по меткам, которые используют заранее определенный набор инструкций или запросов, платформа LASS не ограничивает количество входных запросов и обладает гибкостью, которую можно легко обобщить для открытого домена. 

Первоначально структура LASS опирается на контролируемое обучение, при котором модель обучается на наборе помеченных парных данных аудио-текст. Однако основной проблемой этого подхода является ограниченная доступность аннотированных и помеченных аудиотекстовых данных. Чтобы снизить надежность структуры LASS на аннотированных данные, помеченные аудиотекстомМодели обучаются с использованием мультимодального подхода к обучению с контролем. Основная цель использования подхода мультимодального контроля состоит в использовании мультимодальных контрастных моделей предварительного обучения, таких как модель CLIP или Contrastive Language Image Pre Training, в качестве кодировщика запросов для платформы. Поскольку платформа CLIP имеет возможность согласовывать встраивание текста с другими модальностями, такими как звук или изображение, она позволяет разработчикам обучать модели LASS с использованием модальностей с большим объемом данных и позволяет вмешиваться в текстовые данные в условиях нулевого выстрела. Однако нынешние структуры LASS используют небольшие наборы данных для обучения, а применение структуры LASS в сотнях потенциальных областей еще предстоит изучить. 

Чтобы устранить текущие ограничения, с которыми сталкиваются платформы LASS, разработчики представили AudioSep, основополагающую модель, целью которой является отделение звука от аудио смеси с использованием описаний на естественном языке. В настоящее время основное внимание AudioSep уделяется разработке предварительно обученной модели разделения звука, которая использует существующие крупномасштабные мультимодальные наборы данных для обеспечения обобщения моделей LASS в приложениях с открытым доменом. Подводя итог, модель AudioSep такова: «Фундаментальная модель универсального разделения звука в открытом пространстве с использованием запросов или описаний на естественном языке, обученных на крупномасштабных наборах аудио и мультимодальных данных.». 

AudioSep: ключевые компоненты и архитектура

Архитектура платформы AudioSep состоит из двух ключевых компонентов: кодировщика текста и модели разделения. 

Текстовый кодер

Платформа AudioSep использует текстовый кодер модели CLIP или Contrastive Language Image Pre Training или модели CLAP или Contrastive Language Image Pre Training для извлечения вложений текста в запрос на естественном языке. Входной текстовый запрос состоит из последовательности «N», которые затем обрабатываются кодировщиком текста для извлечения вложений текста для данного запроса на языке ввода. Кодер текста использует стек блоков преобразователей для кодирования входных текстовых токенов, а выходные представления агрегируются после их прохождения через слои преобразователя, что приводит к разработке D-мерного векторного представления с фиксированной длиной, где D соответствует. к размерам моделей CLAP или CLIP, пока кодировщик текста зависает во время периода обучения. 

Модель CLIP предварительно обучается на крупномасштабном наборе данных парных данных изображение-текст с использованием контрастного обучения, что является основной причиной, по которой ее текстовый кодер учится отображать текстовые описания в семантическом пространстве, которое также является общим для визуальных представлений. Преимущество, которое AudioSep получает при использовании текстового кодировщика CLIP, заключается в том, что теперь он может масштабировать или обучать модель LASS на основе неразмеченных аудиовизуальных данных, используя в качестве альтернативы визуальные внедрения, что позволяет обучать модели LASS без необходимости аннотированных или помеченных аудиотекстовые данные. 

Модель CLAP работает аналогично модели CLIP и использует контрастирующие цели обучения, поскольку она использует кодировщик текста и аудио для соединения звука и языка, таким образом объединяя текст и аудиоописания в скрытом аудиотекстовом пространстве. 

Модель разделения

Платформа AudioSep использует модель ResUNet в частотной области, в которую подается смесь аудиоклипов в качестве основы разделения для платформы. Платформа работает, сначала применяя STFT или кратковременное преобразование Фурье к форме сигнала для извлечения сложной спектрограммы, спектрограммы величины и фазы X. Затем модель использует те же настройки и создает сеть кодировщика-декодера для обработки спектрограмма магнитуды. 

Сеть кодера-декодера ResUNet состоит из 6 остаточных блоков, 6 блоков декодера и 4 узких блоков. Спектрограмма в каждом блоке кодера использует 4 остаточных обычных блока для понижения дискретизации до узкого места, тогда как блоки декодера используют 4 остаточных блока деконволюции для получения компонентов разделения путем повышения дискретизации функций. После этого каждый из блоков кодера и соответствующие ему блоки декодера устанавливают соединение пропуска, которое работает с одинаковой скоростью повышающей или понижающей дискретизации. Остаточный блок платформы состоит из 2 слоев активации Leaky-ReLU, 2 слоев пакетной нормализации и 2 слоев CNN, и, кроме того, структура также вводит дополнительный остаточный ярлык, который соединяет вход и выход каждого отдельного остаточного блока. Модель ResUNet принимает комплексную спектрограмму X в качестве входных данных и создает маску магнитуды M в качестве выходных данных, при этом остаток фазы обусловлен вставками текста, которые управляют величиной масштабирования и поворотом угла спектрограммы. Отделенную комплексную спектрограмму затем можно извлечь путем умножения прогнозируемой маски величины и остатка фазы на STFT (кратковременное преобразование Фурье) смеси. 

В своей структуре AudioSep использует слой FiLm или функционально-линейной модуляции для соединения модели разделения и текстового кодировщика после развертывания сверточных блоков в ResUNet. 

Обучение и потеря

Во время обучения модели AudioSep разработчики используют метод увеличения громкости и комплексно обучают платформу AudioSep, используя функцию потерь L1 между реальными и прогнозируемыми формами сигналов. 

Наборы данных и тесты

Как упоминалось в предыдущих разделах, AudioSep — это основополагающая модель, целью которой является устранение текущей зависимости моделей LASS от аннотированных парных наборов данных аудио-текст. Модель AudioSep обучается на широком спектре наборов данных, что обеспечивает ей возможности мультимодального обучения. Ниже приведено подробное описание набора данных и тестов, используемых разработчиками для обучения платформы AudioSep. 

АудиоНабор

AudioSet — это слабо размеченный крупномасштабный набор аудиоданных, содержащий более 2 миллионов 10-секундных аудиофрагментов, извлеченных непосредственно с YouTube. Каждый аудиофрагмент в наборе данных AudioSet классифицируется по отсутствию или наличию звуковых классов без конкретной информации о времени звуковых событий. Набор данных AudioSet содержит более 500 различных аудиоклассов, включая звуки природы, человеческие звуки, звуки транспортных средств и многое другое. 

VGGSound

Набор данных VGGSound — это крупномасштабный набор визуально-аудио данных, который, как и AudioSet, был получен непосредственно с YouTube и содержит более 2,00,000 10 300 видеоклипов, каждый из которых имеет продолжительность XNUMX секунд. Набор данных VGGSound разделен на более чем XNUMX классов звуков, включая звуки человека, звуки природы, звуки птиц и многое другое. Использование набора данных VGGSound гарантирует, что объект, ответственный за создание целевого звука, также может быть описан в соответствующем визуальном клипе. 

АудиоКапс

AudioCaps — это крупнейший общедоступный набор данных аудиосубтитров, который включает более 50,000 10 5-секундных аудиоклипов, извлеченных из набора данных AudioSet. Данные в AudioCaps разделены на три категории: данные обучения, данные тестирования и данные проверки, а аудиоклипы аннотируются вручную описаниями на естественном языке с использованием платформы Amazon Mechanical Turk. Стоит отметить, что каждый аудиоклип в наборе обучающих данных имеет одну подпись, тогда как данные в наборах тестирования и проверки имеют по пять достоверных подписей. 

КлотоV2

ClothoV2 — это набор данных аудиосубтитров, который состоит из клипов, полученных с платформы FreeSound, и, как и в случае с AudioCaps, каждый аудиоклип аннотируется вручную описаниями на естественном языке с использованием платформы Amazon Mechanical Turk. 

WavCaps

Как и AudioSet, WavCaps представляет собой слабо размеченный крупномасштабный набор аудиоданных, содержащий более 400,000 7568 аудиоклипов с субтитрами, а общее время выполнения составляет около XNUMX часов обучающих данных. Аудиоклипы в наборе данных WavCaps получены из широкого спектра аудиоисточников, включая BBC Sound Effects, AudioSet, FreeSound, SoundBible и других.

Детали обучения

На этапе обучения модель AudioSep случайным образом выбирает два аудиосегмента, полученные из двух разных аудиоклипов из набора обучающих данных, а затем смешивает их вместе, чтобы создать обучающую смесь, в которой длина каждого аудиосегмента составляет около 5 секунд. Затем модель извлекает комплексную спектрограмму из сигнала формы волны с помощью окна Ханна размером 1024 с размером скачка 320. 

Затем модель использует текстовый кодер моделей CLIP/CLAP для извлечения текстовых вложений, при этом контроль текста является конфигурацией по умолчанию для AudioSep. Для модели разделения платформа AudioSep использует уровень ResUNet, состоящий из 30 слоев, 6 блоков кодера и 6 блоков декодера, что напоминает архитектуру, используемую в структуре универсального разделения звука. Кроме того, каждый блок кодера имеет два сверточных слоя с размером ядра 3×3, при этом количество выходных карт признаков блоков кодера составляет 32, 64, 128, 256, 512 и 1024 соответственно. Блоки декодера разделяют симметрию с блоками кодера, и разработчики применяют оптимизатор Адама для обучения модели AudioSep с размером пакета 96. 

Результаты оценки

Об просмотренных наборах данных

На следующем рисунке сравнивается производительность платформы AudioSep на наблюдаемых наборах данных на этапе обучения, включая наборы обучающих данных. На рисунке ниже представлены результаты сравнительной оценки платформы AudioSep по сравнению с базовыми системами, включая Speech. Модели улучшения, ЛАСС и КЛИП. Модель AudioSep с кодировщиком текста CLIP представлена ​​как AudioSep-CLIP, тогда как модель AudioSep с кодировщиком текста CLAP представлена ​​как AudioSep-CLAP.

Как видно на рисунке, платформа AudioSep хорошо работает при использовании аудиозаголовков или текстовых меток в качестве входных запросов, а результаты указывают на превосходную производительность платформы AudioSep по сравнению с предыдущими эталонными моделями разделения звука LASS и аудиозапросами. 

О невидимых наборах данных

Чтобы оценить производительность AudioSep при нулевой настройке, разработчики продолжили оценивать производительность на невидимых наборах данных, а платформа AudioSep обеспечивает впечатляющую производительность разделения при нулевой настройке, и результаты показаны на рисунке ниже. 

Кроме того, на изображении ниже показаны результаты оценки модели AudioSep в сравнении с улучшением речи Voicebank-Demand. 

Оценка платформы AudioSep указывает на высокую и желаемую производительность на невидимых наборах данных при нулевых настройках и, таким образом, открывает возможности для выполнения надежных рабочих задач с новыми распределениями данных. 

Визуализация результатов разделения

На рисунке ниже показаны результаты, полученные, когда разработчики использовали платформу AudioSep-CLAP для визуализации спектрограмм для достоверных целевых аудиоисточников, а также аудиосмесей и отдельных аудиоисточников с использованием текстовых запросов к различным аудио или звукам. Результаты позволили разработчикам заметить, что структура разделенного источника спектрограммы близка к источнику основной истины, что еще больше подтверждает объективные результаты, полученные в ходе экспериментов. 

Сравнение текстовых запросов

Разработчики оценивают производительность AudioSep-CLAP и AudioSep-CLIP на AudioCaps Mini, а также используют метки событий AudioSet, подписи AudioCaps и аннотированные описания на естественном языке для изучения эффектов различных запросов, а также следующие На рисунке показан пример AudioCaps Mini в действии. 

Заключение

Аудиосентябрь — это основополагающая модель, разработанная с целью стать открытой универсальной структурой разделения звука, которая использует описания естественного языка для разделения звука. Как было замечено в ходе оценки, платформа AudioSep способна беспрепятственно выполнять обучение с нулевой скоростью и без присмотра, используя в качестве запросов аудиозаголовки или текстовые метки. Результаты и оценка производительности AudioSep указывают на высокую производительность, превосходящую современные системы разделения звука, такие как LASS, и может быть достаточной для устранения текущих ограничений популярных систем разделения звука. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.