Искусственный интеллект

HierSpeech++ : Иерархический вариационный вывод для синтеза речи с нулевым выстрелом

Published December 19, 2023

Updated April 4, 2026

Kunal Kejriwal

Недавние разработки и прогресс в возможностях крупных языковых моделей сыграли решающую роль в продвижении рамок, основанных на LLM, для задач генерации аудио и синтеза речи, особенно в нулевом выстреле. Традиционные рамки синтеза речи стали свидетелями значительных достижений в результате интеграции дополнительных функций, таких как нейронные аудиокодеки для дискретного аудио и речевых единиц. Хотя эти рамки синтеза речи и аудио дают удовлетворительные результаты, все еще есть место для улучшения, поскольку текущие рамки аудио, основанные на LLM, имеют следующие три основных ограничения

Они склонны к автогенерации аудиовыхода, что в конечном итоге приводит к отсутствию устойчивости и медленной скорости интерференции, что приводит к неправильному произношению, пропуску или повторению.
Они склонны слишком сильно полагаться на дискретные речевые единицы или предварительно обученные нейронные аудиокодеки.
Они часто требуют большого количества обучающих данных.

Чтобы решить проблемы, упомянутые выше, и улучшить возможности моделей синтеза речи и аудио, основанных на LLM, разработчики придумали HierSpeech++, прочный и эффективный синтезатор речи с нулевым выстрелом для конверсии голоса и текста в речь или задач TTS. Рамка HierSpeech++ строится на основе знаний иерархических рамок синтеза речи, которые не только увеличивают устойчивость, но также добавляют выразительность синтетической речи, а также увеличивают естественность и сходство говорящего с искусственно сгенерированной речью, даже в нулевом выстреле.

В этой статье мы будем говорить о рамке HierSpeech++ в деталях и посмотрим на архитектуру модели, ее работу и результаты при сравнении с современными моделями генерации текста и аудио. Итак, давайте начнем.

HierSpeech++ : Иерархический вариационный вывод для синтеза речи с нулевым выстрелом

HierSpeech++ – это быстрый, прочный и эффективный рамка синтеза речи с нулевым выстрелом, который использует иерархический конвейер синтеза речи, и, принимая эту конечную конвейер синтеза речи, модель HierSpeech++ может максимизировать потенциал высококачественной генерации волновой формы, чтобы иерархически мостить разрыв между семантическими и акустическими представлениями, принимая самообучаемое речевое представление в качестве семантического речевого представления, и таким образом пытается решить текущие ограничения адаптации стиля. Конечная конвейер синтеза речи была впервые представлена моделью VITS, и она принимает ВАЕ или вариационный автоэнкодер, дополненный обучением с противостоянием и нормализующим потоком. Кроме того, ВАЕ-рамки с конечной конвейерной тренировкой имеют возможность генерировать высококачественную волновую форму аудио с перцептивным качеством речевого синтеза, значительно лучше, чем те, которые генерируются другими рамками синтеза речи.

Качество аудиовосстановления этих рамок можно еще больше улучшить, используя иерархический условный вариационный автоэнкодер, как это используется в рамке HierSpeech. Несмотря на их потенциал, модели на основе конечной конвейерной тренировки имеют определенные ограничения, особенно в нулевом выстреле, поскольку, хотя они могут синтезировать речевые образцы с высококачественным аудио, сходство говорящего в задачах клонирования голоса с нулевым выстрелом все еще осложнено высокой вычислительной сложностью. С другой стороны, диффузионные модели синтеза речи работают хорошо в плане адаптации говорящего, но они все еще далеки от совершенства, поскольку они используют интерактивный процесс генерации, который замедляет скорость вывода, они часто уязвимы для шумных данных, и в результате несоответствия между обучением и выводом двухэтапного процесса генерации между мел-спектрограммой и сгенерированной фактической аудио качество аудио не на высоте.

Чтобы решить проблемы, с которыми столкнулись ее предшественники, модель HierSpeech++ принимает иерархический синтезатор речи, супер-разрешение речи и компонент текста в вектор, и вводит улучшенный иерархический синтезатор речи, построенный на основе иерархического условного ВАЕ или вариационного автоэнкодера. В попытке улучшить качество аудио за пределами перцептивного качества рамка HierSpeech++ принимает двойное аудио, чтобы повысить акустический постериор, и улучшает обобщение вне распределения, используя иерархический адаптивный генератор, оснащенный как условной, так и безусловной генерацией. Кроме того, чтобы разъединить компоненты речи и улучшить семантическую информацию, связанную с говорящим и независимую от говорящего, рамка HierSpeech++ также принимает много路径ный семантический кодировщик на основе теории источника и фильтра. В результате использования вариационного автоэнкодера модель HierSpeech++ может соединять и изучать представления иерархически и прогрессивно адаптироваться к целевому стилю голоса, чтобы вывести волновую форму аудио. Кроме того, рамка HierSpeech++ также развертывает двунаправленную сеть нормализующих потоков трансформеров в попытке улучшить адаптацию и также уменьшить несоответствие между обучением и выводом.

В целом, модель HierSpeech++ – это полностью параллельная, новая и прочная иерархическая рамка синтеза речи, направленная на синтез речевых образцов в нулевом выстреле, и пытается сделать следующие вклады

Использование иерархической рамки синтеза речи для контроля и передачи стилей голоса и просодии.
Включение масштабируемости данных и высокоразрешающего синтеза речи путем увеличения волновой формы аудио с 16 до 48 кГц.
Достижение человеческого уровня способностей в задачах конверсии голоса с нулевым выстрелом и текста в речь.

HierSpeech++ : Компоненты модели и архитектура

Как обсуждалось, HierSpeech++ – это модель синтеза речи с нулевым выстрелом, которая пытается достичь человеческого уровня точности в плане сходства голоса и естественности речи.

Модель HierSpeech++ состоит из различных компонентов, включая иерархический синтезатор речи, супер-разрешение речи и текст в вектор до TTV, которые работают в синхронизации друг с другом, чтобы облегчить обучение каждой модели, которая может эффективно использовать большое количество низкоразрешающих речевых данных для клонирования голоса. Давайте разберем рамку и поговорим о каждом компоненте.

Речевые представления

Поскольку человеческая частотная полоса находится ниже 4 кГц, для синтеза речи рамка HierSpeech++ снижает частоту аудио до 16 кГц. Кроме того, для восстановления сигнала голоса важно использовать как минимум удвоенную самую высокую компоненту частоты голоса, а также снижать частоту аудио. Чтобы достичь улучшенного перцептивного качества, рамка HierSpeech++ использует супер-разрешение речи или SpeechSR-компонент, чтобы увеличить аудио-образец с 16 до 48 кГц, и использует низкоразрешающие представления для семантических и акустических представлений.

Для акустических представлений традиционная рамка текста в речь или TTS использует мел-спектрограмму в качестве промежуточной акустической функции, которая затем преобразуется из волновой формы с помощью STFT или короткочастотного преобразования Фурье. Однако стоит отметить, что, поскольку акустические функции являются богатыми представлениями, включающими различные атрибуты, включая содержание и произношение, информацию о голосе и многое другое, что делает трудным для рамки вывода этих представлений, ситуация, которая часто приводит к неправильному произношению, отсутствию сходства или чрезмерному сглаживанию речи.

Двигаясь дальше, чтобы извлечь непрерывное семантическое представление из волновой формы, рамка HierSpeech++ использует рамку Wav2Vec, а не популярный самообучаемый подход к речевым представлениям для семантических представлений. Хотя этот подход является хорошей альтернативой для богатой монолингвальной модели, он влияет на способности рамки к клонированию голоса с нулевым выстрелом в плане как устойчивости, так и выразительности, особенно в задачах синтеза речи на нескольких языках.

Иерархический синтезатор речи

Компонент иерархического синтезатора речи является основой рамки HierSpeech++, поскольку он позволяет обучать модуль без использования каких-либо меток, таких как текстовые транскрипты или идентификатор говорящего, и полагаться исключительно на речевые данные. Чтобы увеличить акустическую емкость, предыдущие модели синтеза речи заменили мел-спектрограмму на линейный спектрограмму, однако этот подход минимизирует показатель KL-расхождения в плане периодичности тона, PESQ, голоса и не голоса, и даже расстояние мел-спектрограммы. Иерархический синтезатор речи использует двойной аудио-акустический кодировщик, чтобы решить проблемы, представленные использованием линейного спектрограммы, предназначенного для захвата более богатых и полных акустических представлений. Рамка также использует кодировщик волновой формы, чтобы извлечь информацию из сырой волновой формы аудио, и объединяет ее с линейным спектрограммным представлением, и, наконец, проектирует акустическое представление в качестве объединенного представления.

Кроме того, чтобы справиться с семантическими представлениями, независимыми от говорящего и связанными с говорящим, рамка HierSpeech++ использует много路径ное самообучаемое речевое представление, где каждое отдельное представление используется для иерархической адаптации стиля с семантическими представлениями, извлеченными для получения лингвистической информации из среднего слоя MMS. Рамка также использует основную частоту, чтобы улучшить дезентанглемент речи, что позволяет контролировать контур тона вручную. Рамка также использует лингвистическое представление в качестве условной информации, чтобы генерировать волновую форму аудио иерархически, и использует улучшенное лингвистическое представление самообучаемого представления. Также стоит отметить, что акустические представления, извлеченные во время обучения с помощью волновой формы и линейного спектрограммы, используются для восстановления сырой волновой формы аудио, и иерархический вариационный вывод используется для соединения акустических представлений с много路径ными лингвистическими представлениями. Рамка также использует иерархический адаптивный генератор (HAG), чтобы генерировать семантические-волновые образцы, и сгенерированные представления, включающие представление стиля и акустическое представление, подают в генераторы источника и волновой формы.

Текст в вектор

Для синтеза речи из текста рамка HierSpeech++ использует модель текста в вектор или TTV, которая генерирует основную частоту и семантическое представление из текстовой последовательности, и использует монотонный поиск выравнивания, объединенный с вариационным автоэнкодером, чтобы выровнять речь и текст внутри. Рамка HierSpeech++ затем заменяет линейный спектрограмму на самообучаемое линейное представление, и восстанавливает то же представление, чтобы служить выходом для TTV.

Кроме того, рамка HierSpeech++ прогнозирует основную частоту с четырьмя разами большей разрешающей способностью по сравнению с самообучаемыми речевыми представлениями, и использует условное текстовое представление в качестве априорной информации. В результате семантической информации самообучаемых речевых представлений рамка способна передавать стиль просодии из модели текста в вектор, и подает латентное представление в кодировщик фонемы, чтобы улучшить лингвистические возможности представления.

SpeechSR или супер-разрешение речи

Рамка HierSpeech++ обучается на относительно низкоразрешающем наборе данных в плане эффективности и доступности данных, и увеличивает низкоразрешающую речевую волновую форму до высокоразрешающей речевой волновой формы с 16 до 48 кГц. Рамка также заменяет транспонированную свертку на ближайший соседний интерполятор, который ранее был известен тем, что облегчает артефакты, вызванные транспонированными свертками.

Архитектура

Кодировщик содержания модели текста в вектор состоит из 16 неказуальных слоев WaveNet с размером ядра 5 и скрытым размером 256, тогда как декодировщик содержания состоит из 8 неказуальных слоев WaveNet с размером ядра 5 и скрытым размером 512. Компонент текстового кодировщика состоит из трех условных трансформерных сетей и трех безусловных трансформерных сетей с размером ядра 9, размером фильтра 1024 и скрытым размером 256, с текстовым кодировщиком, имеющим коэффициент dropout 0,2. Чтобы закодировать соседнюю информацию и улучшить адаптацию стиля просодии, рамка принимает свертку с размером ядра 5 в блоках трансформеров. SpeechSR, с другой стороны, состоит из одного блока AMP с 32 начальными каналами без наличия слоя увеличения. Рамка использует ближайший соседний интерполятор, чтобы увеличить скрытые представления, и использует MPD в качестве дискриминатора с шестью разными размерами окон и четырьмя суб-банд дискриминаторами.

Вышеуказанная фигура демонстрирует конвейер вывода рамки HierSpeech++, который начинается с извлечения семантических представлений из аудио на частоте 16 кГц и на основной частоте с помощью алгоритма YAPPT. Прежде чем основная частота может быть подана в иерархический синтезатор, она нормализуется с помощью стандартного и среднего отклонения исходного аудио, и нормализованная основная частота затем денормализуется с помощью стандартного и среднего отклонения целевого аудио. Для извлечения речи из текста рамка HierSpeech++ извлекает текстовые представления вместо речевых представлений и использует модель текста в вектор, чтобы сгенерировать семантическое представление из просодического подсказа.

Эксперимент и результаты

Рамка использует публично доступный набор данных LibriTTS, чтобы обучить компонент иерархического синтезатора, с первым шагом, заключающимся в обучении модели на подмножестве trainclean набора данных, и использовании оставшихся данных, чтобы включить улучшенную передачу стиля голоса. Кроме того, чтобы улучшить разнообразие и устойчивость, рамка увеличивает набор данных до 1 кГц, как показано на следующей фигуре.

Задачи восстановления, ресинтеза и конверсии голоса

Чтобы оценить производительность рамки HierSpeech++ в задачах восстановления и ресинтеза, разработчики провели семь объективных метрик, и результаты демонстрируются на следующих фигурах для задач восстановления и ресинтеза соответственно.

Для задач конверсии голоса рамка использует две субъективные метрики для оценки: сходство голоса MOS или sMOS и естественность среднего мнения о качестве или nMOS с тремя объективными метриками естественности и двумя объективными метриками сходства.

Двигаясь дальше, основная цель рамки HierSpeech++ – включить синтез речи с нулевым выстрелом, и чтобы оценить ее производительность в нулевом выстреле, она сравнивается с другими базовыми моделями, такими как AutoVC, VoiceMixer, диффузионными моделями и многими другими, с результатами, демонстрируемыми на следующей фигуре.

Следующие фигуры демонстрируют результаты синтеза речи с нулевым выстрелом с шумными подсказами и очень шумными подсказами соответственно.

Окончательные мысли

В этой статье мы говорили о модели HierSpeech++, новом подходе к включению прочного и эффективного синтеза речи в нулевом выстреле, и преодолению ограничений, с которыми сталкиваются текущие рамки синтеза речи, включая их чрезмерную зависимость от больших объемов обучающих данных, зависимость от дискретных речевых единиц или предварительно обученных нейронных аудиокодеков, и их склонность к автогенерации аудиовыхода, что в конечном итоге приводит к отсутствию устойчивости и медленной скорости интерференции, что приводит к неправильному произношению, пропуску или повторению. Модель HierSpeech++ – это полностью параллельная, новая и прочная иерархическая рамка синтеза речи, направленная на синтез речевых образцов в нулевом выстреле, и пытается сделать следующие вклады

Использование иерархической рамки синтеза речи для контроля и передачи стилей голоса и просодии.
Включение масштабируемости данных и высокоразрешающего синтеза речи путем увеличения волновой формы аудио с 16 до 48 кГц.
Достижение человеческого уровня способностей в задачах конверсии голоса с нулевым выстрелом и текста в речь.

Related Topics:HierSpeech speech synthesys zero-shot

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.

Unite.AI

HierSpeech++ : Иерархический вариационный вывод для синтеза речи с нулевым выстрелом

HierSpeech++ : Иерархический вариационный вывод для синтеза речи с нулевым выстрелом

HierSpeech++ : Компоненты модели и архитектура

Речевые представления

Иерархический синтезатор речи

Текст в вектор

SpeechSR или супер-разрешение речи

Архитектура

Эксперимент и результаты

Задачи восстановления, ресинтеза и конверсии голоса

Окончательные мысли

You may like