Искусственный интеллект

StyleTTS 2: Синтез речи на уровне человека с помощью крупномасштабных моделей языка

Опубликовано 4 декабря 2023

Обновлено 22 мая 2026

Kunal Kejriwal

Благодаря увеличению количества натуральных и синтетических подходов к синтезу речи, одним из основных достижений индустрии искусственного интеллекта в последние годы стало эффективное синтезирование фреймворков текст-в-речь с потенциальными применениями в различных отраслях, включая аудиокниги, виртуальных помощников, голосовые нарративы и многое другое, причем некоторые модели демонстрируют результаты на уровне человека и эффективность в широком спектре задач, связанных с речью. Однако, несмотря на их высокую производительность, существует еще место для улучшения задач благодаря выразительной и разнообразной речи, требованию большого количества обучающих данных для оптимизации фреймворков текст-в-речь с нулевым выстрелом, и устойчивости к текстам, находящимся вне распределения, что заставляет разработчиков работать над более устойчивым и доступным фреймворком синтеза речи.

В этой статье мы будем говорить о StyleTTS-2, прочном и инновационном фреймворке синтеза речи, построенном на основе фреймворка StyleTTS, и направленном на представление следующего шага к фреймворкам синтеза речи на уровне человека. Фреймворк StyleTTS2 моделирует стили речи как латентные случайные переменные и использует вероятностную диффузионную модель для выборки этих стилей речи или случайных переменных, что позволяет фреймворку StyleTTS2 синтезировать реалистичную речь эффективно без использования входных аудио-данных. Благодаря этому подходу, фреймворк StyleTTS2 демонстрирует лучшие результаты и высокую эффективность по сравнению с текущими фреймворками синтеза речи на уровне человека, но также может воспользоваться разнообразной синтезированной речью, предлагаемой фреймворками диффузии. Мы будем более подробно обсуждать фреймворк StyleTTS2 и его архитектуру и методологию, а также рассматривать результаты, достигнутые фреймворком. Итак, давайте начнем.

StyleTTS2 для синтеза речи: Введение

StyleTTS2 – это инновационная модель синтеза речи, которая делает следующий шаг к построению фреймворков синтеза речи на уровне человека, и она построена на основе StyleTTS, стильного генеративного модели текст-в-речь. Фреймворк StyleTTS2 моделирует стили речи как латентные случайные переменные и использует вероятностную диффузионную модель для выборки этих стилей речи или случайных переменных, что позволяет фреймворку StyleTTS2 синтезировать реалистичную речь эффективно без использования входных аудио-данных. Моделирование стилей как латентных случайных переменных – это то, что отличает фреймворк StyleTTS2 от его предшественника, фреймворка StyleTTS, и направлено на генерирование наиболее подходящего стиля речи для входного текста без необходимости входного аудио, и может достичь эффективной латентной диффузии, используя разнообразные возможности синтеза речи, предлагаемые моделями диффузии. Кроме того, фреймворк StyleTTS2 также использует предварительно обученную большую модель языка как дискриминатор, например, фреймворк WavLM, и сочетает ее с новым подходом к дифференциальной моделированию продолжительности для обучения фреймворка от начала до конца, и в конечном итоге генерирует речь с повышенной естественностью. Благодаря этому подходу, фреймворк StyleTTS2 превосходит текущие фреймворки синтеза речи в задачах генерации речи и является одним из наиболее эффективных фреймворков для предварительного обучения крупномасштабных моделей речи в условиях нулевого выстрела для задач адаптации диктора.

Переходя к следующему, для синтеза речи на уровне человека, фреймворк StyleTTs2 включает знания из существующих работ, включая модели диффузии для синтеза речи и крупномасштабные модели языка. Модели диффузии обычно используются для задач синтеза речи благодаря их способности к тонкому контролю речи и разнообразному синтезу речи. Однако модели диффузии не так эффективны, как фреймворки на основе GAN, не требующие итераций, и одной из основных причин этого является необходимость выборки латентных представлений, волновых форм и мел-спектрограмм итеративно до целевой продолжительности речи.

С другой стороны, недавние работы по крупномасштабным моделям языка показали их способность улучшить качество задач генерации речи и адаптироваться к диктору. Крупномасштабные модели языка обычно преобразуют входной текст в квантованные или непрерывные представления, полученные из предварительно обученных фреймворков языка для задач восстановления речи. Однако функции этих моделей языка не оптимизированы напрямую для синтеза речи. Напротив, фреймворк StyleTTS2 использует знания, полученные крупномасштабными моделями языка, с помощью противостоящего обучения для синтеза функций моделей языка без использования латентного пространства, и поэтому, обучая латентное пространство, оптимизированное для синтеза речи напрямую.

StyleTTS2: Архитектура и методология

В основе своей, StyleTTS2 построен на основе своего предшественника, фреймворка StyleTTS, который является неавторегрессивным фреймворком текст-в-речь, использующим кодировщик стиля для получения вектора стиля из входного аудио, что позволяет генерировать естественную и выразительную речь. Вектор стиля, используемый в фреймворке StyleTTS, включается напрямую в кодировщик, продолжительность и предсказатели с помощью адаптивной нормализации экземпляров, что позволяет фреймворку StyleTTS генерировать выходы речи с различной просодией, продолжительностью и даже эмоциями. Фреймворк StyleTTS состоит из 8 моделей, разделенных на три категории

Акустические модели или система генерации речи с кодировщиком стиля, кодировщиком текста и декодером речи.
Система предсказания текст-в-речь, использующая предсказатели просодии и продолжительности.
Система утилит, включающая выравниватель текста, экстрактор высоты тона и дискриминатор для целей обучения.

Благодаря этому подходу, фреймворк StyleTTS демонстрирует результаты на уровне человека, связанные с контролируемым и разнообразным синтезом речи. Однако эта производительность имеет свои недостатки, такие как ухудшение качества выборки, ограничения выражения и зависимость от приложений, нарушающих речь, в реальном времени.

Улучшая фреймворк StyleTTS, фреймворк StyleTTS2 приводит к улучшению выражения задач текст-в-речь с повышенной производительностью вне распределения и высоким качеством на уровне человека. Фреймворк StyleTTS2 использует процесс обучения от начала до конца, который оптимизирует различные компоненты с помощью противостоящего обучения и прямого синтеза волновой формы совместно. В отличие от фреймворка StyleTTS, фреймворк StyleTTS2 моделирует стиль речи как латентную переменную и выборит ее с помощью моделей диффузии, что позволяет генерировать разнообразные выборки речи без использования входного аудио. Давайте более подробно рассмотрим эти компоненты.

Обучение от начала до конца для интерференции

В фреймворке StyleTTS2 используется подход обучения от начала до конца для оптимизации различных компонентов текст-в-речь для интерференции без необходимости использования фиксированных компонентов. Фреймворк StyleTTS2 достигает этого, модифицируя декодер для генерации волновой формы напрямую из вектора стиля, кривых высоты тона и энергии, и выравненных представлений. Фреймворк затем удаляет последний слой проекции декодера и заменяет его декодером волновой формы. Фреймворк StyleTTS2 использует два кодировщика: декодер на основе HifiGAN для генерации волновой формы напрямую и декодер на основе iSTFT для производства фазы и величины, которые преобразуются в волновые формы для более быстрой интерференции и обучения.

Вышеуказанная фигура представляет акустические модели, используемые для предварительного обучения и совместного обучения. Чтобы уменьшить время обучения, модули сначала оптимизируются в фазе предварительного обучения, а затем оптимизируются все компоненты, кроме экстрактора высоты тона, во время совместного обучения. Причина, по которой совместное обучение не оптимизирует экстрактор высоты тона, заключается в том, что он используется для предоставления основы для кривых высоты тона.

Вышеуказанная фигура представляет противостоящее обучение модели языка и интерференцию с фреймворком WavLM, предварительно обученным, но не дообученным. Процесс отличается от вышеперечисленного, поскольку он может принимать различные входные тексты, но накапливает градиенты для обновления параметров в каждом пакете.

Диффузия стиля

Фреймворк StyleTTS2 направлен на моделирование речи как условного распределения через латентную переменную, которая следует условному распределению, и эта переменная называется обобщенным стилем речи, и представляет любую характеристику в выборке речи за пределами объема любого фонетического содержания, включая лексический стресс, просодию, скорость речи и даже переходы формантов.

Дискриминаторы модели языка

Модели языка известны своей способностью кодировать ценную информацию о широком спектре семантики и акустических аспектов, и представления моделей языка традиционно могли имитировать человеческое восприятие для оценки качества сгенерированной синтезированной речи. Фреймворк StyleTTS2 использует подход противостоящего обучения для использования способности кодировщиков моделей языка выполнять генеративные задачи и использует 12-слойный фреймворк WavLM в качестве дискриминатора. Этот подход позволяет фреймворку включать обучение на текстах вне распределения, что может помочь улучшить производительность. Кроме того, для предотвращения проблем с переобучением, фреймворк выборит тексты вне распределения и внутри распределения с равной вероятностью.

Дифференциальное моделирование продолжительности

Традиционно, предсказатель продолжительности используется в фреймворках текст-в-речь, который производит продолжительности фонем, но методы апсемплинга, используемые этими предсказателями продолжительности, часто блокируют поток градиентов во время процесса обучения от начала до конца, и фреймворк NaturalSpeech использует апсемплер на основе внимания для конверсии текст-в-речь на уровне человека. Однако этот подход оказывается нестабильным во время противостоящего обучения, поскольку фреймворк StyleTTS2 обучается с помощью дифференцируемого апсемплинга с противостоящим обучением без потери дополнительных членов из-за несоответствия длины из-за отклонений. Хотя использование подхода мягкого динамического времени может помочь смягчить это несоответствие, его использование не только вычислительно дорого, но и его стабильность вызывает беспокойство при работе с противостоящими целями или задачами восстановления мела.

Чтобы преодолеть это ограничение, фреймворк StyleTTC2 предлагает использовать новый непараметрический подход к апсемплингу без дополнительного обучения и способный учитывать различные длины выравниваний. Для каждой фонемы, фреймворк StyleTTC2 моделирует выравнивание как случайную переменную и указывает индекс кадра речи, с которым фонема выравнивается.

Обучение и оценка модели

Фреймворк StyleTTC2 обучается и экспериментируется на трех наборах данных: VCTK, LibriTTS и LJSpeech. Компонент с одним диктором фреймворка StyleTTS2 обучается с помощью набора данных LJSpeech, который содержит примерно 13 000+ аудио-выборок, разделенных на 12 500 обучающих выборок, 100 выборок проверки и почти 500 тестовых выборок, с их общим временем воспроизведения, составляющим почти 24 часа. Компонент с несколькими дикторами фреймворка обучается на наборе данных VCTK, состоящем из более 44 000 аудио-клипов с более 100 родными дикторами с различными акцентами, и разделен на 43 500 обучающих выборок, 100 выборок проверки и почти 500 тестовых выборок. Наконец, чтобы оснастить фреймворк способностями нулевого выстрела, фреймворк обучается на объединенном наборе данных LibriTTS, состоящем из аудио-клипов, составляющих около 250 часов аудио с более 1 150 отдельными дикторами. Чтобы оценить его производительность, модель использует два метрики: MOS-N или Средний балл мнения о естественности, и MOS-S или Средний балл мнения о сходстве.

Результаты

Подход и методология, используемые в фреймворке StyleTTS2, демонстрируются в его производительности, поскольку модель превосходит несколько фреймворков синтеза речи на уровне человека, особенно на наборе данных NaturalSpeech, и устанавливает новый стандарт для набора данных. Кроме того, фреймворк StyleTTS2 превосходит фреймворк VITS на уровне человека на наборе данных VCTK, и результаты демонстрируются на следующей фигуре.

Модель StyleTTS2 также превосходит предыдущие модели на наборе данных LJSpeech и не демонстрирует никакого ухудшения качества на текстах вне распределения, как это демонстрировали предыдущие фреймворки на тех же метриках. Кроме того, в условиях нулевого выстрела, модель StyleTTC2 превосходит существующий фреймворк Vall-E по естественности, хотя и отстает по сходству. Однако стоит отметить, что фреймворк StyleTTS2 может достичь конкурентной производительности, несмотря на обучение только на 245 часах аудио-выборок по сравнению с более 60 тысячами часов обучения для фреймворка Vall-E, что делает StyleTTC2 эффективной альтернативой существующим методам предварительного обучения крупномасштабных моделей.

Переходя к следующему, из-за отсутствия аудио-текстовых данных, помеченных эмоциями, фреймворк StyleTTC2 использует модель GPT-4 для генерации более 500 экземпляров по различным эмоциям для визуализации векторов стиля, созданных фреймворком с помощью процесса диффузии.

На первой фигуре, эмоциональные стили в ответ на входные текстовые настроения иллюстрируются векторами стиля из модели LJSpeech, и демонстрируют способность фреймворка StyleTTC2 синтезировать выразительную речь с разнообразными эмоциями. Вторая фигура изображает отдельные кластеры для каждого из пяти отдельных дикторов, демонстрируя широкий спектр разнообразия, полученного из одного аудио-файла. Последняя фигура демонстрирует свободный кластер эмоций от диктора 1 и показывает, что, несмотря на некоторые перекрытия, эмоциональные кластеры являются заметными, что указывает на возможность манипулирования эмоциональным тоном диктора независимо от входного аудио-образца и его тона. Несмотря на использование подхода, основанного на диффузии, фреймворк StyleTTS2 превосходит существующие фреймворки на уровне человека, включая VITS, ProDiff и FastDiff.

Окончательные мысли

В этой статье, мы говорили о StyleTTS-2, новом, прочном и инновационном фреймворке синтеза речи, построенном на основе фреймворка StyleTTS, и направленном на представление следующего шага к фреймворкам синтеза речи на уровне человека. Фреймворк StyleTTS2 моделирует стили речи как латентные случайные переменные и использует вероятностную диффузионную модель для выборки этих стилей речи или случайных переменных, что позволяет фреймворку StyleTTS2 синтезировать реалистичную речь эффективно без использования входных аудио-данных. Фреймворк StyleTTS2 использует диффузию стиля и дискриминаторы модели языка для достижения производительности на уровне человека в задачах синтеза речи и превосходит существующие фреймворки на уровне человека на широком спектре задач, связанных с речью.