Искусственный интеллект

OpenVoice: Универсальная Инстантная Клонирование Голоса

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

В синтезе речи от текста (TTS), Инстантная Клонирование Голоса (IVC) позволяет модели TTS клонировать голос любого справочного диктора, используя короткий аудио-сэмпл, без необходимости дополнительной тренировки для справочного диктора. Этот метод также известен как Zero-Shot Text-to-Speech Синтез. Подход Инстантной Клонирования Голоса позволяет гибко настраивать сгенерированный голос и демонстрирует значительную ценность в широком диапазоне реальных ситуаций, включая настраиваемые чат-боты, создание контента и взаимодействие между людьми и Большими Языковыми Моделями (LLM).

Хотя существующие фреймворки голосовой клонировки выполняют свою работу хорошо, они имеют несколько проблем в этой области, включая Гибкий Контроль Стиля Голоса, т.е. модели не имеют возможности манипулировать стилями голоса гибко после клонирования голоса. Другой серьезной проблемой, с которой сталкиваются существующие фреймворки инстантной клонировки, является Zero-Shot Cross-Lingual Голосовая Клонирование, т.е. для целей тренировки существующие модели требуют доступа к обширному набору данных MSML (многоспикерному многоязычному) независимо от языка.

Чтобы решить эти проблемы и улучшить модели инстантной клонировки голоса, разработчики работали над OpenVoice, универсальным фреймворком инстантной клонировки голоса, который реплицирует голос любого пользователя и генерирует речь на нескольких языках, используя короткий аудио-клип от справочного диктора. OpenVoice демонстрирует, что модели Инстантной Клонирования Голоса могут реплицировать тон-цвет справочного диктора и достигать детального контроля над стилями голоса, включая акцент, ритм, интонацию, паузы и даже эмоции. Что еще более впечатляет, так это то, что фреймворк OpenVoice также демонстрирует замечательные возможности в достижении zero-shot cross-lingual голосовой клонировки для языков, не входящих в набор данных MSML, что позволяет OpenVoice клонировать голоса на новые языки без обширной предварительной тренировки для этого языка. OpenVoice обеспечивает превосходные результаты инстантной клонировки голоса, будучи вычислительной жизнеспособной с операционными затратами до 10 раз меньше, чем у существующих API с худшей производительностью.

В этой статье мы поговорим о фреймворке OpenVoice в глубину и раскроем его архитектуру, которая позволяет ему обеспечивать превосходную производительность по задачам инстантной клонировки голоса. Итак, давайте начнем.

OpenVoice: Включая Универсальную Инстантную Клонирование Голоса

Как упоминалось ранее, Инстантная Клонирование Голоса, также известная как Zero-Shot Text to Speech Синтез, позволяет модели TTS клонировать голос любого справочного диктора, используя короткий аудио-сэмпл, без необходимости дополнительной тренировки для справочного диктора. Инстантная Клонирование Голоса всегда была горячей темой исследований с существующими работами, включая фреймворки XTTS и VALLE, которые извлекают эмбеддинги диктора и/или акустические токены из справочного аудио, что служит условием для автoreгрессивной модели. Авторегрессивная модель затем генерирует акустические токены последовательно и декодирует эти токены в сырой аудио-сигнал.

Хотя автoreгрессивные модели инстантной клонировки голоса клонируют тон-цвет замечательно, они не справляются с манипулированием другими параметрами стиля, включая акцент, эмоцию, паузы и ритм. Кроме того, автoreгрессивные модели также испытывают низкую скорость вывода и высокие операционные затраты. Существующие подходы, такие как фреймворк YourTTS, используют неавторегрессивный подход, который демонстрирует значительно более быструю скорость вывода речи, чем фреймворки, основанные на автoreгрессии, но все еще не могут обеспечить пользователям гибкий контроль над параметрами стиля. Более того, как автoreгрессивные, так и неавторегрессивные фреймворки инстантной клонировки голоса требуют доступа к большому набору данных MSML или многоспикерному многоязычному для cross-lingual голосовой клонировки.

Чтобы решить проблемы, с которыми сталкиваются существующие фреймворки инстантной клонировки голоса, разработчики работали над OpenVoice, открытым фреймворком инстантной клонировки голоса, который направлен на решение следующих проблем, с которыми сталкиваются существующие фреймворки IVC.

Первая проблема заключается в том, чтобы позволить фреймворкам IVC иметь гибкий контроль над параметрами стиля, помимо тон-цвета, включая акцент, ритм, интонацию и паузы. Параметры стиля имеют решающее значение для генерации естественных разговоров и речи, а не монотонного чтения входного текста.
Вторая проблема заключается в том, чтобы позволить фреймворкам IVC клонировать cross-lingual голоса в zero-shot настройке.
Третья проблема заключается в том, чтобы достичь высоких скоростей вывода в реальном времени без ухудшения качества.

Чтобы решить первые две проблемы, архитектура фреймворка OpenVoice спроектирована так, чтобы декуплировать компоненты в голосе насколько это возможно. Кроме того, OpenVoice генерирует тон-цвет, язык и другие характеристики голоса независимо, что позволяет фреймворку гибко манипулировать отдельными языками и стилями голоса. Фреймворк OpenVoice решает третью проблему по умолчанию, поскольку декуплированная структура снижает вычислительную сложность и требования к размеру модели.

OpenVoice: Методология и Архитектура

Технический фреймворк OpenVoice эффективен и удивительно прост в реализации. Это не секрет, что клонирование тон-цвета для любого диктора, добавление нового языка и обеспечение гибкого контроля над параметрами голоса одновременно может быть сложной задачей. Это связано с тем, что выполнение этих трех задач одновременно требует контролируемых параметров, пересекающихся с помощью большого набора комбинированных данных. Кроме того, в обычном синтезе речи от текста для одного диктора, для задач, которые не требуют клонирования голоса, легче добавить контроль над другими параметрами стиля. Основываясь на этом, фреймворк OpenVoice направлен на декуплирование задач инстантной клонировки голоса на подзадачи. Модель предлагает использовать базовую модель TTS для контроля языка и параметров стиля и использовать преобразователь тон-цвета для включения справочного тон-цвета в сгенерированный голос.

В своей основе фреймворк OpenVoice использует два компонента: преобразователь тон-цвета и базовую модель TTS. Базовая модель TTS является либо односpeakerной, либо многоспикерной, что позволяет точно контролировать параметры стиля, языка и акцента. Модель генерирует голос, который затем передается в преобразователь тон-цвета, который изменяет базовый тон-цвет на тон-цвет справочного диктора.

Фреймворк OpenVoice предлагает много гибкости, когда речь идет о базовой модели TTS, поскольку он может использовать модель VITS с незначительными изменениями, что позволяет ей принимать языковые и стильные эмбеддинги в ее прогностике продолжительности и текстовом кодировщике. Фреймворк также может использовать модели, такие как Microsoft TTS, которые коммерчески доступны, или развертывать модели, такие как InstructTTS, которые могут принимать стиль-промпты. На данный момент фреймворк OpenVoice использует модель VITS, хотя другие модели также являются жизнеспособным вариантом.

Что касается второго компонента, преобразователь тон-цвета является компонентом кодировщик-декодировщик, содержащим инвертируемый нормализующий поток в центре. Кодировщик в преобразователе тон-цвета является одномерной свёрточной нейронной сетью, которая принимает спектр базовой модели TTS как входные данные. Кодировщик затем генерирует карты признаков в качестве выходных данных. Извлекатель тон-цвета является простой двумерной свёрточной нейронной сетью, которая работает с мел-спектрограммой входного голоса и генерирует единственный вектор признаков в качестве выходных данных, который кодирует информацию о тон-цвете. Слои нормализующего потока принимают карты признаков, сгенерированные кодировщиком, в качестве входных данных и генерируют представление признаков, которое сохраняет все свойства стиля, но устраняет информацию о тон-цвете. Фреймворк OpenVoice затем применяет слои нормализующего потока в обратном направлении и принимает представления признаков в качестве входных данных и выводит слои нормализующего потока. Фреймворк затем декодирует слои нормализующего потока в сырые аудио-сигналы, используя стек транспонированных одномерных свёрточных нейронных сетей.

Вся архитектура фреймворка OpenVoice является прямой, без использования каких-либо автoreгрессивных компонентов. Компонент преобразователь тон-цвета похож на голосовую конверсию на концептуальном уровне, но отличается по функциональности, целям тренировки и индуктивному предвзятству в структуре модели. Слои нормализующего потока имеют ту же структуру, что и модели потока текста в речь, но отличаются по функциональности и целям тренировки.

Кроме того, существует другой подход к извлечению представлений признаков, метод, реализованный фреймворком OpenVoice, обеспечивает лучшее качество аудио. Также стоит отметить, что фреймворк OpenVoice не намерен изобретать компоненты в архитектуре модели, а оба основных компонента, т.е. преобразователь тон-цвета и базовая модель TTS, взяты из существующих работ. Основная цель фреймворка OpenVoice заключается в создании декуплированного фреймворка, который отделяет контроль языка и стиля голоса от клонирования тон-цвета. Хотя подход достаточно прост, он очень эффективен, особенно для задач, которые контролируют стили и акценты или новые языковые обобщения. Достижение того же контроля при использовании связанного фреймворка требует большого количества вычислений и данных и не обобщается хорошо на новые языки.

В своей основе основная философия фреймворка OpenVoice заключается в декуплировании генерации языка и стилей голоса от генерации тон-цвета. Одной из основных сильных сторон фреймворка OpenVoice является то, что клонированный голос является плавным и высокого качества, пока односpeakerная модель TTS говорит плавно.

OpenVoice: Эксперимент и Результаты

Оценка задач клонирования голоса является сложной задачей по нескольким причинам. Во-первых, существующие работы часто используют разные наборы тренировочных и тестовых данных, что делает сравнение этих работ внутренне несправедливым. Хотя краудсорсинг может быть использован для оценки метрик, таких как Средний Балл Мнения, сложность и разнообразие тестовых данных существенно повлияют на общий результат. Во-вторых, разные методы клонирования голоса имеют разные наборы тренировочных данных, и разнообразие и масштаб этих данных существенно повлияют на результаты. Наконец, основная цель существующих работ часто отличается друг от друга, поэтому они отличаются по функциональности.

Из-за этих трех причин несправедливо сравнивать существующие фреймворки клонирования голоса численно. Вместо этого имеет смысл сравнивать эти методы качественно.

Точное Клонирование Тон-Цвета

Чтобы проанализировать его производительность, разработчики создают тестовый набор с анонимными лицами, персонажами игр и знаменитостями, которые образуют базу справочных дикторов, и имеют широкое распределение голосов, включая как нейтральные образцы, так и уникальные выразительные голоса. Фреймворк OpenVoice способен клонировать справочный тон-цвет и генерировать речь на нескольких языках и акцентах для любого из справочных дикторов и 4 базовых дикторов.

Гибкий Контроль над Стилями Голоса

Одной из целей фреймворка OpenVoice является контроль над стилями голоса гибко, используя преобразователь тон-цвета, который может изменить тон-цвет, сохраняя все другие характеристики голоса и свойства.

Эксперименты показывают, что модель сохраняет стили голоса после конвертации в справочный тон-цвет. В некоторых случаях, однако, модель немного нейтрализует эмоции, проблему, которую можно решить, передавая меньше информации в слои потока, чтобы они не смогли избавиться от эмоций. Фреймворк OpenVoice способен сохранить стили от базового голоса благодаря использованию преобразователя тон-цвета. Это позволяет фреймворку OpenVoice манипулировать базовой моделью TTS, чтобы легко контролировать стили голоса.

Кросс-Лингвальная Клонирование Голоса

Фреймворк OpenVoice не включает в себя никаких массивных данных для не виденного языка, но он способен достичь почти кросс-лингвального клонирования голоса в zero-shot настройке. Возможности кросс-лингвального клонирования голоса фреймворка OpenVoice являются двойными:

Модель способна клонировать тон-цвет справочного диктора точно, когда язык справочного диктора не виден в наборе данных MSML.
Кроме того, в случае, когда язык справочного диктора не виден, фреймворк OpenVoice способен клонировать голос справочного диктора и говорить на языке, если базовая модель TTS поддерживает этот язык.

Окончательные Мысли

В этой статье мы поговорили о фреймворке OpenVoice, универсальном фреймворке инстантной клонировки голоса, который реплицирует голос любого пользователя и генерирует речь на нескольких языках, используя короткий аудио-клип от справочного диктора. Основная интуиция, лежащая в основе OpenVoice, заключается в том, что пока модель не должна выполнять клонирование тон-цвета справочного диктора, фреймворк может использовать базовую модель TTS для контроля языка и стилей голоса.

Фреймворк OpenVoice демонстрирует, что модели инстантной клонировки голоса могут реплицировать тон-цвет справочного диктора и достигать детального контроля над стилями голоса, включая акцент, ритм, интонацию, паузы и даже эмоции. Фреймворк OpenVoice обеспечивает превосходные результаты инстантной клонировки голоса, будучи вычислительной жизнеспособным с операционными затратами до 10 раз меньше, чем у существующих API с худшей производительностью.

Unite.AI