Свяжитесь с нами:

OpenVoice: универсальное мгновенное клонирование голоса

Искусственный интеллект

OpenVoice: универсальное мгновенное клонирование голоса

mm

В синтезе текста в речь (TTS) мгновенное клонирование голоса (IVC) позволяет модели TTS клонировать голос любого эталонного говорящего, используя короткий аудиосэмпл, без необходимости дополнительного обучения эталонного говорящего. Этот метод также известен как синтез речи с нулевым выстрелом. Подход мгновенного клонирования голоса позволяет гибко настраивать генерируемый голос и демонстрирует значительную ценность в широком диапазоне реальных ситуаций, включая настраиваемые чат-боты, создание контента и взаимодействие между людьми и моделями большого языка (LLM).

Хотя нынешние системы клонирования голоса хорошо справляются со своей задачей, они сталкиваются с рядом проблем в этой области, в том числе Гибкое голосовое управление стилем т.е. у моделей отсутствует возможность гибко манипулировать стилями голоса после клонирования голоса. Еще одним серьезным препятствием, с которым сталкиваются современные системы мгновенного клонирования, является Межъязыковое клонирование голоса с нулевым выстрелом т.е. в целях обучения текущие модели требуют доступа к обширному набору данных, говорящих на многих языках или MSML, независимо от языка. 

Чтобы решить эти проблемы и внести свой вклад в улучшение моделей мгновенного клонирования голоса, разработчики работали над OpenVoice, универсальной платформой мгновенного клонирования голоса, которая копирует голос любого пользователя и генерирует речь на нескольких языках с использованием короткого аудиоклипа из эталонного динамика. . OpenVoice демонстрирует, что модели мгновенного клонирования голоса могут воспроизводить цвет тона эталонного динамика и обеспечивать детальный контроль над стилями голоса, включая акцент, ритм, интонацию, паузы и даже эмоции. Что еще более впечатляет, так это то, что платформа OpenVoice также демонстрирует замечательные возможности в обеспечении нулевого межъязыкового клонирования голоса для языков, внешних по отношению к набору данных MSML, что позволяет OpenVoice клонировать голоса в новые языки без тщательного предварительного обучения этому языку. OpenVoice удается обеспечить превосходные результаты мгновенного клонирования голоса, будучи при этом вычислительно жизнеспособным, а эксплуатационные расходы до 10 раз меньше, чем у нынешних доступных API с более низкой производительностью. 

В этой статье мы подробно поговорим о платформе OpenVoice и раскроем ее архитектуру, которая позволяет ей обеспечивать превосходную производительность при выполнении задач мгновенного клонирования голоса. Итак, давайте начнем. 

OpenVoice: включение универсального мгновенного клонирования голоса

Как упоминалось ранее, мгновенное клонирование голоса, также называемое Синтез текста с нулевой записью в речь, позволяет модели TTS клонировать голос любого эталонного говорящего, используя короткий аудиосэмпл, без необходимости дополнительного обучения эталонного говорящего. Мгновенное клонирование голоса всегда было горячей темой исследований в существующих работах, включая платформы XTTS и VALLE, которые извлекают встраивание динамиков и/или акустические токены из эталонного звука, что служит условием для авторегрессионной модели. Затем авторегрессионная модель последовательно генерирует акустические токены, а затем декодирует эти токены в необработанный звуковой сигнал. 

Хотя авторегрессионные модели мгновенного клонирования голоса замечательно клонируют цвет тона, они не справляются с другими параметрами стиля, включая акцент, эмоции, паузы и ритм. Кроме того, авторегрессионные модели также имеют низкую скорость вывода, а их эксплуатационные расходы довольно высоки. Существующие подходы, такие как платформа YourTTS, используют неавторегрессивный подход, который демонстрирует значительно более быструю речь вывода по сравнению со структурами авторегрессионного подхода, но по-прежнему не могут предоставить своим пользователям гибкий контроль над параметрами стиля. Более того, как на основе авторегрессии, так и на основе авторегрессии, системы мгновенного голосового клонирования нуждаются в доступе к большому MSML или многоязычному набору данных с большим количеством говорящих для межъязыкового клонирования голоса. 

Чтобы решить проблемы, с которыми сталкиваются современные платформы мгновенного клонирования голоса, разработчики работали над OpenVoice, библиотекой мгновенного клонирования голоса с открытым исходным кодом, целью которой является решение следующих проблем, с которыми сталкиваются текущие платформы IVC. 

  1. Первая задача состоит в том, чтобы позволить платформам IVC иметь гибкий контроль над параметрами стиля в дополнение к цвету тона, включая акцент, ритм, интонацию и паузы. Параметры стиля имеют решающее значение для создания естественного диалога и речи в контексте, а не монотонного повествования входного текста. 
  2. Вторая задача заключается в том, чтобы позволить платформам IVC клонировать межъязыковые голоса в условиях нулевого шанса. 
  3. Последняя задача — добиться высокой скорости вывода в реальном времени без ухудшения качества. 

Чтобы преодолеть первые два препятствия, архитектура платформы OpenVoice спроектирована таким образом, чтобы максимально эффективно отделить компоненты голоса. Кроме того, OpenVoice независимо генерирует цвет тона, язык и другие голосовые функции, что позволяет платформе гибко манипулировать отдельными типами языка и стилями голоса. Платформа OpenVoice по умолчанию решает третью задачу, поскольку разделенная структура снижает вычислительную сложность и требования к размеру модели. 

OpenVoice: методология и архитектура

Техническая основа OpenVoice эффективна и удивительно проста в реализации. Ни для кого не секрет, что клонирование цвета тона для любого динамика, добавление нового языка и одновременное обеспечение гибкого управления параметрами голоса могут оказаться сложной задачей. Это так, потому что одновременное выполнение этих трех задач требует, чтобы контролируемые параметры пересекались с использованием большого количества комбинаторных наборов данных. Кроме того, в обычном одиночном динамике синтез текста в речь, для задач, не требующих клонирования голоса, проще добавить контроль над другими параметрами стиля. Основываясь на этом, платформа OpenVoice стремится разделить задачи мгновенного клонирования голоса на подзадачи. Модель предлагает использовать базовую модель преобразования текста в речь динамика для управления параметрами языка и стиля, а также использует преобразователь цвета тона для включения эталонного цвета тона в генерируемый голос. На следующем рисунке показана архитектура платформы. 

По своей сути платформа OpenVoice использует два компонента: преобразователь цвета тона и базовую модель текста динамика в речь или модель TTS. Базовая модель преобразования текста в речь динамика представляет собой модель с одним или несколькими динамиками, позволяющую точно контролировать параметры стиля, языка и акцента. Модель генерирует голос, который затем передается в преобразователь цвета тона, который меняет цвет тона базового динамика на цвет тона эталонного динамика. 

Платформа OpenVoice предлагает большую гибкость, когда дело доходит до базовой модели преобразования текста в речь говорящего, поскольку она может использовать модель VITS с небольшой модификацией, позволяющей ей принимать встраивания языка и стиля в свой предиктор длительности и кодировщик текста. Платформа также может использовать модели, такие как Microsoft TTS, которые являются коммерчески дешевыми, или модели, такие как InstructTTS, которые способны принимать подсказки о стиле. На данный момент структура OpenVoice использует модель VITS, хотя другие модели также являются возможным вариантом. 

Что касается второго компонента, преобразователь цвета тона представляет собой компонент кодера-декодера, в центре которого находится обратимый нормализующий поток. Компонент кодера в преобразователе цвета тона представляет собой одномерную CNN, которая принимает в качестве входных данных спектр кратковременного преобразования Фурье базовой модели текста говорящего в речевую модель. Затем кодировщик генерирует карты объектов в качестве выходных данных. Экстрактор цвета тона представляет собой простую двумерную CNN, которая работает с мел-спектрограммой входного голоса и генерирует на выходе один вектор признаков, который кодирует информацию о цвете тона. Слои нормализующего потока принимают карты объектов, сгенерированные кодировщиком, в качестве входных данных и генерируют представление объектов, которое сохраняет все свойства стиля, но исключает информацию о цвете тона. Затем платформа OpenVoice применяет слои нормализующего потока в обратном направлении, принимает представления объектов в качестве входных данных и выводит слои нормализующего потока. Затем платформа декодирует нормализующие слои потока в необработанные сигналы, используя стек транспонированных одномерных сверток. 

Вся архитектура платформы OpenVoice построена вперед без использования каких-либо компонентов авторегрессии. Компонент преобразователя тонов и цветов аналогичен преобразованию голоса на концептуальном уровне, но отличается с точки зрения функциональности, целей обучения и индуктивного смещения в структуре модели. Слои нормализующего потока имеют ту же структуру, что и модели преобразования текста в речь на основе потока, но отличаются с точки зрения функциональности и целей обучения. 

Кроме того, существует другой подход к извлечению представлений функций: метод, реализованный в среде OpenVoice, обеспечивает лучшее качество звука. Также стоит отметить, что структура OpenVoice не намерена изобретать компоненты в архитектуре модели, скорее, оба основных компонента, то есть преобразователь цвета тона и модель TTS базового динамика, взяты из существующих работ. Основная цель платформы OpenVoice — сформировать отдельную структуру, которая отделит управление языком и стилем голоса от клонирования цвета тона. Хотя этот подход довольно прост, он весьма эффективен, особенно в задачах, связанных со стилем и акцентом, или в задачах по обобщению нового языка. Достижение того же контроля при использовании связанной структуры требует большого объема вычислений и данных и плохо распространяется на новые языки. 

По своей сути основная философия платформы OpenVoice заключается в том, чтобы отделить генерацию языка и голосовых стилей от генерации цвета тона. Одной из основных сильных сторон платформы OpenVoice является то, что клонированный голос является беглым и качественным, пока TTS с одним динамиком говорит свободно. 

OpenVoice: эксперимент и результаты

Оценка задач клонирования голоса является сложной задачей по множеству причин. Во-первых, в существующих работах часто используются разные данные обучения и испытаний, что делает сравнение этих работ по своей сути несправедливым. Хотя краудсорсинг можно использовать для оценки таких показателей, как средний балл мнений, сложность и разнообразие тестовых данных будут существенно влиять на общий результат. Во-вторых, разные методы клонирования голоса имеют разные данные обучения, а разнообразие и масштаб этих данных существенно влияют на результаты. Наконец, основная цель существующих произведений часто отличается друг от друга, а значит, они различаются и по своему функционалу. 

По трем причинам, упомянутым выше, несправедливо сравнивать существующие системы клонирования голоса в цифровом формате. Вместо этого гораздо разумнее качественно сравнить эти методы. 

Точное клонирование цвета тона

Чтобы проанализировать его производительность, разработчики создают тестовый набор с анонимными людьми, игровыми персонажами и знаменитостями, образующими эталонную базу динамиков, и имеют широкое распределение голосов, включая как нейтральные образцы, так и уникальные выразительные голоса. Платформа OpenVoice способна клонировать цвет эталонного тона и генерировать речь на нескольких языках и с акцентами для любого из эталонных динамиков и четырех базовых динамиков. 

Гибкое управление голосовыми стилями

Одной из целей платформы OpenVoice является гибкое управление стилями речи с помощью преобразователя цвета тона, который может изменять цветовой тон, сохраняя при этом все другие функции и свойства голоса. 

Эксперименты показывают, что модель сохраняет голосовые стили после преобразования в цвет эталонного тона. Однако в некоторых случаях модель слегка нейтрализует эмоции, и эту проблему можно решить, передавая меньше информации слоям потока, чтобы они не могли избавиться от эмоций. Платформа OpenVoice способна сохранять стили основного голоса благодаря использованию преобразователя тонов и цветов. Это позволяет платформе OpenVoice манипулировать базовой моделью преобразования текста в речь говорящего, чтобы легко управлять голосовыми стилями. 

Межъязыковой голосовой клон

Платформа OpenVoice не включает в себя какие-либо данные о массивных носителях для невидимого языка, однако она способна обеспечить практически межъязыковое клонирование голоса с нулевыми настройками. Возможности межъязыкового клонирования голоса в среде OpenVoice заключаются в двух аспектах:

  1. Модель способна точно клонировать цвет тона эталонного говорящего, когда язык эталонного говорящего невидим в многоязычном наборе данных с несколькими говорящими или в наборе данных MSML. 
  2. Кроме того, в том же случае, если язык эталонного говорящего не виден, платформа OpenVoice способна клонировать голос эталонного говорящего и говорить на том языке, при условии, что базовая модель преобразования текста в речь говорящего поддерживает этот язык. 

Заключение

В этой статье мы говорили об OpenVoice, универсальной платформе мгновенного клонирования голоса, которая копирует голос любого пользователя и генерирует речь на нескольких языках, используя короткий аудиоклип из эталонного динамика. Основная идея OpenVoice заключается в том, что до тех пор, пока модели не требуется выполнять клонирование цвета тона эталонного динамика, платформа может использовать модель TTS базового динамика для управления языком и стилями голоса. 

OpenVoice демонстрирует, что модели мгновенного клонирования голоса могут воспроизводить цвет тона эталонного динамика и обеспечивать детальный контроль над стилями голоса, включая акцент, ритм, интонацию, паузы и даже эмоции. OpenVoice удается обеспечить превосходные результаты мгновенного клонирования голоса, будучи при этом вычислительно жизнеспособным, а эксплуатационные расходы до 10 раз меньше, чем у нынешних доступных API с более низкой производительностью. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.