Штучний інтелект

OpenVoice: Універсальне миттєве клонування голосу

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

У синтезі тексту в мовлення (TTS), миттєве клонування голосу (IVC) дозволяє моделі TTS клонувати голос будь-якого речового диктора за допомогою короткої аудіозаписи, без потреби додаткової підготовки для речового диктора. Ця техніка також відома як синтез мовлення з нульовим зразком. Підхід миттєвого клонування голосу дозволяє гнучко налаштовувати згенерований голос і демонструє значну цінність у широкому діапазоні реальних ситуацій, включаючи налаштовані чат-боти, створення контенту та взаємодію між людьми та великими мовними моделями (LLM).

Хоча поточні фреймворки клонування голосу роблять свою роботу добре, вони мають кілька проблем у галузі, включаючи Гнучкий контроль стилю голосу, тобто моделі не мають можливості маніпулювати стилями голосу гнучко після клонування голосу. Іншою великою проблемою, з якою стикаються поточні фреймворки миттєвого клонування, є Миттєве клонування голосу з нульовим зразком для різних мов, тобто для навчання поточні моделі потребують доступу до великої багатомовної бази даних, незалежно від мови.

Щоб подолати ці проблеми та покращити моделі миттєвого клонування голосу, розробники працювали над OpenVoice, універсальним фреймворком миттєвого клонування голосу, який реплікує голос будь-якого користувача та генерує мовлення кількома мовами за допомогою короткої аудіозаписи від речового диктора. OpenVoice демонструє, що моделі миттєвого клонування голосу можуть реплікувати тоновий колір речового диктора та досягати детального контролю над стилями голосу, включаючи акцент, ритм, інтонацію, паузи та навіть емоції. Що ще більш вражає, так це те, що фреймворк OpenVoice також демонструє видатні можливості у досягненні миттєвого клонування голосу з нульовим зразком для мов, які не входять до бази даних MSML, що дозволяє OpenVoice клонувати голоси на нові мови без розширеної попередньої підготовки для цієї мови. OpenVoice забезпечує надійні результати миттєвого клонування голосу, будучи обчислювально життєздатним з операційними витратами до 10 разів менше, ніж у поточних API з нижчою продуктивністю.

У цій статті ми поговоримо про фреймворк OpenVoice докладніше та розкриємо його архітектуру, яка дозволяє йому забезпечувати надійні результати миттєвого клонування голосу. Тому почнімо.

OpenVoice: забезпечення універсального миттєвого клонування голосу

Як згадувалося раніше, миттєве клонування голосу, також відоме як синтез мовлення з нульовим зразком, дозволяє моделі TTS клонувати голос будь-якого речового диктора за допомогою короткої аудіозаписи без потреби додаткової підготовки для речового диктора. Миттєве клонування голосу завжди було гарячою темою досліджень з існуючими роботами, включаючи фреймворки XTTS та VALLE, які витягують вкладення диктора та/або акустичних токенів з аудіозаписі речового диктора, які служать умовою для автoregresивної моделі. Авторегресивна модель потім генерує акустічні токени послідовно, а потім декодує ці токени у сирій аудіосигнал.

Хоча автoregresивні моделі миттєвого клонування голосу реплікують тоновий колір доволі добре, вони не можуть маніпулювати іншими параметрами стилю, включаючи акцент, емоцію, паузи та ритм. Крім того, автoregresивні моделі також мають низьку швидкість висновку, а їх операційні витрати досить високі. Існуючі підходи, такі як фреймворк YourTTS, використовують некорегресивний підхід, який демонструє значно вищу швидкість висновку мовлення над автoregresивними фреймворками, але все ще не можуть забезпечити своїм користувачам гнучкий контроль над параметрами стилю. Крім того, як автoregresивні, так і некорегресивні фреймворки миттєвого клонування голосу потребують доступу до великої багатомовної бази даних для клонування голосу різних мов.

Щоб подолати ці проблеми, розробники працювали над OpenVoice, відкритим фреймворком миттєвого клонування голосу, який має на меті вирішити наступні проблеми, з якими стикаються поточні фреймворки IVC.

Перша проблема полягає у тому, щоб забезпечити фреймворкам IVC гнучкий контроль над параметрами стилю, крім тонового колору, включаючи акцент, ритм, інтонацію та паузи. Параметри стилю є важливими для генерації природних розмов та мовлення, а не для розповіді вхідного тексту монотонно.
Друга проблема полягає у тому, щоб забезпечити фреймворкам IVC можливість клонувати голоси різних мов у нульовому зразку.
Остання проблема полягає у тому, щоб досягти високої швидкості висновку в реальному часі без погіршення якості.

Щоб подолати перші дві проблеми, архітектура фреймворку OpenVoice спроектована так, щоб розділяти компоненти у голосі найкращим чином. Крім того, OpenVoice генерує тоновий колір, мову та інші характеристики голосу незалежно, що дозволяє фреймворку гнучко маніпулювати окремими мовами та стилями голосу. Фреймворк OpenVoice подолує третю проблему за замовчуванням, оскільки розділена структура зменшує обчислювальну складність та вимоги до розміру моделі.

OpenVoice: методологія та архітектура

Технічний фреймворк OpenVoice є ефективним та досить простим у реалізації. Не секрет, що клонування тонового колору для будь-якого диктора, додавання нової мови та забезпечення гнучкого контролю над параметрами голосу одночасно можуть бути складними. Це відбувається через те, що виконання цих трьох завдань одночасно потребує контрольованих параметрів, які перетинаються за допомогою великої кількості комбінаторних наборів даних. Крім того, у звичайному синтезі мовлення для одного диктора, для завдань, які не потребують клонування голосу, легше додати контроль над іншими параметрами стилю. Будуючи на цих знаннях, фреймворк OpenVoice має на меті розділити завдання миттєвого клонування голосу на підзадачі. Модель пропонує використовувати базову модель TTS для контролю мови та параметрів стилю, а також використовує конвертер тонового колору для включення тонового колору речового диктора у згенерований голос.

У своєму ядрі фреймворк OpenVoice використовує два компоненти: конвертер тонового колору та базову модель TTS. Базова модель TTS може бути одно- або багатомовною, що дозволяє точно контролювати параметри стилю, мову та акцент. Модель генерує голос, який потім передається конвертеру тонового колору, який змінює тоновий колір базового диктора на тоновий колір речового диктора.

Фреймворк OpenVoice пропонує багато гнучкості щодо базової моделі TTS, оскільки він може використовувати модель VITS з незначними модифікаціями, що дозволяє їй приймати мовні та стилеві вкладення у своєму прогнозувачі тривалості та текстовому кодувачі. Фреймворк також може використовувати моделі, такі як Microsoft TTS, які є комерційно доступними, або моделі, такі як InstructTTS, які можуть приймати стилеві промпти. Наразі фреймворк OpenVoice використовує модель VITS, хоча інші моделі також є прийнятними варіантами.

Відносно другого компонента, конвертер тонового колору є компонентом кодувача-дешифратора, який містить інвертований нормалізувальний потік у центрі. Компонент кодувача у конвертері тонового колору є одновимірною сворточною нейронною мережею, яка приймає спектр базової моделі TTS як вхідні дані. Кодувач потім генерує карту функцій як вихід. Конвертер тонового колору є простою двовимірною сворточною нейронною мережею, яка працює над мел-спектрограмою вхідного голосу та генерує одиничний вектор функцій, який кодує інформацію про тоновий колір. Нормалізуючі потікові шари приймають карти функцій, згенерованих кодувачем, як вхідні дані та генерують представлення функції, яке зберігає всі властивості стилю, але усуває інформацію про тоновий колір. Фреймворк OpenVoice потім застосовує нормалізуючі потікові шари у зворотному напрямку та приймає представлення функції як вхідні дані та виводить нормалізуючі потікові шари. Фреймворк потім декодує нормалізуючі потікові шари у сирі аудіосигнали за допомогою стека трансponованих одновимірних сворточних нейронних мереж.

Ціла архітектура фреймворку OpenVoice є прямою, без використання автoregresивних компонентів. Компонент конвертера тонового колору схожий на конвертування голосу на концептуальному рівні, але відрізняється за функціональністю, навчальними цілями та індуктивним упередженням у структурі моделі. Нормалізуючі потікові шари мають相同ну структуру, як і потокові моделі синтезу мовлення, але відрізняються за функціональністю та навчальними цілями.

Крім того, існує інший підхід до витягування представлень функцій, реалізований фреймворком OpenVoice, який забезпечує кращу якість аудіо. Також варто зазначити, що фреймворк OpenVoice не має на меті винайти компоненти у структурі моделі, а радше обидва основні компоненти, тобто конвертер тонового колору та базова модель TTS, походять з існуючих робіт. Основна мета фреймворку OpenVoice полягає у створенні розділеного фреймворку, який розділяє контроль мови та стилю голосу від клонування тонового колору. Хоча підхід досить простий, він досить ефективний, особливо для завдань, які контролюють стилі та акценти, або для нових мовних завдань. Досягнення такого контролю при використанні зв’язаного фреймворку потребує великої кількості обчислень та даних та не узагальнюється добре для нових мов.

У своєму ядрі основна філософія фреймворку OpenVoice полягає у розділенні генерації мови та стилів голосу від генерації тонового колору. Однією з основних сильних сторін фреймворку OpenVoice є те, що клонований голос є плавним та високої якості, якщо тільки одно-мовна модель TTS говорить плавно.

OpenVoice: експеримент та результати

Оцінка завдань клонування голосу є складною через численні причини. По-перше, існуючі роботи часто використовують різні навчальні та тестові дані, що робить порівняння цих робіт внутрішньо несправедливим. Хоча краудсорсинг можна використовувати для оцінки метрик, таких як середній бал оцінки, складність та різноманітність тестових даних суттєво вплине на загальний результат. По-друге, різні методи клонування голосу мають різні навчальні дані, а різноманітність та масштаб цих даних суттєво впливають на результати. По-третє, основна мета існуючих робіт часто відрізняється одна від одної, тому вони відрізняються за функціональністю.

Через ці три причини недоцільно порівнювати існуючі фреймворки клонування голосу чисельно. Натомість має більше сенсу порівнювати ці методи якісно.

Точне клонування тонового колору

Щоб проаналізувати свою продуктивність, розробники створили тестовий набір з анонімних осіб, персонажів гри та знаменитостей, які утворюють базу речових дикторів, та мають широке розподілення голосу, включаючи як нейтральні зразки, так і унікальні виразні голоси. Фреймворк OpenVoice здатний клонувати тоновий колір речового диктора та генерувати мовлення кількома мовами та акцентами для будь-якого з речових дикторів та 4 базових дикторів.

Гнучкий контроль над стилями голосу

Однією з мета фреймворку OpenVoice є забезпечення гнучкого контролю над стилями голосу за допомогою конвертера тонового колору, який може змінювати тоновий колір, зберігаючи при цьому всі інші характеристики голосу та властивості.

Експерименти показують, що модель зберігає стилі голосу після конвертування у тоновий колір речового диктора. У деяких випадках, однак, модель нейтралізує емоції трохи, проблему, яку можна вирішити, передавши менше інформації до потокових шарів, щоб вони не могли позбуватися емоції. Фреймворк OpenVoice здатний зберегти стилі від базового голосу завдяки використанню конвертера тонового колору. Це дозволяє фреймворку OpenVoice маніпулювати базовою моделлю TTS для легкого контролю над стилями голосу.

Клонування голосу різних мов

Фреймворк OpenVoice не включає жодних великомасштабних даних для невидимої мови, але все ж здатний досягати майже клонування голосу різних мов у нульовому зразку.

Модель здатна клонувати тоновий колір речового диктора точно, коли мова речового диктора не входила до багатомовної бази даних.
Крім того, у випадку, коли мова речового диктора не входила до багатомовної бази даних, фреймворк OpenVoice здатний клонувати голос речового диктора та говорити мовою, якщо тільки базова модель TTS підтримує цю мову.

Останні думки

У цій статті ми говорили про OpenVoice, універсальний фреймворк миттєвого клонування голосу, який реплікує голос будь-якого користувача та генерує мовлення кількома мовами за допомогою короткої аудіозаписи від речового диктора. Основна інтуїція за фреймворком OpenVoice полягає у тому, що якщо модель не повинна виконувати клонування тонового колору речового диктора, фреймворк може використати базову модель TTS для контролю мови та стилів голосу.

Фреймворк OpenVoice демонструє, що моделі миттєвого клонування голосу можуть реплікувати тоновий колір речового диктора та досягати детального контролю над стилями голосу, включаючи акцент, ритм, інтонацію, паузи та навіть емоції. Фреймворк OpenVoice забезпечує надійні результати миттєвого клонування голосу, будучи обчислювально життєздатним з операційними витратами до 10 разів менше, ніж у поточних API з нижчою продуктивністю.

Unite.AI