人工知能

OpenVoice: 多機能インスタントボイスクローニング

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

テキストツースピーチ合成（TTS）では、インスタントボイスクローニング（IVC）により、TTSモデルは短いオーディオサンプルを使用して、任意のリファレンススピーカーの声帯をクローニングできます。追加のトレーニングは不要です。このテクニックは、Zero-Shot Text-to-Speech Synthesisとも呼ばれます。インスタントボイスクローニングアプローチにより、生成されたボイスの柔軟なカスタマイズが可能になり、カスタマイズされたチャットボット、コンテンツ作成、人間と大規模言語モデル（LLM）とのやり取りなど、幅広い実世界の状況で大きな価値を示しています。

現在のボイスクローニングフレームワークは、柔軟なボイススタイル制御、つまりモデルのクローニング後のボイススタイルの柔軟な操作ができないという課題に直面しています。さらに、現在のインスタントクローニングフレームワークでは、Zero-Shot Cross-Lingual Voice Cloning、つまりトレーニングのために、言語に関係なく、多言語の大量スピーカーデータセット（MSML）へのアクセスが必要です。

これらの課題に対処し、インスタントボイスクローニングモデルの強化に貢献するために、開発者は、OpenVoiceという多機能インスタントボイスクローニングフレームワークを開発しました。OpenVoiceは、リファレンススピーカーの短いオーディオクリップを使用して、任意のユーザーの声を複製し、複数の言語でスピーチを生成します。OpenVoiceは、インスタントボイスクローニングモデルのトーンカラーを複製し、アクセント、リズム、イントネーション、ポーズ、感情など、ボイススタイルを詳細に制御する能力を実証しています。また、OpenVoiceフレームワークは、MSMLデータセット外の言語に対するZero-Shot Cross-Lingual Voice Cloningの卓越した能力も実証しています。OpenVoiceは、現在利用可能なAPIよりも10倍低い運用コストで、優れたインスタントボイスクローニング結果を提供します。

この記事では、OpenVoiceフレームワークについて詳細に説明し、そのアーキテクチャを解説します。OpenVoiceフレームワークは、インスタントボイスクローニングタスクで優れたパフォーマンスを発揮します。では、始めましょう。

OpenVoice : 多機能インスタントボイスクローニングの実現

前述のように、インスタントボイスクローニング、別名Zero-Shot Text to Speech Synthesisは、TTSモデルが短いオーディオサンプルを使用して、任意のリファレンススピーカーの声をクローニングできるようにします。追加のトレーニングは不要です。インスタントボイスクローニングは、常にホットな研究トピックで、XTTSやVALLEフレームワークなどの既存の研究があります。これらのフレームワークは、リファレンスオーディオからスピーカー埋め込みと/または音響トークンを抽出し、オートリグレッシブモデルに条件として使用します。オートリグレッシブモデルは、音響トークンを順番に生成し、次にこれらのトークンを生のオーディオ波形にデコードします。

オートリグレッシブインスタントボイスクローニングモデルは、トーンカラーを驚くほどよくクローニングしますが、アクセント、感情、ポーズ、リズムなどの他のスタイルパラメータを操作する能力が不足しています。さらに、オートリグレッシブモデルは、低い推論速度と高い運用コストを経験します。YourTTSフレームワークなどの既存のアプローチは、非オートリグレッシブアプローチを採用し、オートリグレッシブアプローチフレームワークよりもはるかに高速な推論スピーチを実証していますが、スタイルパラメータに対する柔軟な制御を提供することはできません。また、オートリグレッシブベースと非オートリグレッシブベースの両方のインスタントボイスクローニングフレームワークは、クロスリンガルボイスクローニングのために、多言語の大量スピーカーデータセット（MSML）へのアクセスが必要です。

これらの課題に対処し、インスタントボイスクローニングモデルの強化に貢献するために、開発者は、OpenVoiceというオープンソースのインスタントボイスクローニングライブラリを開発しました。OpenVoiceは、以下の課題に対処することを目的としています。

最初の課題は、トーンカラーに加えて、アクセント、リズム、イントネーション、ポーズなどのスタイルパラメータを柔軟に制御する能力をインスタントボイスクローニングモデルに与えることです。スタイルパラメータは、入力テキストを単調にナレートするのではなく、自然な会話とスピーチを生成するために不可欠です。
2番目の課題は、インスタントボイスクローニングモデルがゼロショット設定でクロスリンガルボイスをクローニングできるようにすることです。
最後の課題は、品質を低下させることなく、リアルタイム推論速度を高めることです。

最初の2つの課題に対処するために、OpenVoiceフレームワークのアーキテクチャは、ボイスのコンポーネントを可能な限り分離するように設計されています。さらに、OpenVoiceは、トーンカラー、言語、他のボイス機能を独立して生成し、フレームワークが個々の言語タイプとボイススタイルを柔軟に操作できるようにします。OpenVoiceフレームワークは、3番目の課題に対処するために、構造を分離することで、計算コンプレックス性とモデルサイズの要件を削減します。

OpenVoice : 方法とアーキテクチャ

OpenVoiceフレームワークの技術的なフレームワークは、効果的で、驚くほど簡単に実装できます。任意のスピーカーのトーンカラーをクローニングし、新しい言語を追加し、同時にボイスパラメータを柔軟に制御することは、挑戦的です。なぜなら、これらの3つのタスクを同時に実行するには、制御パラメータが大量の組み合わせデータセットを使用して交差する必要があるからです。さらに、通常の単一スピーカーテキストスピーチ合成では、ボイスクローニングが不要なタスクの場合、他のスタイルパラメータに対する制御を追加することは容易です。OpenVoiceフレームワークは、インスタントボイスクローニングタスクをサブタスクに分解することを目的としています。モデルは、言語とスタイルパラメータを制御するためのベーススピーカーテキストスピーチモデルを使用し、トーンカラーコンバーターを使用して、生成されたボイスにリファレンストーンカラーを含めます。次の図は、フレームワークのアーキテクチャを示しています。

OpenVoiceフレームワークの核心は、2つのコンポーネントで構成されています。トーンカラーコンバーターと、ベーススピーカーテキストスピーチモデルまたはTTSモデルです。ベーススピーカーテキストスピーチモデルは、単一スピーカーモデルまたは多スピーカーモデルであり、スタイルパラメータ、言語、アクセントを正確に制御できます。モデルは、トーンカラーコンバーターに渡されるボイスを生成します。トーンカラーコンバーターは、ベーススピーカーのトーンカラーをリファレンススピーカーのトーンカラーに変更します。

OpenVoiceフレームワークは、ベーススピーカーテキストスピーチモデルに多くの柔軟性を提供します。VITSモデルをわずかに変更して、言語とスタイル埋め込みをその持続予測器とテキストエンコーダーに受け入れることができます。フレームワークは、Microsoft TTSなどの商業的に安価なモデルや、スタイルプロンプトを受け入れることができるInstructTTSなどのモデルを使用することもできます。現在、OpenVoiceフレームワークはVITSモデルを使用していますが、他のモデルも実行可能なオプションです。

2番目のコンポーネントであるトーンカラーコンバーターは、エンコーダーとデコーダーのコンポーネントで構成されており、中央に可逆な正規化フローを含みます。トーンカラーコンバーターのエンコーダーコンポーネントは、1次元CNNであり、ベーススピーカーテキストスピーチモデルの短時間フーリエ変換スペクトルを入力として受け取り、特徴マップを出力として生成します。トーンカラーエクストラクターは、2次元CNNであり、入力ボイスのメルスペクトログラムを操作し、トーンカラーの情報をエンコードする単一の特徴ベクトルを出力として生成します。正規化フローレイヤーは、エンコーダーによって生成された特徴マップを入力として受け取り、トーンカラー情報を除去した特徴表現を生成します。OpenVoiceフレームワークは、正規化フローレイヤーを逆方向に適用し、特徴表現を入力として受け取り、正規化フローレイヤーを出力として生成します。フレームワークは、1次元の畳み込みのスタックを使用して、正規化フローレイヤーを生の波形にデコードします。

OpenVoiceフレームワークの全体的なアーキテクチャは、フィードフォワードで、オートリグレッシブコンポーネントは使用されません。トーンカラーコンバーターコンポーネントは、概念的にはボイス変換に似ていますが、機能、トレーニングオブジェクト、モデル構造の誘導バイアスに異なります。正規化フローレイヤーは、フローベースのテキストスピーチモデルの同じ構造を共有しますが、機能とトレーニングオブジェクトに異なります。

さらに、特徴表現を抽出するための別のアプローチがありますが、OpenVoiceフレームワークで実装された方法は、優れたオーディオ品質を提供します。また、OpenVoiceフレームワークは、モデルアーキテクチャのコンポーネントを発明することを目的としていないことにも注意する必要があります。トーンカラーコンバーターとベーススピーカーテキストスピーチモデルの両方が、既存の研究から提供されています。OpenVoiceフレームワークの主な目的は、言語制御とボイススタイルをトーンカラークローニングから分離することです。アプローチは非常にシンプルですが、特にスタイルとアクセントの制御、または新しい言語の一般化タスクで効果的です。結合フレームワークを使用して同じ制御を実現するには、多大な計算とデータが必要であり、新しい言語に一般化されません。

OpenVoiceフレームワークの主な哲学は、言語とボイススタイルの生成をトーンカラーの生成から分離することです。OpenVoiceフレームワークの主な強みは、クローンボイスが流暢で、高品質であることです。単一スピーカーテキストスピーチが流暢に話す限りです。

OpenVoice : 実験と結果

ボイスクローニングタスクを評価することは、多くの理由により困難です。まず、既存の研究は、比較が本質的に不公平になるような、異なるトレーニングデータとテストデータを使用します。クラウドソーシングは、平均意見スコアなどのメトリックを評価するために使用できますが、テストデータの難易度と多様性は、結果に大きな影響を与えます。2番目に、異なるボイスクローニング方法には、異なるトレーニングデータがあり、データの多様性とスケールは、結果に大きな影響を与えます。最後に、既存の研究の主な目的は、互いに異なります。したがって、それらは機能的に異なります。

上記の3つの理由により、既存のボイスクローニングフレームワークを数値的に比較することは不公平です。代わりに、これらの方法を質的に比較する方がより意味があります。

正確なトーンカラークローニング

パフォーマンスを分析するために、開発者は、匿名の個人、ゲームキャラクター、有名人からなるリファレンススピーカーベースのテストセットを構築しました。テストセットには、中立的なサンプルとユニークな表現的なボイスを含む、幅広いボイス分布があります。OpenVoiceフレームワークは、任意のリファレンススピーカーのリファレンストーンカラーをクローニングし、4つのベーススピーカーで複数の言語とアクセントでスピーチを生成することができます。

ボイススタイルの柔軟な制御

OpenVoiceフレームワークの目的の1つは、トーンカラーコンバーターを使用して、ボイススタイルを柔軟に制御することです。トーンカラーコンバーターは、トーンカラーを変更しながら、他のボイス機能と特性を保存することができます。

実験結果は、モデルがトーンカラーを変換した後も、ボイススタイルを保存していることを示しています。ただし、場合によっては、モデルは感情をやや中和することがあります。これは、フローレイヤーに情報を渡さないようにすることで解決できます。OpenVoiceフレームワークは、ベーススピーカーテキストスピーチモデルを操作して、ボイススタイルを簡単に制御できるようにします。

クロスリンガルボイスクローニング

OpenVoiceフレームワークは、未見の言語に対して、ゼロショット設定でクロスリンガルボイスクローニングを実現します。OpenVoiceフレームワークのクロスリンガルボイスクローニング能力は2つあります。

モデルは、リファレンススピーカーの言語がMSMLデータセットにない場合でも、リファレンススピーカーのトーンカラーを正確にクローニングできます。
さらに、リファレンススピーカーの言語がMSMLデータセットにない場合でも、OpenVoiceフレームワークは、リファレンススピーカーのボイスをクローニングし、ベーススピーカーテキストスピーチモデルが言語をサポートする場合、言語で話すことができます。

最終的な考え

この記事では、OpenVoiceについて説明しました。OpenVoiceは、多機能インスタントボイスクローニングフレームワークであり、リファレンススピーカーの短いオーディオクリップを使用して、任意のユーザーの声を複製し、複数の言語でスピーチを生成します。OpenVoiceの主な直感は、モデルがリファレンススピーカーのトーンカラーをクローニングする必要がない限り、ベーススピーカーテキストスピーチモデルを使用して言語とボイススタイルを制御できることです。

OpenVoiceは、インスタントボイスクローニングモデルのトーンカラーを複製し、アクセント、リズム、イントネーション、ポーズ、感情など、ボイススタイルを詳細に制御する能力を実証しています。OpenVoiceは、現在利用可能なAPIよりも10倍低い運用コストで、優れたインスタントボイスクローニング結果を提供します。

Unite.AI