Artificial Intelligence

StyleTTS 2: 大規模な音声言語モデルを使用した人間レベルのテキスト読み上げ

公開済み

5ヶ月前

2023 年 12 月 4 日

自然音声合成アプローチと合成音声合成アプローチの増加により、AI 業界がここ数年で達成した主な成果の XNUMX つは、オーディオブック、仮想アシスタント、音声など、さまざまな業界にわたる潜在的なアプリケーションを備えたテキスト読み上げフレームワークを効果的に合成することです。 - ナレーションなどで、さまざまな音声関連タスクにわたって人間レベルのパフォーマンスと効率を実現する最先端のモードを備えています。ただし、その優れたパフォーマンスにもかかわらず、表現力豊かで多様な音声、ゼロショットテキスト読み上げフレームワークを最適化するための大量のトレーニングデータの必要性、および OOD または配布範囲外のテキストに対する堅牢性のおかげで、タスクにはまだ改善の余地があります。開発者は、より堅牢でアクセスしやすいテキスト読み上げフレームワークに取り組むことができます。

この記事では、StyleTTS-2 について説明します。これは、StyleTTS フレームワークの基礎に構築され、最先端のテキスト読み上げシステムに向けた次のステップを提示することを目的とした、堅牢で革新的なテキスト読み上げフレームワークです。 StyleTTS2 フレームワークは、音声スタイルを潜在確率変数としてモデル化し、確率拡散モデルを使用してこれらの音声スタイルまたは確率変数をサンプリングします。これにより、StyleTTS2 フレームワークは、参照オーディオ入力を使用せずにリアルな音声を効果的に合成できます。このアプローチのおかげで、StyleTTS2 フレームワークは、現在の最先端のテキスト読み上げフレームワークと比較して、より良い結果を提供し、高い効率を示すことができますが、拡散モデルフレームワークによって提供される多様な音声合成を利用することもできます。 StyleTTS2 フレームワークについて詳しく説明し、そのアーキテクチャと方法論について説明しながら、フレームワークによって達成される結果についても見ていきます。それでは始めましょう。

Text to Speech 合成用の StyleTTS2: 概要

StyleTTS2 は、人間レベルの TTS フレームワークの構築に向けて次の一歩を踏み出す革新的なテキスト読み上げ合成モデルであり、スタイルベースのテキストである StyleTTS に基づいて構築されています。音声生成モデル。 StyleTTS2 フレームワークは、音声スタイルを潜在確率変数としてモデル化し、確率拡散モデルを使用してこれらの音声スタイルまたは確率変数をサンプリングします。これにより、StyleTTS2 フレームワークは、参照オーディオ入力を使用せずにリアルな音声を効果的に合成できます。スタイルを潜在確率変数としてモデリングすることは、StyleTTS2 フレームワークをその前身である StyleTTS フレームワークから区別するものであり、参照オーディオ入力を必要とせずに入力テキストに最適な音声スタイルを生成することを目的としており、効果的な潜在拡散を実現できます。が提供する多様な音声合成機能の利点拡散モデル。さらに、StyleTTS2 フレームワークは、WavLM フレームワークと同様に、事前にトレーニングされた大規模な SLM または音声言語モデルを識別器として採用し、それを独自の新しい差分継続時間モデリングアプローチと組み合わせて、フレームワークをエンドツーエンドでトレーニングし、最終的には自然さが向上した音声を生成します。 StyleTTS2 フレームワークは、それに従うアプローチのおかげで、音声生成タスクの現在の最先端のフレームワークよりも優れたパフォーマンスを発揮し、話者適応タスクのゼロショット設定で大規模な音声モデルを事前トレーニングするための最も効率的なフレームワークの XNUMX つです。

さらに、人間レベルのテキスト音声合成を実現するために、StyleTTs2 フレームワークには、音声合成の拡散モデルや大規模な音声言語モデルなどの既存の研究からの学習が組み込まれています。拡散モデルは、きめ細かい音声制御と多様な音声サンプリング機能を備えているため、通常、音声合成タスクに使用されます。ただし、拡散モデルは GAN ベースの非反復フレームワークほど効率的ではありません。その主な理由は、音声の目標持続時間まで潜在表現、波形、メルスペクトログラムを反復的にサンプリングする必要があることです。

一方、大規模音声言語モデルに関する最近の研究では、大規模音声言語モデルがテキスト音声生成タスクの品質を向上させ、話者にうまく適応する能力を示しています。大規模音声言語モデルは通常、テキスト入力を、音声再構成タスク用に事前トレーニングされた音声言語フレームワークから派生した量子化表現または連続表現に変換します。ただし、これらの音声言語モデルの機能は、音声合成用に直接最適化されていません。対照的に、StyleTTS2 フレームワークは、敵対的トレーニングを使用する大規模な SLM フレームワークによって得られた知識を利用して、潜在空間マップを使用せずに音声言語モデルの特徴を合成するため、音声合成に最適化された潜在空間を直接学習します。

StyleTTS2: アーキテクチャと方法論

StyleTTS2 の核心は、その前身である StyleTTS フレームワークに基づいて構築されています。StyleTTS フレームワークは、スタイルエンコーダを利用して参照オーディオからスタイルベクトルを導出し、表現力豊かで自然な音声生成を可能にする非自己回帰テキスト読み上げフレームワークです。 StyleTTS フレームワークで使用されるスタイルベクトルは、AdaIN または Adaptive Instance Normalization を利用してエンコーダー、継続時間、および予測子に直接組み込まれているため、StyleTTS モデルはさまざまな韻律、継続時間、さらには感情を含む音声出力を生成できます。 StyleTTS フレームワークは、8 つのカテゴリーに分類される合計 XNUMX つのモデルで構成されます。

スタイルエンコーダ、テキストエンコーダ、および音声デコーダを備えた音響モデルまたは音声生成システム。
韻律と長さの予測子を利用したテキスト読み上げ予測システム。
トレーニングを目的としたテキストアライナー、ピッチ抽出機能、およびディスクリミネーターを含むユーティリティシステム。

そのアプローチのおかげで、StyleTTS フレームワークは、制御可能で多様な音声合成に関連する最先端のパフォーマンスを提供します。ただし、このパフォーマンスには、サンプル品質の低下、表現力の制限、リアルタイムでの音声を妨げるアプリケーションへの依存などの欠点があります。

StyleTTS フレームワークを改良した StyleTTS2 モデルは、表現力が強化されています。スピーチテキスト配布外のパフォーマンスが向上し、人間レベルの品質が高いタスクを実現します。 StyleTTS2 フレームワークは、敵対的トレーニングと直接波形合成を使用してさまざまなコンポーネントを最適化するエンドツーエンドのトレーニングプロセスを利用します。 StyleTTS フレームワークとは異なり、StyleTTS2 フレームワークは音声スタイルを潜在変数としてモデル化し、拡散モデルを介してサンプリングするため、参照音声を使用せずに多様な音声サンプルを生成します。これらのコンポーネントを詳しく見てみましょう。

干渉に対するエンドツーエンドのトレーニング

StyleTTS2 フレームワークでは、エンドツーエンドのトレーニングアプローチを利用して、固定コンポーネントに依存することなく、さまざまなテキスト読み上げコンポーネントの干渉を最適化します。 StyleTTS2 フレームワークは、スタイルベクトル、ピッチとエネルギーカーブ、および位置合わせされた表現から波形を直接生成するようにデコーダを変更することでこれを実現します。次に、フレームワークはデコーダの最後の投影層を削除し、波形デコーダに置き換えます。 StyleTTS2 フレームワークは XNUMX つのエンコーダーを使用します。HifiGAN ベースのデコーダーは波形を直接生成し、iSTFT ベースのデコーダーは、より高速な干渉とトレーニングのために波形に変換される位相と振幅を生成します。

上図は、事前トレーニングと共同トレーニングに使用される音響モデルを表しています。トレーニング時間を短縮するために、モジュールはまずトレーニング前フェーズで最適化され、その後、ジョイントトレーニング中にピッチ抽出器を除いたすべてのコンポーネントが最適化されます。ジョイントトレーニングがピッチ抽出ツールを最適化しない理由は、ピッチカーブのグラウンドトゥルースを提供するためにピッチ抽出ツールが使用されるためです。

上の図は、音声言語モデルの敵対的トレーニングと、事前トレーニング済みではあるが事前調整されていない WavLM フレームワークとの干渉を表しています。このプロセスは、さまざまな入力テキストを受け取ることができるが、勾配を蓄積して各バッチのパラメーターを更新するため、上記のプロセスとは異なります。

スタイルの普及

StyleTTS2 フレームワークは、条件付き分布に従う潜在変数を通じて音声を条件付き分布としてモデル化することを目的としています。この変数は一般化音声スタイルと呼ばれ、語彙強調を含む音声コンテンツの範囲を超えた音声サンプルのあらゆる特性を表します。プロソディ、話す速度、さらにはフォルマントの変化まで。

音声言語モデルの識別子

音声言語モデルは、幅広いセマンティクスと音響的側面に関する貴重な情報をエンコードする一般的な能力で知られており、SLM 表現は伝統的に人間の知覚を模倣して、生成された合成音声の品質を評価することができました。 StyleTTS2 フレームワークは、敵対的トレーニングアプローチを使用して SLM エンコーダーの機能を利用して生成タスクを実行し、12 層の WavLM フレームワークを識別子として採用します。このアプローチにより、フレームワークはパフォーマンスの向上に役立つ OOD または Out Of Distribution テキストのトレーニングを可能にします。さらに、過剰適合の問題を防ぐために、フレームワークは OOD テキストと配布中のテキストを等しい確率でサンプリングします。

微分可能期間モデリング

従来、継続時間予測器は音素継続時間を生成する音声読み上げフレームワークで使用されていましたが、これらの継続時間予測器が使用するアップサンプリング手法は、E2E トレーニングプロセス中の勾配フローをブロックすることが多く、NaturalSpeech フレームワークは人間レベルの注意ベースのアップサンプラーを採用しています。テキストから音声への変換。ただし、StyleTTS2 フレームワークは、このアプローチが敵対的トレーニング中に不安定であると判断しています。これは、StyleTTS2 が、偏差による長さの不一致による余分な項の損失なしに、異なる敵対的トレーニングで微分可能なアップサンプリングを使用してトレーニングするためです。ソフト動的タイムワーピングアプローチの使用は、この不一致を軽減するのに役立ちますが、これを使用すると計算コストが高くなるだけでなく、敵対的な目標やメル再構築タスクを扱う場合にはその安定性にも懸念があります。したがって、敵対的トレーニングで人間レベルのパフォーマンスを達成し、トレーニングプロセスを安定させるために、StyleTTC2 フレームワークはノンパラメトリックアップサンプリングアプローチを使用します。ガウスアップサンプリングは、予測時間を変換するための一般的なノンパラメトリックアップサンプリングアプローチですが、事前に決定されたガウスカーネルの長さが固定されているため制限があります。ガウスアップサンプリングのこの制限により、異なる長さのアライメントを正確にモデル化する機能が制限されます。

この制限に対処するために、StyleTTC2 フレームワークは、追加のトレーニングなしで、アライメントのさまざまな長さを考慮できる、新しいノンパラメトリックアップサンプリングアプローチを使用することを提案しています。 StyleTTC2 フレームワークは、音素ごとにアライメントを確率変数としてモデル化し、音素が一致する音声フレームのインデックスを示します。

モデルのトレーニングと評価

StyleTTC2 フレームワークは、VCTK、LibriTTS、LJSpeech の 2 つのデータセットでトレーニングおよび実験されています。 StyleTTS13,000 フレームワークのシングルスピーカーコンポーネントは、LJSpeech データセットを使用してトレーニングされます。このデータセットには、12,500 のトレーニングサンプル、100 の検証サンプル、および約 500 のテストサンプルに分割された約 24 以上の音声サンプルが含まれており、それらを合わせた実行時間は合計でほぼ 44,000 時間になります。フレームワークのマルチスピーカーコンポーネントは、さまざまなアクセントを持つ 100 人を超える個別のネイティブスピーカーによる 43,500 を超えるオーディオクリップで構成される VCTK データセットでトレーニングされ、100 のトレーニングサンプル、500 の検証サンプル、および約 250 のテストサンプルに分割されます。最後に、フレームワークにゼロショット適応機能を装備するために、フレームワークは、1,150 人を超える個々の話者による合計約 XNUMX 時間のオーディオクリップで構成される結合された LibriTTS データセットでトレーニングされます。パフォーマンスを評価するために、モデルは次の XNUMX つの指標を使用します。 モスN または自然さの平均意見スコア、およびモスまたは類似性の平均意見スコア。

結果

StyleTTS2 フレームワークで使用されるアプローチと方法論は、特に NaturalSpeech データセット上でモデルがいくつかの最先端の TTS フレームワークを上回るパフォーマンスで示され、途中でデータセットの新しい標準を設定します。さらに、StyleTTS2 フレームワークは、VCTK データセット上で最先端の VITS フレームワークよりも優れたパフォーマンスを発揮し、その結果を次の図に示します。

また、StyleTTS2 モデルは、LJSpeech データセットで以前のモデルよりも優れたパフォーマンスを発揮し、同じメトリクスで以前のフレームワークで表示されるような、OOD または配布範囲外テキストの品質低下をまったく示しません。さらに、ゼロショット設定では、StyleTTC2 モデルは、類似性の点では劣るものの、自然さの点で既存の Vall-E フレームワークを上回っています。ただし、Vall-E フレームワークの 2 時間以上のトレーニングと比較して、StyleTTS245 フレームワークは 60 時間の音声サンプルのみのトレーニングにもかかわらず、競争力のあるパフォーマンスを達成できることは注目に値します。したがって、StyleTTC2 がデータ効率の高い代替手段であることが証明されています。 Vall-E で使用されている既存の大規模な事前トレーニング手法に適用されます。

さらに、感情ラベル付きオーディオテキストデータが不足しているため、StyleTTC2 フレームワークは GPT-4 モデルを使用して、フレームワークが作成するスタイルベクトルを視覚化するために、さまざまな感情にわたって 500 を超えるインスタンスを生成します。プロセス。

最初の図では、入力テキストの感情に応じた感情的なスタイルが LJSpeech モデルのスタイルベクトルによって示されており、さまざまな感情を伴う表現力豊かな音声を合成する StyleTTC2 フレームワークの機能を示しています。 1 番目の図は、2 人の個別の話者ごとに形成された個別のクラスターを示しており、単一のオーディオファイルから得られる幅広い多様性を示しています。最後の図は、話者 XNUMX からの緩やかな感情のクラスターを示しており、いくつかの重複にもかかわらず、感情ベースのクラスターが顕著であることを明らかにしており、したがって、参照オーディオサンプルとその入力トーンに関係なく、話者の感情的な調子を操作できる可能性を示しています。。 StyleTTSXNUMX フレームワークは、拡散ベースのアプローチを使用しているにもかかわらず、VITS、ProDiff、FastDiff などの既存の最先端フレームワークを上回るパフォーマンスを発揮します。

最終的な考え

この記事では、StyleTTS2 について説明しました。これは、StyleTTS フレームワークの基礎に構築され、最先端のテキスト読み上げシステムに向けた次のステップを提示することを目的とした、新しく堅牢かつ革新的なテキスト読み上げフレームワークです。 StyleTTS2 フレームワークは、音声スタイルを潜在的な確率変数としてモデル化し、確率的拡散モデルを使用してこれらの音声スタイルまたは確率変数をサンプリングします。これにより、StyleTTS2 フレームワークは、参照オーディオ入力を使用せずに現実的な音声を効果的に合成できます。StyleTTS2 フレームワークは、スタイル拡散と SLM 識別子を使用します。テキスト読み上げタスクで人間レベルのパフォーマンスを達成し、さまざまな音声タスクで既存の最先端のフレームワークを上回るパフォーマンスを実現します。

Unite.AI

StyleTTS 2: 大規模な音声言語モデルを使用した人間レベルのテキスト読み上げ

Artificial Intelligence

StyleTTS 2: 大規模な音声言語モデルを使用した人間レベルのテキスト読み上げ

目次

Text to Speech 合成用の StyleTTS2: 概要