スタブ AudioSep : 説明したものをすべて分離する - Unite.AI
私達と接続

Artificial Intelligence

AudioSep : 説明するものはすべて分離します

mm

公開済み

 on

LASS (Language-queryed Audio Source Separation) は、CASA (Computational Auditory Scene Analysis) の新しいパラダイムで、デジタル オーディオ タスクとアプリケーションに自然でありながらスケーラブルなインターフェイスを提供する自然言語クエリを使用して、特定のオーディオの混合からターゲット サウンドを分離することを目的としています。 。 LASS フレームワークは、楽器などの特定のオーディオ ソースで望ましいパフォーマンスを達成するという点で、ここ数年で大幅に進歩しましたが、オープン ドメインでターゲット オーディオを分離することはできません。 

オーディオセプは、自然言語クエリを使用してターゲット音声の分離を可能にすることで、LASS フレームワークの現在の制限を解決することを目的とした基本モデルです。 AudioSep フレームワークの開発者は、さまざまな大規模マルチモーダル データセットでモデルを広範囲にトレーニングし、楽器の分離、オーディオ イベントの分離、音声の強化などの幅広いオーディオ タスクにおけるフレームワークのパフォーマンスを評価しました。他の多くの人の中でも。 AudioSep の初期パフォーマンスは、優れたゼロショット学習機能を実証し、強力なオーディオ分離パフォーマンスを実現するため、ベンチマークを満たしています。 

この記事では、モデルのアーキテクチャ、トレーニングと評価に使用されるデータセット、AudioSep モデルの動作に関わる重要な概念を評価しながら、AudioSep フレームワークの動作をさらに深く掘り下げていきます。 それでは、CASA フレームワークの基本的な紹介から始めましょう。 

CASA、USS、QSS、LASS フレームワーク : AudioSep の財団

CASA (Computational Auditory Scene Analysis) フレームワークは、人間が聴覚系を使って音を認識するのと同じ方法で、複雑な音環境を認識する機能を備えた機械リスニング システムを設計するために開発者が使用するフレームワークです。 ターゲット音の分離に特に焦点を当てた音の分離は、CASA フレームワーク内の基本的な研究分野であり、「カクテルパーティーの問題」、または現実世界のオーディオ録音を個々のオーディオ ソース録音またはファイルから分離します。 音の分離の重要性は、主に、音楽ソースの分離、音源の分離、音声強調、ターゲット音の識別などを含むその広範な用途に起因すると考えられます。 

過去に行われた音の分離に関する研究のほとんどは、主に音楽の分離や音声の分離など、XNUMX つまたは複数のオーディオ ソースの分離を中心に展開されていました。 USS (Universal Sound Separation) という名前の新しいモデルは、現実世界のオーディオ録音内の任意の音を分離することを目的としています。 しかし、主に世界には多種多様な異なる音源が存在するため、オーディオ混合物からすべての音源を分離するのは困難で制限の多い作業であり、これが現実世界のアプリケーションで USS 手法が実行不可能である主な理由です。リアルタイムで。 

USS 方法の実現可能な代替方法は、特定のクエリのセットに基づいてオーディオ混合物から個々の音源またはターゲット音源を分離することを目的とした QSS またはクエリベースのサウンド分離方法です。 このおかげで、QSS フレームワークにより、開発者とユーザーは要件に基づいて混合物から目的のオーディオ ソースを抽出できるようになり、QSS メソッドがマルチメディア コンテンツ編集やオーディオ編集などのデジタル現実世界のアプリケーションにとってより実用的なソリューションになります。 

さらに、開発者は最近、ターゲット音源の自然言語記述を利用して、オーディオ混合物から任意の音源を分離することを目的とした、QSS フレームワーク、LASS フレームワーク、または言語クエリ音源分離フレームワークの拡張を提案しています。 。 LASS フレームワークを使用すると、ユーザーは一連の自然言語命令を使用してターゲットのオーディオ ソースを抽出できるため、デジタル オーディオ アプリケーションに広く適用される強力なツールになる可能性があります。 従来の音声クエリまたは視覚クエリ方法と比較した場合、音声分離に自然言語命令を使用すると、柔軟性が増し、クエリ情報の取得がより簡単かつ便利になるため、より大きな利点が得られます。 さらに、事前定義された命令またはクエリのセットを利用するラベル クエリベースの音声分離フレームワークと比較すると、LASS フレームワークは入力クエリの数を制限せず、シームレスにオープン ドメインに一般化できる柔軟性を備えています。 

もともと、LASS フレームワークは、ラベル付きのオーディオとテキストのペアのデータのセットでモデルがトレーニングされる教師あり学習に依存しています。 ただし、このアプローチの主な問題は、注釈付きおよびラベル付きの音声テキスト データの利用可能性が限られていることです。 注釈付きの LASS フレームワークの信頼性を低下させるため オーディオテキストラベル付きデータ、モデルはマルチモーダル監視学習アプローチを使用してトレーニングされます。 マルチモーダル監視アプローチを使用する主な目的は、CLIP や Contrastive Language Image Pre Training モデルなどのマルチモーダル対比事前トレーニング モデルをフレームワークのクエリ エンコーダーとして使用することです。 CLIP フレームワークには、テキストの埋め込みをオーディオやビジョンなどの他のモダリティと調整する機能があるため、開発者はデータ豊富なモダリティを使用して LASS モデルをトレーニングでき、ゼロショット設定でテキスト データとの干渉が可能になります。 ただし、現在の LASS フレームワークはトレーニングに小規模なデータセットを使用しており、数百の潜在的なドメインにわたる LASS フレームワークのアプリケーションはまだ調査されていません。 

LASS フレームワークが直面している現在の制限を解決するために、開発者は、自然言語記述を使用してオーディオ混合物からサウンドを分離することを目的とした基本モデルである AudioSep を導入しました。 AudioSep の現在の焦点は、既存の大規模マルチモーダル データセットを活用して、オープンドメイン アプリケーションにおける LASS モデルの一般化を可能にする事前トレーニング済み音分離モデルを開発することです。 要約すると、AudioSep モデルは次のとおりです。大規模なオーディオおよびマルチモーダル データセットでトレーニングされた自然言語クエリまたは説明を使用した、オープン ドメインでのユニバーサル サウンド分離の基礎モデル"。 

AudioSep : 主要コンポーネントとアーキテクチャ

AudioSep フレームワークのアーキテクチャは、テキスト エンコーダーと分離モデルという XNUMX つの主要なコンポーネントで構成されます。 

テキストエンコーダー

AudioSep フレームワークは、CLIP (対照言語画像事前トレーニング モデル) または CLAP (対照言語オーディオ事前トレーニング モデル) のテキスト エンコーダーを使用して、自然言語クエリ内のテキスト埋め込みを抽出します。 入力テキストクエリは、「」のシーケンスで構成されます。N」トークンはテキスト エンコーダーによって処理され、指定された入力言語クエリのテキスト埋め込みが抽出されます。 テキスト エンコーダーは、トランスフォーマー ブロックのスタックを利用して入力テキスト トークンをエンコードします。出力表現はトランスフォーマー層を通過した後に集約され、その結果、D が対応する固定長の D 次元ベクトル表現が作成されます。トレーニング期間中にテキスト エンコーダーがフリーズしている間に、CLAP または CLIP モデルの次元に変換されます。 

CLIP モデルは、対照学習を使用して、画像とテキストのペアになった大規模なデータセットで事前トレーニングされています。これが、テキスト エンコーダーが、視覚表現でも共有される意味空間上でテキストの説明のマッピングを学習する主な理由です。 CLIP のテキスト エンコーダーを使用することで AudioSep が得られる利点は、代わりにビジュアル エンベディングを使用して、ラベルのないオーディオビジュアル データから LASS モデルをスケールアップまたはトレーニングできるため、注釈付きまたはラベル付けを必要とせずに LASS モデルをトレーニングできることです。音声テキストデータ。 

CLAP モデルは CLIP モデルと同様に機能し、テキストとオーディオ エンコーダーを使用してオーディオと言語を接続するため、対照的な学習目標を利用し、オーディオとテキストの潜在空間上にテキストとオーディオの説明を結合します。 

分離モデル

AudioSep フレームワークは、フレームワークの分離バックボーンとしてオーディオ クリップの混合物が供給される周波数ドメイン ResUNet モデルを利用します。 このフレームワークは、最初に波形に STFT または短時間フーリエ変換を適用して、複素スペクトログラム、振幅スペクトログラム、および X の位相を抽出することによって機能します。次に、モデルは同じ設定に従い、処理するエンコーダー/デコーダー ネットワークを構築します。振幅スペクトログラム。 

ResUNet エンコーダ/デコーダ ネットワークは、6 つの残差ブロック、6 つのデコーダ ブロック、および 4 つのボトルネック ブロックで構成されます。 各エンコーダ ブロックのスペクトログラムは、4 つの残留従来ブロックを使用してボトルネック特徴にダウンサンプリングしますが、デコーダ ブロックは 4 つの残留デコンボリューション ブロックを使用して、特徴をアップサンプリングすることで分離成分を取得します。 これに続いて、エンコーダ ブロックとそれに対応するデコーダ ブロックのそれぞれが、同じアップサンプリング レートまたはダウンサンプリング レートで動作するスキップ接続を確立します。 フレームワークの残差ブロックは、2 つの Leaky-ReLU 活性化層、2 つのバッチ正規化層、および 2 つの CNN 層で構成されます。さらに、フレームワークには、個々の残差ブロックの入力と出力を接続する追加の残差ショートカットも導入されています。 ResUNet モデルは、複素スペクトログラム X を入力として受け取り、スケーリングの大きさとスペクトログラムの角度の回転を制御するテキスト埋め込みに条件付けされた位相残差を含む出力としてマグニチュード マスク M を生成します。 分離された複素スペクトログラムは、予測されたマグニチュード マスクと位相残差に混合物の STFT (短時間フーリエ変換) を乗算することで抽出できます。 

AudioSep のフレームワークでは、ResUNet で畳み込みブロックを展開した後、FiLm または機能ごとに線形変調されたレイヤーを使用して、分離モデルとテキスト エンコーダーをブリッジします。 

トレーニングと損失

AudioSep モデルのトレーニング中に、開発者はラウドネス拡張メソッドを使用し、グラウンド トゥルースと予測波形の間の L1 損失関数を利用して、AudioSep フレームワークをエンドツーエンドでトレーニングします。 

データセットとベンチマーク

前のセクションで説明したように、AudioSep は、注釈付きのオーディオとテキストのペアのデータセットに対する LASS モデルの現在の依存関係を解決することを目的とした基礎モデルです。 AudioSep モデルは、マルチモーダル学習機能を装備するために、さまざまなデータセットでトレーニングされます。ここでは、開発者が AudioSep フレームワークをトレーニングするために使用するデータセットとベンチマークについて詳しく説明します。 

オーディオセット

AudioSet は、YouTube から直接抽出された 2 万を超える 10 秒の音声スニペットで構成される、弱いラベルが付けられた大規模な音声データセットです。 AudioSet データセット内の各オーディオ スニペットは、サウンド イベントの特定のタイミングの詳細を持たずに、サウンド クラスの有無によって分類されます。 AudioSet データセットには、自然音、人間の音、車両の音などを含む 500 を超える異なるオーディオ クラスがあります。 

VGGサウンド

VGGSound データセットは、AudioSet と同様に YouTube から直接ソースされた大規模なビジュアルオーディオ データセットで、それぞれの長さが 2,00,000 秒の 10 を超えるビデオ クリップが含まれています。 VGGSound データセットは、人の音、自然の音、鳥の鳴き声などを含む 300 以上のサウンド クラスに分類されています。 VGGSound データセットを使用すると、ターゲット サウンドの生成を担当するオブジェクトも、対応するビジュアル クリップ内で記述できるようになります。 

オーディオキャップ

AudioCaps は、一般に公開されている最大のオーディオ キャプション データセットであり、AudioSet データセットから抽出された 50,000 を超える 10 秒のオーディオ クリップで構成されています。 AudioCaps 内のデータは、トレーニング データ、テスト データ、検証データの 5 つのカテゴリに分類されており、オーディオ クリップには、Amazon Mechanical Turk プラットフォームを使用して人間が自然言語の説明で注釈を付けられます。 トレーニング データセットの各オーディオ クリップには XNUMX つのキャプションがあるのに対し、テストおよび検証セットのデータにはそれぞれ XNUMX つのグラウンド トゥルース キャプションがあることに注意してください。 

クロトV2

ClothoV2 は、FreeSound プラットフォームからソースされたクリップで構成されるオーディオ キャプション データセットで、AudioCaps と同様に、各オーディオ クリップには Amazon Mechanical Turk プラットフォームを使用して人間が自然言語の説明で注釈を付けられます。 

WavCaps

AudioSet と同様に、WavCaps は弱いラベルが付けられた大規模なオーディオ データセットで、キャプション付きの 400,000 を超えるオーディオ クリップと、トレーニング データの合計ランタイムが約 7568 時間で構成されています。 WavCaps データセット内のオーディオ クリップは、BBC Sound Effects、AudioSet、FreeSound、SoundBible などを含む幅広いオーディオ ソースから取得されています。

トレーニングの詳細

トレーニング フェーズ中に、AudioSep モデルは、トレーニング データセットの 5 つの異なるオーディオ クリップからソースされた 1024 つのオーディオ セグメントをランダムにサンプリングし、それらを混合して、各オーディオ セグメントの長さが約 320 秒のトレーニング ミックスを作成します。 次にモデルは、ホップ サイズ XNUMX のサイズ XNUMX のハン ウィンドウを使用して、波形信号から複素スペクトログラムを抽出します。 

次に、モデルは CLIP/CLAP モデルのテキスト エンコーダーを利用して、AudioSep のデフォルト設定であるテキスト監視を使用してテキスト埋め込みを抽出します。 分離モデルの場合、AudioSep フレームワークは、ユニバーサル サウンド分離フレームワークで採用されているアーキテクチャに似た 30 層、6 つのエンコーダー ブロック、および 6 つのデコーダー ブロックで構成される ResUNet 層を使用します。 さらに、各エンコーダ ブロックには 3×3 カーネル サイズの 32 つの畳み込み層があり、エンコーダ ブロックの出力特徴マップの数はそれぞれ 64、128、256、512、1024、および 96 です。 デコーダー ブロックはエンコーダー ブロックと対称性を共有し、開発者は Adam オプティマイザーを適用して、バッチ サイズ XNUMX で AudioSep モデルをトレーニングします。 

評価結果

見たデータセットについて

次の図は、トレーニング データセットを含むトレーニング フェーズ中に表示されたデータセットに対する AudioSep フレームワークのパフォーマンスを比較しています。 以下の図は、Speech を含むベースライン システムと比較した、AudioSep フレームワークのベンチマーク評価結果を示しています。 拡張モデル、LASS、およびCLIP。 CLIP テキスト エンコーダを備えた AudioSep モデルは AudioSep-CLIP として表され、CLAP テキスト エンコーダを備えた AudioSep モデルは AudioSep-CLAP として表されます。

図からわかるように、オーディオ キャプションまたはテキスト ラベルを入力クエリとして使用すると、AudioSep フレームワークは良好なパフォーマンスを発揮します。その結果は、以前のベンチマーク LASS およびオーディオクエリによる音分離モデルと比較した場合、AudioSep フレームワークのパフォーマンスが優れていることを示しています。 

目に見えないデータセットについて

ゼロショット設定での AudioSep のパフォーマンスを評価するために、開発者は未確認のデータセットでのパフォーマンスの評価を続けました。AudioSep フレームワークはゼロショット設定で優れた分離パフォーマンスを実現し、その結果を下の図に示します。 

さらに、下の画像は、Voicebank-Demand 音声強調に対して AudioSep モデルを評価した結果を示しています。 

AudioSep フレームワークの評価は、ゼロショット設定で未確認のデータセットに対して強力かつ望ましいパフォーマンスを示しているため、新しいデータ配信でサウンド操作タスクを実行する道が開けます。 

分離結果の可視化

以下の図は、開発者が AudioSep-CLAP フレームワークを使用して、さまざまなオーディオまたはサウンドのテキスト クエリを使用してグラウンド トゥルース ターゲット オーディオ ソース、およびオーディオの混合と分離されたオーディオ ソースのスペクトログラムの視覚化を実行したときに得られた結果を示しています。 この結果により、開発者は、スペクトログラムの分離されたソース パターンが、実験中に得られた客観的な結果をさらに裏付けるグランド トゥルースのソースに近いことを観察することができました。 

テキストクエリの比較

開発者は、AudioCaps Mini 上の AudioSep-CLAP および AudioSep-CLIP のパフォーマンスを評価し、AudioSet イベント ラベル、AudioCaps キャプション、および再注釈付けされた自然言語記述を利用して、さまざまなクエリの効果を調べます。図は、AudioCaps Mini の動作例を示しています。 

まとめ

オーディオセプ は、音声分離に自然言語記述を使用する、オープンドメインのユニバーサル音声分離フレームワークを目的として開発された基礎モデルです。評価中に観察されたように、AudioSep フレームワークは、オーディオ キャプションまたはテキスト ラベルをクエリとして利用することで、ゼロショット学習と教師なし学習をシームレスに実行できます。 AudioSep の結果と評価パフォーマンスは、LASS のような現在の最先端の音分離フレームワークを上回る強力なパフォーマンスを示しており、一般的な音分離フレームワークの現在の制限を解決するのに十分な能力がある可能性があります。 

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。