Artificial Intelligence

AudioSep : 説明するものはすべて分離します

公開済み

7ヶ月前

2023 年 10 月 17 日

LASS (Language-queryed Audio Source Separation) は、CASA (Computational Auditory Scene Analysis) の新しいパラダイムで、デジタルオーディオタスクとアプリケーションに自然でありながらスケーラブルなインターフェイスを提供する自然言語クエリを使用して、特定のオーディオの混合からターゲットサウンドを分離することを目的としています。。 LASS フレームワークは、楽器などの特定のオーディオソースで望ましいパフォーマンスを達成するという点で、ここ数年で大幅に進歩しましたが、オープンドメインでターゲットオーディオを分離することはできません。

オーディオセプは、自然言語クエリを使用してターゲット音声の分離を可能にすることで、LASS フレームワークの現在の制限を解決することを目的とした基本モデルです。 AudioSep フレームワークの開発者は、さまざまな大規模マルチモーダルデータセットでモデルを広範囲にトレーニングし、楽器の分離、オーディオイベントの分離、音声の強化などの幅広いオーディオタスクにおけるフレームワークのパフォーマンスを評価しました。他の多くの人の中でも。 AudioSep の初期パフォーマンスは、優れたゼロショット学習機能を実証し、強力なオーディオ分離パフォーマンスを実現するため、ベンチマークを満たしています。

この記事では、モデルのアーキテクチャ、トレーニングと評価に使用されるデータセット、AudioSep モデルの動作に関わる重要な概念を評価しながら、AudioSep フレームワークの動作をさらに深く掘り下げていきます。それでは、CASA フレームワークの基本的な紹介から始めましょう。

CASA、USS、QSS、LASS フレームワーク : AudioSep の財団

CASA (Computational Auditory Scene Analysis) フレームワークは、人間が聴覚系を使って音を認識するのと同じ方法で、複雑な音環境を認識する機能を備えた機械リスニングシステムを設計するために開発者が使用するフレームワークです。ターゲット音の分離に特に焦点を当てた音の分離は、CASA フレームワーク内の基本的な研究分野であり、「カクテルパーティーの問題」、または現実世界のオーディオ録音を個々のオーディオソース録音またはファイルから分離します。音の分離の重要性は、主に、音楽ソースの分離、音源の分離、音声強調、ターゲット音の識別などを含むその広範な用途に起因すると考えられます。

過去に行われた音の分離に関する研究のほとんどは、主に音楽の分離や音声の分離など、XNUMX つまたは複数のオーディオソースの分離を中心に展開されていました。 USS (Universal Sound Separation) という名前の新しいモデルは、現実世界のオーディオ録音内の任意の音を分離することを目的としています。しかし、主に世界には多種多様な異なる音源が存在するため、オーディオ混合物からすべての音源を分離するのは困難で制限の多い作業であり、これが現実世界のアプリケーションで USS 手法が実行不可能である主な理由です。リアルタイムで。

USS 方法の実現可能な代替方法は、特定のクエリのセットに基づいてオーディオ混合物から個々の音源またはターゲット音源を分離することを目的とした QSS またはクエリベースのサウンド分離方法です。このおかげで、QSS フレームワークにより、開発者とユーザーは要件に基づいて混合物から目的のオーディオソースを抽出できるようになり、QSS メソッドがマルチメディアコンテンツ編集やオーディオ編集などのデジタル現実世界のアプリケーションにとってより実用的なソリューションになります。

さらに、開発者は最近、ターゲット音源の自然言語記述を利用して、オーディオ混合物から任意の音源を分離することを目的とした、QSS フレームワーク、LASS フレームワーク、または言語クエリ音源分離フレームワークの拡張を提案しています。。 LASS フレームワークを使用すると、ユーザーは一連の自然言語命令を使用してターゲットのオーディオソースを抽出できるため、デジタルオーディオアプリケーションに広く適用される強力なツールになる可能性があります。従来の音声クエリまたは視覚クエリ方法と比較した場合、音声分離に自然言語命令を使用すると、柔軟性が増し、クエリ情報の取得がより簡単かつ便利になるため、より大きな利点が得られます。さらに、事前定義された命令またはクエリのセットを利用するラベルクエリベースの音声分離フレームワークと比較すると、LASS フレームワークは入力クエリの数を制限せず、シームレスにオープンドメインに一般化できる柔軟性を備えています。

もともと、LASS フレームワークは、ラベル付きのオーディオとテキストのペアのデータのセットでモデルがトレーニングされる教師あり学習に依存しています。ただし、このアプローチの主な問題は、注釈付きおよびラベル付きの音声テキストデータの利用可能性が限られていることです。注釈付きの LASS フレームワークの信頼性を低下させるためオーディオテキストラベル付きデータ、モデルはマルチモーダル監視学習アプローチを使用してトレーニングされます。マルチモーダル監視アプローチを使用する主な目的は、CLIP や Contrastive Language Image Pre Training モデルなどのマルチモーダル対比事前トレーニングモデルをフレームワークのクエリエンコーダーとして使用することです。 CLIP フレームワークには、テキストの埋め込みをオーディオやビジョンなどの他のモダリティと調整する機能があるため、開発者はデータ豊富なモダリティを使用して LASS モデルをトレーニングでき、ゼロショット設定でテキストデータとの干渉が可能になります。ただし、現在の LASS フレームワークはトレーニングに小規模なデータセットを使用しており、数百の潜在的なドメインにわたる LASS フレームワークのアプリケーションはまだ調査されていません。

LASS フレームワークが直面している現在の制限を解決するために、開発者は、自然言語記述を使用してオーディオ混合物からサウンドを分離することを目的とした基本モデルである AudioSep を導入しました。 AudioSep の現在の焦点は、既存の大規模マルチモーダルデータセットを活用して、オープンドメインアプリケーションにおける LASS モデルの一般化を可能にする事前トレーニング済み音分離モデルを開発することです。要約すると、AudioSep モデルは次のとおりです。大規模なオーディオおよびマルチモーダルデータセットでトレーニングされた自然言語クエリまたは説明を使用した、オープンドメインでのユニバーサルサウンド分離の基礎モデル"。

AudioSep : 主要コンポーネントとアーキテクチャ

AudioSep フレームワークのアーキテクチャは、テキストエンコーダーと分離モデルという XNUMX つの主要なコンポーネントで構成されます。

テキストエンコーダー

AudioSep フレームワークは、CLIP (対照言語画像事前トレーニングモデル) または CLAP (対照言語オーディオ事前トレーニングモデル) のテキストエンコーダーを使用して、自然言語クエリ内のテキスト埋め込みを抽出します。入力テキストクエリは、「」のシーケンスで構成されます。N」トークンはテキストエンコーダーによって処理され、指定された入力言語クエリのテキスト埋め込みが抽出されます。テキストエンコーダーは、トランスフォーマーブロックのスタックを利用して入力テキストトークンをエンコードします。出力表現はトランスフォーマー層を通過した後に集約され、その結果、D が対応する固定長の D 次元ベクトル表現が作成されます。トレーニング期間中にテキストエンコーダーがフリーズしている間に、CLAP または CLIP モデルの次元に変換されます。

CLIP モデルは、対照学習を使用して、画像とテキストのペアになった大規模なデータセットで事前トレーニングされています。これが、テキストエンコーダーが、視覚表現でも共有される意味空間上でテキストの説明のマッピングを学習する主な理由です。 CLIP のテキストエンコーダーを使用することで AudioSep が得られる利点は、代わりにビジュアルエンベディングを使用して、ラベルのないオーディオビジュアルデータから LASS モデルをスケールアップまたはトレーニングできるため、注釈付きまたはラベル付けを必要とせずに LASS モデルをトレーニングできることです。音声テキストデータ。

CLAP モデルは CLIP モデルと同様に機能し、テキストとオーディオエンコーダーを使用してオーディオと言語を接続するため、対照的な学習目標を利用し、オーディオとテキストの潜在空間上にテキストとオーディオの説明を結合します。

分離モデル

AudioSep フレームワークは、フレームワークの分離バックボーンとしてオーディオクリップの混合物が供給される周波数ドメイン ResUNet モデルを利用します。このフレームワークは、最初に波形に STFT または短時間フーリエ変換を適用して、複素スペクトログラム、振幅スペクトログラム、および X の位相を抽出することによって機能します。次に、モデルは同じ設定に従い、処理するエンコーダー/デコーダーネットワークを構築します。振幅スペクトログラム。

ResUNet エンコーダ/デコーダネットワークは、6 つの残差ブロック、6 つのデコーダブロック、および 4 つのボトルネックブロックで構成されます。各エンコーダブロックのスペクトログラムは、4 つの残留従来ブロックを使用してボトルネック特徴にダウンサンプリングしますが、デコーダブロックは 4 つの残留デコンボリューションブロックを使用して、特徴をアップサンプリングすることで分離成分を取得します。これに続いて、エンコーダブロックとそれに対応するデコーダブロックのそれぞれが、同じアップサンプリングレートまたはダウンサンプリングレートで動作するスキップ接続を確立します。フレームワークの残差ブロックは、2 つの Leaky-ReLU 活性化層、2 つのバッチ正規化層、および 2 つの CNN 層で構成されます。さらに、フレームワークには、個々の残差ブロックの入力と出力を接続する追加の残差ショートカットも導入されています。 ResUNet モデルは、複素スペクトログラム X を入力として受け取り、スケーリングの大きさとスペクトログラムの角度の回転を制御するテキスト埋め込みに条件付けされた位相残差を含む出力としてマグニチュードマスク M を生成します。分離された複素スペクトログラムは、予測されたマグニチュードマスクと位相残差に混合物の STFT (短時間フーリエ変換) を乗算することで抽出できます。

AudioSep のフレームワークでは、ResUNet で畳み込みブロックを展開した後、FiLm または機能ごとに線形変調されたレイヤーを使用して、分離モデルとテキストエンコーダーをブリッジします。

トレーニングと損失

AudioSep モデルのトレーニング中に、開発者はラウドネス拡張メソッドを使用し、グラウンドトゥルースと予測波形の間の L1 損失関数を利用して、AudioSep フレームワークをエンドツーエンドでトレーニングします。

データセットとベンチマーク

前のセクションで説明したように、AudioSep は、注釈付きのオーディオとテキストのペアのデータセットに対する LASS モデルの現在の依存関係を解決することを目的とした基礎モデルです。 AudioSep モデルは、マルチモーダル学習機能を装備するために、さまざまなデータセットでトレーニングされます。ここでは、開発者が AudioSep フレームワークをトレーニングするために使用するデータセットとベンチマークについて詳しく説明します。

オーディオセット

AudioSet は、YouTube から直接抽出された 2 万を超える 10 秒の音声スニペットで構成される、弱いラベルが付けられた大規模な音声データセットです。 AudioSet データセット内の各オーディオスニペットは、サウンドイベントの特定のタイミングの詳細を持たずに、サウンドクラスの有無によって分類されます。 AudioSet データセットには、自然音、人間の音、車両の音などを含む 500 を超える異なるオーディオクラスがあります。

VGGサウンド

VGGSound データセットは、AudioSet と同様に YouTube から直接ソースされた大規模なビジュアルオーディオデータセットで、それぞれの長さが 2,00,000 秒の 10 を超えるビデオクリップが含まれています。 VGGSound データセットは、人の音、自然の音、鳥の鳴き声などを含む 300 以上のサウンドクラスに分類されています。 VGGSound データセットを使用すると、ターゲットサウンドの生成を担当するオブジェクトも、対応するビジュアルクリップ内で記述できるようになります。

オーディオキャップ

AudioCaps は、一般に公開されている最大のオーディオキャプションデータセットであり、AudioSet データセットから抽出された 50,000 を超える 10 秒のオーディオクリップで構成されています。 AudioCaps 内のデータは、トレーニングデータ、テストデータ、検証データの 5 つのカテゴリに分類されており、オーディオクリップには、Amazon Mechanical Turk プラットフォームを使用して人間が自然言語の説明で注釈を付けられます。トレーニングデータセットの各オーディオクリップには XNUMX つのキャプションがあるのに対し、テストおよび検証セットのデータにはそれぞれ XNUMX つのグラウンドトゥルースキャプションがあることに注意してください。

クロトV2

ClothoV2 は、FreeSound プラットフォームからソースされたクリップで構成されるオーディオキャプションデータセットで、AudioCaps と同様に、各オーディオクリップには Amazon Mechanical Turk プラットフォームを使用して人間が自然言語の説明で注釈を付けられます。

WavCaps

AudioSet と同様に、WavCaps は弱いラベルが付けられた大規模なオーディオデータセットで、キャプション付きの 400,000 を超えるオーディオクリップと、トレーニングデータの合計ランタイムが約 7568 時間で構成されています。 WavCaps データセット内のオーディオクリップは、BBC Sound Effects、AudioSet、FreeSound、SoundBible などを含む幅広いオーディオソースから取得されています。

トレーニングの詳細

トレーニングフェーズ中に、AudioSep モデルは、トレーニングデータセットの 5 つの異なるオーディオクリップからソースされた 1024 つのオーディオセグメントをランダムにサンプリングし、それらを混合して、各オーディオセグメントの長さが約 320 秒のトレーニングミックスを作成します。次にモデルは、ホップサイズ XNUMX のサイズ XNUMX のハンウィンドウを使用して、波形信号から複素スペクトログラムを抽出します。

次に、モデルは CLIP/CLAP モデルのテキストエンコーダーを利用して、AudioSep のデフォルト設定であるテキスト監視を使用してテキスト埋め込みを抽出します。分離モデルの場合、AudioSep フレームワークは、ユニバーサルサウンド分離フレームワークで採用されているアーキテクチャに似た 30 層、6 つのエンコーダーブロック、および 6 つのデコーダーブロックで構成される ResUNet 層を使用します。さらに、各エンコーダブロックには 3×3 カーネルサイズの 32 つの畳み込み層があり、エンコーダブロックの出力特徴マップの数はそれぞれ 64、128、256、512、1024、および 96 です。デコーダーブロックはエンコーダーブロックと対称性を共有し、開発者は Adam オプティマイザーを適用して、バッチサイズ XNUMX で AudioSep モデルをトレーニングします。

評価結果

見たデータセットについて

次の図は、トレーニングデータセットを含むトレーニングフェーズ中に表示されたデータセットに対する AudioSep フレームワークのパフォーマンスを比較しています。以下の図は、Speech を含むベースラインシステムと比較した、AudioSep フレームワークのベンチマーク評価結果を示しています。拡張モデル、LASS、およびCLIP。 CLIP テキストエンコーダを備えた AudioSep モデルは AudioSep-CLIP として表され、CLAP テキストエンコーダを備えた AudioSep モデルは AudioSep-CLAP として表されます。

図からわかるように、オーディオキャプションまたはテキストラベルを入力クエリとして使用すると、AudioSep フレームワークは良好なパフォーマンスを発揮します。その結果は、以前のベンチマーク LASS およびオーディオクエリによる音分離モデルと比較した場合、AudioSep フレームワークのパフォーマンスが優れていることを示しています。

目に見えないデータセットについて

ゼロショット設定での AudioSep のパフォーマンスを評価するために、開発者は未確認のデータセットでのパフォーマンスの評価を続けました。AudioSep フレームワークはゼロショット設定で優れた分離パフォーマンスを実現し、その結果を下の図に示します。

さらに、下の画像は、Voicebank-Demand 音声強調に対して AudioSep モデルを評価した結果を示しています。

AudioSep フレームワークの評価は、ゼロショット設定で未確認のデータセットに対して強力かつ望ましいパフォーマンスを示しているため、新しいデータ配信でサウンド操作タスクを実行する道が開けます。

分離結果の可視化

以下の図は、開発者が AudioSep-CLAP フレームワークを使用して、さまざまなオーディオまたはサウンドのテキストクエリを使用してグラウンドトゥルースターゲットオーディオソース、およびオーディオの混合と分離されたオーディオソースのスペクトログラムの視覚化を実行したときに得られた結果を示しています。この結果により、開発者は、スペクトログラムの分離されたソースパターンが、実験中に得られた客観的な結果をさらに裏付けるグランドトゥルースのソースに近いことを観察することができました。

テキストクエリの比較

開発者は、AudioCaps Mini 上の AudioSep-CLAP および AudioSep-CLIP のパフォーマンスを評価し、AudioSet イベントラベル、AudioCaps キャプション、および再注釈付けされた自然言語記述を利用して、さまざまなクエリの効果を調べます。図は、AudioCaps Mini の動作例を示しています。

まとめ

オーディオセプは、音声分離に自然言語記述を使用する、オープンドメインのユニバーサル音声分離フレームワークを目的として開発された基礎モデルです。評価中に観察されたように、AudioSep フレームワークは、オーディオキャプションまたはテキストラベルをクエリとして利用することで、ゼロショット学習と教師なし学習をシームレスに実行できます。 AudioSep の結果と評価パフォーマンスは、LASS のような現在の最先端の音分離フレームワークを上回る強力なパフォーマンスを示しており、一般的な音分離フレームワークの現在の制限を解決するのに十分な能力がある可能性があります。

関連トピック：オーディオオーディオセップ CLAP CLIP

次に

AutoGen: 次世代の大規模言語モデルアプリケーションを強化

お見逃しなく

大規模な言語モデルとビジネスの橋渡し: LLMops

クナル・ケジリワル

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカルライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。

Unite.AI

AudioSep : 説明するものはすべて分離します

Artificial Intelligence

AudioSep : 説明するものはすべて分離します

目次

CASA、USS、QSS、LASS フレームワーク : AudioSep の財団