Connect with us

AI 研究は、ダイアログ、音楽、音効の個別のボリュームコントロールを検討する

人工知能

AI 研究は、ダイアログ、音楽、音効の個別のボリュームコントロールを検討する

mm

三菱電機が主導する新しい研究コラボレーションは、オリジナルのオーディオソースから 3 つの別々のサウンドトラックを抽出する可能性を調査している。これは、オーディオトラックをスピーチ、音楽、音効(例:環境ノイズ)に分解することになる。

このポストファクト処理フレームワークは、将来のマルチメディアビューワープラットフォーム、消費者機器を含む、3 点ボリュームコントロールを提供する可能性がある。これにより、ユーザーはダイアログのボリュームを上げたり、サウンドトラックのボリュームを下げたりすることができる。

以下の研究のビデオ(記事の最後にフルビデオを参照)からの短いクリップでは、ユーザーが三角形のコントロールを 3 つのオーディオコンポーネントの 1 つに向けてドラッグするときに、サウンドトラックのさまざまな側面が強調されることがわかる。

ペーパーのビデオ(記事の最後に埋め込まれたもの)からの短いクリップ。ユーザーが三角形 UI(右側)の 1 つの抽出された側面に向けてカーソルをドラッグすると、そのサウンドトラックの部分が強調される。より長いビデオは YouTube にあるいくつかの追加の例を引用しているが、現在は利用できないようである。 ソース: https://vimeo.com/634073402

ペーパー は、コクテール フォークの問題: 実世界のサウンドトラックのための 3 ステム オーディオ分離 と呼ばれており、MA の Mitsubishi Electric Research Laboratories (MERL) と IL のインディアナ大学の知能システム工学科の研究者によるものである。

サウンドトラックの側面を分離する

研究者は、この課題を ‘コクテール パーティーの問題’ と呼んでいる。これは、サウンドトラックの厳密に絡み合った要素を分離することを伴うため、フォークに似たロードマップを作成することになる。実践的には、マルチチャンネル(例:ステレオおよびそれ以上)のサウンドトラックには、ダイアログ、音楽、アンビエンスなどのコンテンツの種類が異なる場合がある。特に、ダイアログは Dolby 5.1 ミックスのセンター チャンネルを支配する傾向にある。ただし、現在、オーディオ分離の非常に活発な研究分野は、シングルで焼き込まれたサウンドトラックからこれらのストランドをキャプチャすることに集中しており、現在の研究も同様である。

コクテール フォーク – 1 つのマージされたサウンドトラックから 3 つの異なるサウンドトラックを導出する。

コクテール フォーク – 1 つのマージされたサウンドトラックから 3 つの異なるサウンドトラックを導出する。 ソース: https://arxiv.org/pdf/2110.09958.pdf

最近の研究は、さまざまな環境でのスピーチの抽出に集中しており、主にノイズ除去スピーチ オーディオのために自然言語処理 (NLP) システムとの後のエンゲージメントのために行われている。また、孤立 化されたアーカイブの歌唱ボイスの分離にも焦点が当てられている。合成された実際の(死んだ)歌手のバージョンを作成するため、またはカラオケ スタイルの音楽分離を容易にするためである。

各側面のデータセット

これまで、サウンドトラックのミックスに対するユーザーのコントロールを高めるために、この種の AI テクノロジーを使用することについてはほとんど考慮されていませんでした。したがって、研究者は問題を形式化し、多種類のサウンドトラック分離に関する継続的な研究を支援するための新しいデータセットを作成し、さまざまな既存のオーディオ分離フレームワークでテストしました。

著者が開発した新しいデータセットは、Divide and Remaster (DnR) と呼ばれており、以前のデータセット LibriSpeechFree Music Archive、および Freesound Dataset 50k (FSD50K) から派生しています。DnR をスクラッチから使用したい場合は、3 つのソースからデータセットを再構築する必要があります。そうでない場合は、すぐに Zenodo で利用できるようになるということです。ただし、現在、ソース抽出ユーティリティの GitHub リンク はアクティブではありません。したがって、興味がある場合は、しばらく待つ必要があるかもしれません。

研究者は、ソニーが 5 月に提案した CrossNet un-mix (XUMX) アーキテクチャが DnR で特にうまく機能することを発見しました。

ソニーの CrossNet アーキテクチャ。

ソニーの CrossNet アーキテクチャ。

著者は、機械学習抽出モデルが YouTube のサウンドトラックでうまく機能することを主張しています。ただし、ペーパーに提示された評価は合成データに基づいており、提供された主要なサポート ビデオ(以下に埋め込まれている)は、現在利用可能な唯一のビデオのようです。

使用された 3 つのデータセットは、それぞれ、サウンドトラックから分離する必要がある出力のコレクションです。FSD50K は、200 のクラス ラベルでタグ付けされた 44.1 kHz モノ オーディオ クリップの 50,000 個で構成されており、Google の AudioSet オントロジーを使用しています。Free Music Archive には、161 の音楽ジャンルにわたる 100,000 個のステレオ ソングがあります。ただし、著者は、FSD50K と同等の 25,000 個のソングのサブセットを使用しました。LibriSpeech は、44.1kHz mp3 オーディオ ファイルとして 100 時間のオーディオ ブック サンプルを DnR に提供します。

将来の研究

著者は、データセットと開発された個別のモデルに関するさらなる研究を予想しています。さらに、スピーチ認識とサウンド分類フレームワークに関する研究を進めるために、自動キャプション生成を備えたスピーチとノンスピーチ サウンドを特徴とするものです。彼らはまた、知覚されるアーティファクトを減らすことができるリミックス アプローチの可能性を評価することを意図しています。これは、結合されたオーディオ サウンドトラックをその構成要素に分割するときに残る中央の問題です。

この種の分離は、将来、高度に最適化された推論ネットワークを組み込んだスマート TV として消費者向けに利用できるようになる可能性があります。ただし、初期の実装では、事前の処理時間とストレージ空間が必要になる可能性があります。サムスンはすでに、ローカル ネットワーク を使用してアップスケーリングを行っています。ソニーの Cognitive Processor XR は、同社の Bravia ラインで使用されており、分析および解釈 を実行し、軽量な統合 AI を介してサウンドトラックをライブで分析します。

サウンドトラックのミックスに対するより大きなコントロールの必要性は、定期的に繰り返され、ほとんどの 解決策 は、サウンドトラックがすでに現在の標準(および視聴者の要件についての仮定)に従って映画およびテレビ産業でバウンド ダウンされているという事実に対処する必要があります。

一部の視聴者は、映画のサウンドトラックのさまざまな要素のボリューム レベルの驚くべき不均一さに悩まされ、ハードウェア ベースの自動ボリューム調整器 を開発するほどになりました。これは、映画やテレビ番組のボリュームを均等化 することができます。

スマート TV では、ダイアログ ボリュームを上げるためのさまざまな方法 が提供されていますが、すべてがミックス時に行われた決定に抵抗しているように見えます。コンテンツ プロデューサーは、視聴者がサウンドトラックを設定したまま体験することを望んでいます。

コンテンツ プロデューサーは、この潜在的な追加の ‘リミックス文化’ に対して不満を抱く可能性があります。業界の有名人はいくつかの既存の TV ベースのアルゴリズム、たとえば モーション スムージング に対して不満を表明しています。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。