人工知能

AI 研究は、ダイアログ、音楽、音効の個別のボリュームコントロールを検討する

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

三菱電機が主導する新しい研究コラボレーションは、オリジナルのオーディオソースから 3 つの別々のサウンドトラックを抽出する可能性を調査している。これは、オーディオトラックをスピーチ、音楽、音効（例：環境ノイズ）に分解することになる。

このポストファクト処理フレームワークは、将来のマルチメディアビューワープラットフォーム、消費者機器を含む、3 点ボリュームコントロールを提供する可能性がある。これにより、ユーザーはダイアログのボリュームを上げたり、サウンドトラックのボリュームを下げたりすることができる。

以下の研究のビデオ（記事の最後にフルビデオを参照）からの短いクリップでは、ユーザーが三角形のコントロールを 3 つのオーディオコンポーネントの 1 つに向けてドラッグするときに、サウンドトラックのさまざまな側面が強調されることがわかる。

ペーパーのビデオ（記事の最後に埋め込まれたもの）からの短いクリップ。ユーザーが三角形 UI（右側）の 1 つの抽出された側面に向けてカーソルをドラッグすると、そのサウンドトラックの部分が強調される。より長いビデオは YouTube にあるいくつかの追加の例を引用しているが、現在は利用できないようである。ソース: https://vimeo.com/634073402

ペーパーは、コクテールフォークの問題: 実世界のサウンドトラックのための 3 ステムオーディオ分離 と呼ばれており、MA の Mitsubishi Electric Research Laboratories (MERL) と IL のインディアナ大学の知能システム工学科の研究者によるものである。

サウンドトラックの側面を分離する

研究者は、この課題を ‘コクテールパーティーの問題’ と呼んでいる。これは、サウンドトラックの厳密に絡み合った要素を分離することを伴うため、フォークに似たロードマップを作成することになる。実践的には、マルチチャンネル（例：ステレオおよびそれ以上）のサウンドトラックには、ダイアログ、音楽、アンビエンスなどのコンテンツの種類が異なる場合がある。特に、ダイアログは Dolby 5.1 ミックスのセンターチャンネルを支配する傾向にある。ただし、現在、オーディオ分離の非常に活発な研究分野は、シングルで焼き込まれたサウンドトラックからこれらのストランドをキャプチャすることに集中しており、現在の研究も同様である。

コクテールフォーク – 1 つのマージされたサウンドトラックから 3 つの異なるサウンドトラックを導出する。 ソース: https://arxiv.org/pdf/2110.09958.pdf

最近の研究は、さまざまな環境でのスピーチの抽出に集中しており、主にノイズ除去スピーチオーディオのために自然言語処理 (NLP) システムとの後のエンゲージメントのために行われている。また、孤立化されたアーカイブの歌唱ボイスの分離にも焦点が当てられている。合成された実際の（死んだ）歌手のバージョンを作成するため、またはカラオケスタイルの音楽分離を容易にするためである。

各側面のデータセット

これまで、サウンドトラックのミックスに対するユーザーのコントロールを高めるために、この種の AI テクノロジーを使用することについてはほとんど考慮されていませんでした。したがって、研究者は問題を形式化し、多種類のサウンドトラック分離に関する継続的な研究を支援するための新しいデータセットを作成し、さまざまな既存のオーディオ分離フレームワークでテストしました。

著者が開発した新しいデータセットは、Divide and Remaster (DnR) と呼ばれており、以前のデータセット LibriSpeech、Free Music Archive、および Freesound Dataset 50k (FSD50K) から派生しています。DnR をスクラッチから使用したい場合は、3 つのソースからデータセットを再構築する必要があります。そうでない場合は、すぐに Zenodo で利用できるようになるということです。ただし、現在、ソース抽出ユーティリティの GitHub リンクはアクティブではありません。したがって、興味がある場合は、しばらく待つ必要があるかもしれません。

研究者は、ソニーが 5 月に提案した CrossNet un-mix (XUMX) アーキテクチャが DnR で特にうまく機能することを発見しました。

ソニーの CrossNet アーキテクチャ。

著者は、機械学習抽出モデルが YouTube のサウンドトラックでうまく機能することを主張しています。ただし、ペーパーに提示された評価は合成データに基づいており、提供された主要なサポートビデオ（以下に埋め込まれている）は、現在利用可能な唯一のビデオのようです。

使用された 3 つのデータセットは、それぞれ、サウンドトラックから分離する必要がある出力のコレクションです。FSD50K は、200 のクラスラベルでタグ付けされた 44.1 kHz モノオーディオクリップの 50,000 個で構成されており、Google の AudioSet オントロジーを使用しています。Free Music Archive には、161 の音楽ジャンルにわたる 100,000 個のステレオソングがあります。ただし、著者は、FSD50K と同等の 25,000 個のソングのサブセットを使用しました。LibriSpeech は、44.1kHz mp3 オーディオファイルとして 100 時間のオーディオブックサンプルを DnR に提供します。

将来の研究

著者は、データセットと開発された個別のモデルに関するさらなる研究を予想しています。さらに、スピーチ認識とサウンド分類フレームワークに関する研究を進めるために、自動キャプション生成を備えたスピーチとノンスピーチサウンドを特徴とするものです。彼らはまた、知覚されるアーティファクトを減らすことができるリミックスアプローチの可能性を評価することを意図しています。これは、結合されたオーディオサウンドトラックをその構成要素に分割するときに残る中央の問題です。

この種の分離は、将来、高度に最適化された推論ネットワークを組み込んだスマート TV として消費者向けに利用できるようになる可能性があります。ただし、初期の実装では、事前の処理時間とストレージ空間が必要になる可能性があります。サムスンはすでに、ローカルネットワークを使用してアップスケーリングを行っています。ソニーの Cognitive Processor XR は、同社の Bravia ラインで使用されており、分析および解釈を実行し、軽量な統合 AI を介してサウンドトラックをライブで分析します。

サウンドトラックのミックスに対するより大きなコントロールの必要性は、定期的に繰り返され、ほとんどの解決策は、サウンドトラックがすでに現在の標準（および視聴者の要件についての仮定）に従って映画およびテレビ産業でバウンドダウンされているという事実に対処する必要があります。

一部の視聴者は、映画のサウンドトラックのさまざまな要素のボリュームレベルの驚くべき不均一さに悩まされ、ハードウェアベースの自動ボリューム調整器を開発するほどになりました。これは、映画やテレビ番組のボリュームを均等化することができます。

スマート TV では、ダイアログボリュームを上げるためのさまざまな方法が提供されていますが、すべてがミックス時に行われた決定に抵抗しているように見えます。コンテンツプロデューサーは、視聴者がサウンドトラックを設定したまま体験することを望んでいます。

コンテンツプロデューサーは、この潜在的な追加の ‘リミックス文化’ に対して不満を抱く可能性があります。業界の有名人はいくつかの既存の TV ベースのアルゴリズム、たとえばモーションスムージングに対して不満を表明しています。

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

AI 研究は、ダイアログ、音楽、音効の個別のボリュームコントロールを検討する

サウンドトラックの側面を分離する

各側面のデータセット

将来の研究

You may like