人工知能

サルモン：大規模言語モデルにおける汎用的な聴覚能力に向けて

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

聴覚は、汎用的な聴覚情報の認識と理解を伴うもので、AIエージェントにとってリアルワールド環境では不可欠です。この聴覚情報には、音楽、オーディオイベント、スピーチの3つの主なサウンドタイプが含まれます。最近、テキストベースの大規模言語モデル（LLM）フレームワークは、自然言語処理（NLP）タスクの幅広い分野で人間レベルのパフォーマンスを達成するという驚くべき能力を示しています。さらに、インストラクションチューニングという、リファレンスレスポンスとユーザープロンプトのペアを使用するトレーニング方法が人気を博しています。このアプローチにより、大規模言語モデルがより効果的にオープンエンドのユーザー指示に従うことができます。ただし、現在の研究は、多モーダルコンテンツの認識能力を大規模言語モデルに付与することに重点を置いています。

同様に、この記事では、SALMONNまたはSpeech Audio Language Music Open Neural Networkについて話します。これは、スピーチエンコーダーと事前トレーニング済みのテキストベースの大規模言語モデルを単一のオーディオテキスト多モーダルモデルに統合することで構築された最先端のオープンスピーチオーディオ言語音楽ニューラルネットワークです。SALMONNモデルにより、大規模言語モデルは直接汎用的なオーディオ入力を受け取り、処理し、トレーニングで使用されるオーディオおよびスピーチタスクの幅広い分野で競合するパフォーマンスを発揮することができます。これらのタスクには、聴覚情報ベースの質問回答、スピーチ認識および翻訳、話者認証、感情認識、オーディオおよび音楽キャプションなどがあります。SALMONNフレームワークの動作、構造、NLPタスクの幅広い分野での結果について深く掘り下げてみましょう。では、始めましょう。

SALMONN：単一オーディオテキスト多モーダル大規模言語モデルの紹介

SALMONNは、Speech Audio Language Music Open Neural Networkの略称で、スピーチ、オーディオイベント、音楽の3つの基本的なオーディオまたはサウンドタイプを認識および理解できる単一のオーディオテキスト多モーダル大規模言語モデルフレームワークです。SALMONNモデルにより、大規模言語モデルは直接汎用的なオーディオ入力を受け取り、処理し、オーディオおよびスピーチタスクの幅広い分野で競合するパフォーマンスを発揮することができます。

スピーチおよび非スピーチオーディオタスクの両方のパフォーマンスを向上させるために、SALMONNフレームワークは、BEATsオーディオエンコーダーとWhisperスピーチモデルから得られたスピーチエンコーダーを備えたデュアルエンコーダ構造を採用しています。さらに、SALMONNフレームワークは、変数長のエンコーダ出力シーケンスを変数数のオーディオトークンに効果的に変換し、最終的にオーディオテキストの高時間解像度を実現するために、ウィンドウレベルのQ-Formerまたはクエリトランスフォーマーを接続モジュールとして使用します。VicunaフレームワークへのLoRAまたはLow Rank Adaptationアプローチは、出力空間を増強された入力空間と一致させるために、クロスモーダルアダプターとして使用されます。SALMONNフレームワークでは、トレーニング段階で失われるクロスモーダルタスクの実行能力は、トレーニング段階での指示のクロスモーダルエマージェント能力として失われるため、SALMONNフレームワークは、LLMフレームワークの一般的なエマージェント能力を回復するために、追加のファインチューニング段階を実装します。

さらに、フレームワークは、オーディオイベント、音楽ベンチマーク、スピーチベンチマークの幅広い分野を使用して、認知聴覚能力を評価し、ベンチマークを3つのレベルに分割します。最初のベンチマークレベルでは、翻訳、オーディオキャプション、スピーチ認識を含む8つのタスクをインストラクショントレーニングでトレーニングします。他の2つのベンチマークレベルは、トレーニングされていないタスクで、2番目のベンチマークレベルは、スロットフィリングや未トレーニング言語への翻訳などのスピーチベースのNLPタスク5つで構成され、テキストとスピーチトークンの間の高品質のマルチリンガルな整列に依存しています。最終レベルのベンチマークタスクは、スピーチオーディオの共理性とオーディオベースの物語を理解するために、スピーチおよび非スピーチの聴覚情報を使用します。

まとめると、SALMONNフレームワークは

スピーチ、オーディオイベント、音楽を含む汎用的なオーディオ入力を最大限に認識および理解できる最初の多モーダル大規模言語モデルです。
LoRAスケーリングファクターを実装し、トレーニング中に追加のコスト効率の良いアクティベーション段階を使用して、フレームワークのクロスモーダルエマージェント能力を活性化する試みです。

SALMONN：アーキテクチャと方法論

このセクションでは、SALMONNフレームワークのアーキテクチャ、トレーニング方法、実験設定について見ていきます。

モデルアーキテクチャ

SALMONNフレームワークの核となるアーキテクチャは、2つの聴覚エンコーダーの出力を同期および統合し、フレームレベルの接続モジュールとしてQ-Formerを実装します。Q-Formerによって生成される出力シーケンスは、テキスト指示プロンプトと結合され、LoRA適応アプローチの入力として提供され、必要な応答を生成します。

聴覚エンコーダー

SALMONNフレームワークでは、2つの聴覚エンコーダーを使用します。1つは非スピーチのBEATsオーディオエンコーダーで、もう1つはOpenAIのWhisperフレームワークから得られたスピーチエンコーダーです。BEATsオーディオエンコーダーは、自己教師ありの反復学習アプローチを使用して、非スピーチの高レベルのオーディオセマンティクスを抽出するためにトレーニングされます。一方、スピーチエンコーダーは、スピーチ認識およびスピーチ翻訳タスクのための大量の弱い教師ありデータでトレーニングされ、エンコーダーの出力特徴は、背景ノイズやスピーチ情報を含むことができます。モデルは、まず入力オーディオをトークン化し、次にマスクして予測します。2つのエンコーダーの聴覚特徴は相補的なものであり、スピーチおよび非スピーチの情報の両方に適しています。

ウィンドウレベルのQ-Former

Q-Former構造の実装は、LLMフレームワークでイメージエンコーダーの出力をテキスト入力トークンに変換するために使用される一般的なアプローチですが、オーディオトークンの長さが可変である場合には、修正が必要です。具体的には、フレームワークは、入力イメージのエンコーダ出力を連結されたエンコーダ出力シーケンスとして見なし、Q-Formerは、スタックされたQ-Formerブロックを使用してエンコーダ出力シーケンスをテキストトークンに変換します。スタックされたQ-Formerブロックは、自己注意層でキャジュアルマスクを削除し、初期ブロックで固定数のトレーニング可能な静的クエリを使用することを除いて、トランスフォーマーデコーダブロックに似ています。

LoRAとLLM

SALMONNフレームワークは、Vicuna LLMも採用しています。これは、指示に従うことをより正確に、効果的に行うように、LLaMA大規模言語モデルフレームワークをファインチューニングしたものです。LoRAフレームワークは、パラメータ効率的なファインチューニングのための一般的な方法であり、SALMONNフレームワークでは、自己注意層のクエリと値重み行列を適応させるために使用されます。

トレーニング方法

SALMONNフレームワークでは、3段階のクロスモーダルトレーニングアプローチを使用します。トレーニング段階は、ほとんどの視覚LLMフレームワークに含まれるプレトレーニング段階とインストラクションチューニング段階で構成され、さらに、オーディオキャプションおよびスピーチ認識タスクで発生する過剰適合問題を解決するために、アクティベーションチューニング段階が実装されます。

プレトレーニング段階

エンコーダーやLLMを含むプレトレーニング済みパラメータと、アダプターや接続モジュールを含むランダムに初期化されたパラメータの間のギャップを制限するために、SALMONNフレームワークは、LoRAおよびQ-Formerコンポーネントをプレトレーニングするために、オーディオキャプションおよびスピーチ認識データの大量を使用します。これらのタスクには、オーディオイベントの重要なコンテンツに関する重要な聴覚情報が含まれており、どちらも、テキストと聴覚情報の間の整列を学習するために、複雑な理解や推論を必要としません。

インストラクションファインチューニング段階

SALMONNフレームワークで実装されたインストラクションファインチューニング段階は、NLPおよび視覚LLMフレームワークで実装されたものに似ており、オーディオイベント、音楽タスク、スピーチイベントのリストを使用して、オーディオテキスト指示をファインチューニングします。タスクは、電話認識、重なり合うスピーチ認識、音楽キャプションなどのさまざまなテストにおける重要性に基づいて優先順位付けられます。さらに、オーディオデータとペアになっているテキスト情報は、指示プロンプトを生成するための基礎となります。

タスクの過剰適合

最初の2つのトレーニング段階のみを実装した場合でも、SALMONNフレームワークはインストラクションチューニングタスクで競合する結果を返しますが、特にクロスモーダル共理性能力を必要とするタスクでは、パフォーマンスが十分ではないことがわかります。具体的には、モデルは指示プロンプトに違反することがあり、無関係または不正確な応答を生成することがあり、これはSALMONNフレームワークではタスクの過剰適合と呼ばれます。アクティベーションチューニング段階は、これらの過剰適合問題を解決するために実装されます。

アクティベーションチューニング段階

過剰適合問題を解決するための有効なアプローチは、長い回答や物語を使用したテキストベースのQAタスクや、ASRタスクの長いスピーチトランスクリプトを使用することです。フレームワークは、オーディオやQ-Formerの入力を無視して、LoRAおよびVicunaコンポーネントを適応テキストベースの大規模言語モデルとしてファインチューニングします。結果は次の図に示されています。モデルは、ASR（長いラベルを使用したASRのトレーニング）またはストーリーまたはテキストベース（LoRAコンポーネントをテキストプロンプト入力でトレーニング）でアクティブ化できません。

結果

レベル1タスク

次の表は、レベル1タスクの結果を示しています。アクティベーションチューニングの有無に関係なく、SALMONNフレームワークはレベル1タスクで競合する結果を返します。

レベル2およびレベル3タスク

SALMONNフレームワークは、レベル1タスクで競合する結果を返しますが、アクティベーションを伴わない場合、レベル2およびレベル3タスクでは過剰適合に苦労します。特に、クロスモーダル共理性能力を必要とするタスクでは、指示プロンプトに違反し、無関係または不正確な応答を生成することがあります。ただし、アクティベーションチューニングを使用すると、結果が大幅に改善されます。

LoRAスケーリングファクターの割引

LoRAスケーリングファクターの割引は、過剰適合問題を最小限に抑えるために、LoRAスケーリングファクターの時間テスト割引を使用することの影響を評価します。次の図からもわかるように、LoRAスケーリングファクターを2.0に減算すると、ASRおよびPRタスク、SQQAタスク、ストーリーテリングタスク、SACタスクのクロスモーダル推論能力が向上します。

タスクの過剰適合の評価

アクティベーションチューニングを強調するために、SALMONNフレームワークは、3つのトレーニング段階でのパープレクシティの変化を分析します。次の図からもわかるように、AACおよびASRタスクのパープレクシティの変化は、最初のトレーニング段階後の小さな最終値を示し、モデルがクロスモーダル整列を学習していることを示しています。

さらに、PRタスクのパープレクシティも、LoRAコンポーネントを使用して出力トークンを学習しているため、インストラクションチューニングの後に低下します。ただし、ストーリーテリングおよびSACタスクのパープレクシティは、インストラクションチューニングで低下しますが、まだ大きなギャップがあり、追加のアクティベーション段階が必要です。

アクティベーションチューニング

SALMONNフレームワークは、長い回答を使用したテキストベースのQAタスクのペアまたは、オーディオベースの長い書き起こされた物語を使用するなどのさまざまなアクティベーション方法を使用します。ASRタスクの場合は、長いスピーチトランスクリプトを使用します。Q-FormerおよびLoRAコンポーネントの両方が、これらの3つの方法でファインチューニングされます。さらに、フレームワークは、オーディオおよびQ-Formerの入力を無視して、LoRAおよびVicunaコンポーネントを適応テキストベースの大規模言語モデルとしてファインチューニングします。結果は次の図に示されています。モデルは、ASR（長いラベルを使用したASRのトレーニング）またはストーリーまたはテキストベース（LoRAコンポーネントをテキストプロンプト入力でトレーニング）でアクティブ化できません。

最終的な考え

この記事では、SALMONNまたはSpeech Audio Language Music Open Neural Networkについて話しました。これは、スピーチ、オーディオイベント、音楽の3つの基本的なオーディオまたはサウンドタイプを認識および理解できる単一のオーディオテキスト多モーダル大規模言語モデルフレームワークです。SALMONNモデルにより、大規模言語モデルは直接汎用的なオーディオ入力を受け取り、処理し、オーディオおよびスピーチタスクの幅広い分野で競合するパフォーマンスを発揮することができます。

SALMONNフレームワークは、オーディオキャプション、スピーチ翻訳および認識などの幅広いトレーニングタスクで競合するパフォーマンスを発揮し、未トレーニングの理解タスク、例えばスピーチ翻訳のキーワード抽出や未トレーニング言語への翻訳に一般化します。SALMONNフレームワークの能力により、大規模言語モデルの汎用的な聴覚能力を向上させるための次のステップと見なすことができます。