人工知能

Modulateがアンサンブルリスニングモデルを導入し、AIが人間の声を理解する方法を再定義する

Published January 20, 2026

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

人工知能は急速に進化しているが、まだ一つの難しい分野が残っている：人間の声の本当の理解。単に話された言葉だけではなく、言葉の背後にある感情、トーンやタイミングによって形作られる意図、友好的な会話と苛立、欺瞞、または危害を区別するための繊細な信号。今日、Modulateは、実世界の声の理解のために特別に設計された新しいAIアーキテクチャであるアンサンブルリスニングモデル（ELM）の導入を発表した。

研究発表とともに、Velma 2.0が公開された。Velma 2.0は、アンサンブルリスニングモデルの最初の本格的な導入であり、企業は大規模なAI導入の持続可能性を再評価している時期に、会話の精度では先行する基礎モデルを上回り、かつコストは大幅に削減している。

なぜ声はAIにとって難しいのか

ほとんどのスピーチを分析するAIシステムは、よく知られたアプローチに従う。オーディオはテキストに変換され、そのトランスクリプトは大規模な言語モデルによって処理される。転写や要約には効果的だが、このプロセスでは声の意味の多くが除去される。

トーン、感情的なニュアンス、躊躇、皮肉、重複するスピーチ、背景ノイズなどはすべて重要なコンテキストを運ぶ。スピーチがテキストに平坦化されると、これらの次元が失われ、意図や感情の誤解につながることが多い。これは、顧客サポート、不正検出、オンラインゲーム、AI駆動のコミュニケーションなどの環境では特に問題となる。

Modulateによると、この制限はデータではなくアーキテクチャ的なものである。大量の言語モデルはテキスト予測のために最適化されているが、リアルタイムで複数の音響および行動シグナルを統合することはできない。アンサンブルリスニングモデルはこのギャップを解決するために作成された。

アンサンブルリスニングモデルとは

アンサンブルリスニングモデルは、一度にすべてを行うための単一のニューラルネットワークではない。代わりに、各々が声のやり取りの異なる次元を分析する責任を持つ多くの専門化されたモデルで構成される調整されたシステムである。

ELM内では、個別のモデルが感情、ストレス、欺瞞の指標、話者のアイデンティティ、タイミング、プロソディ、背景ノイズ、合成または擬似的な声などを分析する。这些信号は、会話で何が起こっているのかの統一的で説明可能な解釈を生成するタイムアラインドオーケストレーションレイヤーを介して同期される。

この明示的な労働の分割は、ELMアプローチの核心である。単一の巨大なモデルに意味を暗黙的に推論させるのではなく、アンサンブルリスニングモデルは複数のターゲット化された視点を組み合わせ、精度と透明性の両方を向上させる。

Velma 2.0の内部

Velma 2.0は、Modulateの以前のアンサンブルベースのシステムから大幅に進化したものである。100以上のコンポーネントモデルがリアルタイムで協調して動作し、5つの分析レイヤーにわたって構造化されている。

最初のレイヤーは基本的なオーディオ処理に焦点を当て、話者の数、スピーチのタイミング、そしてポーズを決定する。次に、音響信号抽出が行われ、感情状態、ストレスレベル、欺瞞の兆候、合成音声マーカー、環境ノイズが識別される。

3番目のレイヤーは認識された意図を評価し、真摯な賛辞と皮肉または敵対的な発言を区別する。行動モデリングは会話のダイナミクスを時間の経過とともに追跡し、苛立、混乱、スクリプト化されたスピーチ、またはソーシャルエンジニアリングの試みをフラグ化する。最終的なレイヤーである会話分析は、これらの洞察を企業に関連するイベント（不満足な顧客、ポリシーの違反、潜在的な不正行為、またはマルファンクションするAIエージェントなど）に翻訳する。

Modulateによると、Velma 2.0は会話の意味と意図を、先行するLLMベースのアプローチよりも約30パーセント高く正確に理解し、かつスケールで10〜100倍コスト効率が高い。

ゲームモデレーションから企業インテリジェンスへ

アンサンブルリスニングモデルの起源は、Modulateのオンラインゲームでの初期の取り組みにある。人気タイトルであるCall of DutyやGrand Theft Auto Onlineは、想像できる中で最も困難な声の環境を生み出す。会話は速く、ノイズが多く、感情的で、スラングや文脈参照で満たされている。

リアルタイムで遊び心のあるトークと真正の嫌がらせを区別するには、単に転写するだけで十分ではない。Modulateが声のモデレーションシステム、ToxModを運用するにつれて、チームは複数のモデルを組み合わせてこれらのニュアンスを捉えるようになった。数十の専門化されたモデルを調整することが必要精度を達成するために不可欠となり、最終的にチームはアプローチを新しいアーキテクチャフレームワークに正式化することになった。

Velma 2.0は、このアーキテクチャをゲームの範囲を超えて一般化する。今日では、Modulateの企業プラットフォームを動かしており、さまざまな業界の会話を数百万件分析して不正行為、虐待的な行動、顧客の不満、異常なAI活動を特定している。

基礎モデルへの挑戦

この発表は、企業がAI戦略を再評価している時期に来ている。大量の投資にもかかわらず、多くのAIイニシアチブが本格的な導入に至らず、または持続的な価値を提供できない。一般的な障害として、ハルシネーション、推論コストの増加、不透明な意思決定、AIの洞察を運用ワークフローに統合する困難が挙げられる。

アンサンブルリスニングモデルはこれらの問題に直接対処する。単一の大規模モデルの代わりに、多くの小さな目的のあるモデルに依存することで、ELMは運用コストが低く、監査が容易で、解釈が容易になる。各出力は特定の信号に戻ることができ、組織はなぜ特定の結論に達したのかを理解できる。

このレベルの透明性は、黒箱的な決定が受け入れられない規制されたまたはリスクの高い環境で特に重要である。Modulateは、ELMを大規模な言語モデルに代わるものではなく、企業グレードの声のインテリジェンスに適したアーキテクチャとして位置付けている。

スピーチトゥテキストを超えて

Velma 2.0の最も先進的な側面の1つは、何が言われるのかではなく、どのように言われるのかを分析する能力である。これには、合成または擬似的な声の検出が含まれるが、これは声生成技術がよりアクセスしやすくなっていることから、企業にとって増大する懸念事項となっている。

声クローニング技術が向上するにつれて、企業は不正行為、身分のすり替え、ソーシャルエンジニアリングに関連するリスクに直面する。Velma 2.0は、アンサンブルに合成音声検出を直接組み込むことで、真正性をコアシグナルとして扱う。

システムの行動モデリングも、事前の洞察を可能にする。読み上げている場合、苛立が高まっている場合、または対話が対立に向かっている場合を識別できる。这些機能により、組織はより早く、より効果的に介入できる。

企業AIの新しい方向

Modulateは、アンサンブルリスニングモデルを、従来の信号処理パイプラインや大規模な基礎モデルとは異なる、新しいAIアーキテクチャのカテゴリとして説明している。根底にある洞察は、複雑な人間の相互作用は、無理なスケーリングではなく、調整された専門化によってよりよく理解されるというものである。

企業が説明責任のある、効率的な、そして実際の運用ニーズと一致したAIシステムを求めるにつれて、アンサンブルリスニングモデルは、インテリジェンスが多くの焦点を当てたコンポーネントから構成される未来を示唆している。Velma 2.0が本格的な導入環境で稼働している今日、Modulateは、このアーキテクチャの転換が、声のモデレーションや顧客サポートを超えて共鳴するだろうと賭けている。

AIの次の大きな進歩は、より激しく計算するのではなく、より注意深く傾聴することから来るかもしれないと示唆している。

Antoine Tardif, CEO & Founder of Unite.AI

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。

Unite.AI