Connect with us

aiOla、QUASARを導入してスピーチ認識のプロダクションでの働き方を再考する

人工知能

aiOla、QUASARを導入してスピーチ認識のプロダクションでの働き方を再考する

mm

aiOlaは、QUASARを発表しました。これは、企業の音声AIで最も根深い問題の1つである、現実の状況でのスピーチ認識のパフォーマンスの不一致を解決するために設計されたプラットフォームです。顧客を単一の自動スピーチ認識(ASR)プロバイダーにロックインさせるのではなく、QUASARは、各オーディオインタラクションを、最も優れたパフォーマンスを発揮する可能性のあるASRエンジンに動的にルーティングする、インテリジェントゲートウェイとして機能します。

このシフトは重要です。スピーチは、コンタクトセンター、コンプライアンス、分析、検索、そして増加する、自律的なAIエージェントのワークフロー全体で、AI駆動のワークフローにおける主要な入力になります。ベンチマークスコアはASRの選択を導くことが多いですが、プロダクション環境は、方言、背景ノイズ、ドメイン固有の用語、ネットワーク品質の変動などによって支配されており、これらの要因は、認識の精度を1つのインタラクションから次のインタラクションに大きく変化させる可能性があります。

なぜ一元的なASRは拡大時に崩壊するのか

今日の多くの企業は、ASRを静的なインフラストラクチャの決定として展開しています。単一のプロバイダーが集約ベンチマークに基づいて選択され、ワークフローに深く埋め込まれています。実践では、これにより盲点が生じます。クリーンな読み上げスピーチで優れたエンジンは、方言のある話者や業界重視の語彙で苦労する可能性があります。別のエンジンは、うるさいオーディオをうまく処理するかもしれませんが、コンプライアンスや請求書に重要な固有名詞や数字のシーケンスを逃す可能性があります。

これらのギャップを解決するためにプロバイダーを切り替えることは、高価で破壊的であり、通常、再トレーニング、再検証、および運用ダウンタイムを必要とします。一方で、新しいASRモデルと更新は、ほとんどの組織がテストして採用する能力を上回るペースでリリースされています。結果として、コンテナ率が低下し、要約が不正確になり、分析が弱くなり、品質保証のオーバーヘッドが増加します。すべてのトランスクリプションエラーによって引き起こされるのです。これらのエラーは避けられる可能性がありました。

QUASARのアーキテクチャの内部:ASRをダイナミックな問題として扱う

QUASARは、スピーチ認識をリアルタイムの最適化課題としてアプローチします。各受信オーディオ要求は、トランスクリプションの前に評価され、話者特性、音響条件、ドメインコンテキストなどの要因が考慮されます。この評価に基づいて、システムは、特定のインタラクションで最も高品質の結果を提供する可能性のあるASRエンジンにオーディオをルーティングします。

技術的には、QUASARは、商用クラウドAPI、セルフホストモデル、およびカスタムASRデプロイ全体で機能できるオーケストレーションレイヤーとして機能します。この抽象化により、企業は新しいエンジンを実験し、コストと品質のバランスをとり、長期的なベンダーロックインを回避することができ、ダウンストリムアプリケーションを変更する必要はありません。

コアには、ASRオプションをリアルタイムで評価してランク付けする、無監視のメカニズムがあります。単に歴史的な平均値に頼るのではなく、システムはライブ条件から継続的に学習し、環境、話者、およびユースケースが進化するにつれて、トランスクリプションの決定が適応することを可能にします。

現実のオーディオ条件でのパフォーマンス

クリーンな読み上げスピーチ、プロのトーク、方言のある、うるさい、ドメイン重視の財務オーディオなど、6つの多様なベンチマークデータセットを対象とした内部評価では、QUASARは、88.8%の全体的な精度で、または結果が実質的に同等の場合に、最も優れたパフォーマンスを発揮するASRオプションを選択しました。クリーンなスピーチでは、精度は97%に達し、方言、ノイズ、専門用語のあるオーディオでは、79〜88%の範囲に留まりました。

これらの結果は、重要な洞察を強調しています。単一のASRエンジンがすべてのシナリオで一貫して勝つことはないが、インテリジェントなルーティングは、多くのエンジンの強みを捉えることができます。

音声としての生きたインフラストラクチャの有効化

固定プロバイダーからのスピーチ認識の品質を切り離すことで、QUASARは、aiOlaが「生きたインフラストラクチャ」と呼ぶものに、ASRを変換します。企業は、インタラクションレベルのトランスクリプションパフォーマンスに関する詳細な可視性を獲得し、ユースケースに応じて、精度、コスト、または待ち時間を最適化する能力を獲得します。

このアプローチは、新しい地域や業界への拡大をも加速します。単一のベンダーが言語、方言、または業界固有の語彙をサポートするのを待つのではなく、組織は、トラフィックを、今日そのニッチに最も適したエンジンにルーティングできます。さらに、ベターなオプションが現れるにつれて切り替えることができます。

aiOlaの音声駆動ワークフローのより広いビジョン

QUASARは、aiOlaの企業システムの自然なインターフェイスとしての音声を実現する、より広い使命を構築しています。同社の特許取得モデルは、標準のスピーチツーテキストを超えて、音声認識とワークフローのインテリジェンスを組み合わせ、音声入力をリアルタイムの構造化データに変換します。これにより、手作業でのデータ入力がボトルネックとなっている重要な業界全体で、ハンズフリーのオートメーションが可能になります。

5,800万ドルの資金提供と研究主導のチームによって支えられ、aiOlaは、音声を単なる入力モダリティではなく、AI駆動の運用の基盤となるインフラストラクチャとして位置付けます。QUASARでは、同社はそのビジョンを、ASRレイヤーそのものに拡大しています。スピーチ認識を大規模に展開する方法について、長年にわたる仮定に挑戦しています。

AIエージェントや企業システムで音声が主なインターフェイスになるにつれて、ダイナミックでコンテキストに応じたスピーチ認識は不可欠になる可能性があります。QUASARの導入は、静的なモデル選択から、適応性のある、パフォーマンス駆動型のオーケストレーションへの移行を示唆しています。これは、音声AIエコシステムがASRを消費する方法を再定義する可能性があります。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。