人工知能

Vikrant Tomar, CTO and Founder of Fluent.ai – Interview Series

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, は、Fluent.ai の CTO および創設者です。Fluent.ai は、デバイス OEM とサービスプロバイダー向けの音声認識と音声ユーザーインターフェイスソフトウェアです。

音声認識の音響モデリングを研究するきっかけとなったのは何ですか?

実際、デバイスと人間が会話するのと同じように話すことができるというビジョンが私にとって魅力的でした。私は、学部の最終年時に音声認識を研究し始めました。このとき、私は研究に興味を持ち始め、音声認識のコースと関連する研究プロジェクトを受講しました。この研究により、私は InterSpeech カンファレンスで研究論文を発表することができました。InterSpeech カンファレンスは、音声認識分野で最大で最も評価の高いカンファレンスの 1 つです。この経験が、私に音声認識研究を長期的な目標とする動機を与えました。したがって、博士課程に進むことを決めました。

2015 年に Fluent.ai を立ち上げました。スタートアップの創設ストーリーを共有できますか?

私は長い間、起業家の気持ちを持っていました。大学時代、2 人の友人と一緒に会社を設立しようとしましたが、様々な理由で失敗しました。McGill 大学での博士課程期间、モントリオールのスタートアップシーンを観察していました。このとき、TandemLaunch というスタートアップファウンドリーと出会いました。ここで Fluent.ai を創設しました。博士課程の終わり頃で、私は再び起業を真剣に考えるようになりました。研究や仕事の経験を通じて、他の音声研究グループと関わる中で、私はほとんどの経験が、特定の方法で音声認識を行うことに焦点を当てていたことを実感しました。つまり、音声からテキストへの転写と затем自然言語処理への移行でした。しかし、このアプローチでは、使いやすさの面でギャップが生じました。話者数の少ない言語の場合、モデルを開発するために必要なデータ量は非常に多く、費用対効果が悪いため、別々のモデルを開発することは実行可能ではありません。また、多くの方言や言語には明確な書き言葉がないことから、私の家族でも、私が開発したツールを使用することができませんでした（彼らはヒンディー語の方言を話します）。これらを考慮して、私はデータ量を減らすことができる、またはエンドユーザーが自分でモデルをトレーニングまたは更新できるような、異なる方法で音声モデルを作成することを考えるようになりました。KU Leuven University (KUL) で行われた研究がこれらの要件を満たすことができると私は知っていました。KUL からの技術の一部を組み込むことで、現在の Fluent.ai の基礎を形成することができました。

Fluent.ai の直感的な音声認識ソリューションについて詳しく説明できますか?

Fluent.ai の音声認識ソリューションは、人間が言語を獲得し、認識する方法にインスパイアされています。従来の音声認識システムは、入力音声をテキストに転写し、そのテキストから意味を抽出します。しかし、人間は音声を認識する際にこのプロセスを経ていません。例えば、子供が読み書きを学ぶ前に、子供はまだ書き言葉を知らないにも関わらず、会話をすることができます。同様に、Fluent のディープニューラルネットワークベースのモデルは、テキストへの転写を必要とせずに、音声から直接意味を抽出することができます。技術的には、これは真の Spoken Language Understanding です。このアプローチにはいくつかの利点があります。従来の音声認識は、複数のモジュールが個別にトレーニングされてから組み合わされるため、非最適解となり、発音、アクセント、ノイズ、背景条件などの変化に対して結果が不安定になります。Fluent の自動インテント認識 (AIR) システムは、エンドツーエンドで最適化されており、完全にニューラルネットワークベースのアーキテクチャです。すべてのモジュールが共同でトレーニングされて最適な解を提供します。また、従来の音声認識システムに一般的に存在する、いくつかの計算コストの高いモジュールを削除することができます。これにより、低消費電力のマイクロコントローラーで 50 MHz で動作し、40KB の RAM でのみ動作する低消費電力の音声認識システムを作成することができます。さらに、私たちの Spoken Language Understanding ベースの AIR システムは、言語間の類似性を独自の方法で利用して、同じモデル内で複数の言語を認識するなどの機能を提供することができます。

周囲のノイズを克服するための AI の課題について説明できますか?

ノイズは音声認識の最大の課題の 1 つです。ノイズが実際に大きな課題となるのは、多種多様なノイズが存在し、それぞれが音声のスペクトルに異なる影響を与えるためです。時には、ノイズはマイクの応答にも影響を及ぼすことがあります。多くの場合、音声源とノイズ源を分離することは不可能です。ノイズは、音声スペクトルに含まれる情報をマスキングすることもあれば、完全に有用な情報を除去することもあります。どちらの場合も、精度が低下します。一定のノイズタイプ（例：ファンのノイズ）を除去することは簡単ですが、バックグラウンドで人々が話しているようなノイズや音楽などのノイズタイプは、音声スペクトルへの影響が大きいため除去が難しいです。

Edge AI を定義し、Fluent.ai がこの種の AI をどのように使用しているかについて説明できますか?

Edge AI は、AI アプリケーションを低消費電力のデバイスに移行するさまざまな方法をカバーするための総称です。Edge AI では、エッジデバイスが自ら特定の知能計算を実行するケースが増えています。Fluent では、エッジに高品質の Spoken Language Understanding をもたらすことに焦点を当てています。低消費電力のコンピューティングデバイスが、クラウドベースのサーバーにデータを送信せずに、入力音声を自ら認識できる効率的なアルゴリズムを開発しました。利点は 2 つあります。まず、ユーザーのプライバシーがクラウドへの音声データのストリーミングと保存によって損なわれません。2 番目に、このアプローチにより、音声データと応答がクラウドサーバーとデバイスの間を移動する必要がないため、待ち時間が短縮されます。

どのような他の機械学習技術が使用されていますか?

私たちの主な焦点は、音声認識のディープラーニングベースのアプローチです。新しい、以前知られていなかった AI モデルアーキテクチャを発見するために、強化学習 (RL) 方法、例えば NASIL[1] を使用しています。さらに、AutoML を使用して、事前に決定された AI モデルを調整し、さまざまなアプリケーションに対して信頼性の高い結果を達成し、信頼性と再現性を高めています。モデル圧縮やその他の数学的アプローチも、モデル性能の最適化に役立ちます。

次の 5 年間で、自然言語理解と自然言語処理がどのように進化すると思いますか?

私は、システムがより自然なインタラクションを提供するように進化することを予想しています。最近の進歩にもかかわらず、現在のシステムは、単純な質問に答えたり、音声アクティベートのインターネット検索を実行したりすることしかできません。より多くのソリューションが、単に音声ベースの検索エンジンとして機能するのではなく、1 つの質問に完全に答えることができるようになるでしょう。

もう 1 つの興味深い側面は、プライバシーです。現在の一般的なソリューションは、主にインターネット接続デバイスで、すべてのユーザー音声データをクラウドサーバーにストリーミングします。しかし、これらのソリューションのプライバシーは問題になっています。産業用、プロフェッショナルオーディオ、ホスピタリティ、会議ルームなどの分野で、音声 UI の応用が拡大しています。これらのアプリケーションでは、プライバシーが重要な要件です。したがって、現在の接続ソリューションは不十分です。したがって、エッジ AI またはデバイス内で自然言語ソリューションを実行するソリューションが多く見られるようになるでしょう。

前述のように、音声および自然言語ソリューションは、世界人口の多くに利用できないままです。少量のデータでトレーニングできる新しいタイプの AI モデルを作成するための作業が進んでいます。これにより、開発コストが削減され、話者数の少ない言語のモデル開発が可能になります。同様に、同じモデル内で複数の言語を認識できるソリューションが見られるようになるでしょう。全体として、多言語 AI モデルが、ユーザーの質問に彼らの母国語で答えることができるように、より多くの展開を見られるでしょう。

Fluent.ai についてさらに共有したいことはありますか?

音声技術は、過去数年間で大きな進歩を遂げてきましたが、まだ成長の余地があります。Fluent.ai では、既存のテクノロジーの新しいユースケースを探索し、継続的に内部で革新を起こしています。COVID-19 のパンデミックにより、高接触エリア（エレベーターのボタン、レストランのキオスクなど）に対する感受性が高まり、新しい需要が生まれました。Fluent.ai は、これらのギャップを埋めることを目指しています。私たちのソリューションは多言語対応であり、より包括的です。また、オフラインで動作するため、追加のプライバシー層を提供します。これらの機能は、音声テクノロジーの将来であると考えられています。

素晴らしいインタビュー、詳しくは Fluent.ai を訪問してください。

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Unite.AI

Vikrant Tomar, CTO and Founder of Fluent.ai – Interview Series

You may like