インタビュー
ニコラ・ムルシッチ、PolyAIの共同創設者兼CEO – インタビュー・シリーズ

ニコラ・ムルシッチは、PolyAIの共同創設者兼CEOです。PolyAIは、自動化されたカスタマーサービス向けのエンタープライズレディなボイスアシスタントを提供する先駆的なサプライヤーです。
あなたがAIに惹かれたきっかけは何でしたか?
私は幼い頃から数学とコンピューターサイエンスに興味を持っていました。ケンブリッジ大学での研究期间中に、スティーブ・ヤングやズービン・ガハラマニのような有名な機械学習研究者と一緒に仕事をする機会がありました。スティーブは私を彼のスタートアップ、VocalIQに誘って、スピーチ対話システムの開発に取り組むよう促しました。後々、私はスティーブの下で、異なるユースケースや言語に対応するデータ駆動の言語理解モデルを構築するためのPh.D.を取得しました。会話AIは非常に難しく、複雑な分野であり、まだ多くの科学的および技術的なブレークスルーが待っています。
2017年に、あなたは会話AI会社のPolyAIを立ち上げました。PolyAIの創設ストーリーについてお話しください。
私の共同創設者であるショーン・ウェン、エディ・スーと私は、ケンブリッジ大学でPh.D.を取得しました。私たちは数年間、対話システムに取り組んできたのですが、当時私たちが扱っていたような高度なシステムは、商業的な応用が非常に限られていることを実感しました。そこで、私たちは現実世界で役立つ会話AIソリューションを作るために一緒に集まりました。私たちは、真正に会話的な、マルチターン、トランザクション的な対話システムが、日常生活で現実の人々とやり取りできる機会を見出しました。
カスタマーサービスに焦点を当てました。なぜなら、当時の技術的能力と顧客の要件がよく一致していたからです。
使用されている機械学習と自然言語処理技術についてお話しください。
私たちの主な秘密は、異なる独自のエンコーダーモデルです。これらは数十億の自然な会話で事前トレーニングされており、スラングやイディオムが使用されている場合でも、意図を抽出できます。これは電話でのコミュニケーションにとって非常に重要です。顧客はキーワードで話しません。彼らは物語を語り、途中で質問したり、会話の流れを制御しようとします。
最近、私たちはConVExモデルを発表しました。これは、エンティティを抽出するための非常にデータ効率の良いモデルで、会話から値を正確に抽出できます。
私たちのASRオーケストレーションプロセスには、スピーチ認識プラットフォームを微調整して、異なるアクセントによるノイズを中和することが含まれます。また、さまざまなコンテキストに合わせて微調整します。
私たちは、事前に設計されたユースケースを備えたロバストな対話ポリシーライブラリも開発しました。これには、一般的なカスタマーサービストランザクションがすべて含まれており、クライアントのために新しいボイスアシスタントを非常に迅速に立ち上げることができます。
あなたの意見では、良い会話AI製品と悪い会話AI製品を区別するのは何ですか?
良い製品は、ユーザーが何を意味するのかを一貫して理解し、ユーザーが同じことを繰り返すことはありません。電話はしばしば騒々しい環境で行われるため、製品は入力の混乱に耐性を持たなければなりません。ブランドが大きな市場にリーチするにつれて、製品はさまざまなアクセントや意図の表現方法を理解できなければなりません。これら両方の要件を満たすには、スピーチ認識能力、ロバストな意図分類、エンティティ抽出が保証されていなければなりません。
素晴らしい製品は、ユーザーにとって積極的に関与するものです。ユーザーの思考の流れに従い、複雑で日常的なケースを処理できます。ユーザーは複数の意図や情報を同時に共有したり、コンテキストをジャンプしたりすることがあります。そうするには、ロバストなマルチラベル分類とコンテキスト管理が必要です。
関与する製品は、人間的な特徴を示すべきですが、不気味にロボット的なものではなく、スナップ的なインタラクション、真正な声、継続的なフィードバックのヒント、ランダム性、不完全性を持たせます。
最後に、素晴らしい会話AI製品は、ユーザーがどこにいるかに関係なく、シームレスでプラットフォーム固有のエクスペリエンスを提供し、ボイス、SMS、チャット、またはソーシャルメッセージングプラットフォームを横断します。インタラクションのパラダイムは、各コミュニケーションプラットフォームの特異性を受け入れるべきです。
会話AIを使用することによる企業の利点について説明してください。
カスタマーエクスペリエンスは非常に重要であり、リテンションの重要な要因となっています。最優先事項は、顧客が必要なことを簡単にできるようにすることです。
電話はまだ顧客が会社に連絡する際の最も好まれるチャネルです。すべてのカスタマーサービスインタラクションの約65%は電話で行われます。COVID-19のパンデミック期間中、コンタクトセンターは前例のないレベルの顧客サポートに追い込まれています。
もちろん、素晴らしいエクスペリエンスを提供することで、顧客は好みに応じてコミュニケーションをとることができます。テキストベースのチャネルを好む人にとって、ブランドが同じレベルのエクスペリエンスを提供することを容易にします。
顧客が何を伝えようとしているのかを検出することはどれくらいの挑戦ですか?
ボイスチャネルを通じて顧客を理解するには、いくつかの課題があります。ユーザーの意味を正確に、一貫して理解するには、多くのコンポーネントがうまく機能している必要があります。
まず、スピーチ認識は難しいです。特に、スピーカーフォンで話している場合、または交通渋滞やトンネルの中を運転している場合など、騒々しい環境から電話がかかってきた場合です。スピーチ認識は、異なるアクセントや方言の地域でも難しいです。私たちは、コンテキストに応じてスピーチ認識モデルをバイアスするための効果的な方法を開発しました。
ConveRTモデルは、膨大な量の会話データでトレーニングされているため、人間と同様に、言葉を1、2つ聞き逃しても何を言っているのかを理解できます。
別の考慮事項は、ユーザーが同時に複数のアクションを行いたい場合です。たとえば、「私は私のカードを失いました。使用されたかどうかを教えてください、およびブロックしてください」。この場合、モデルは2つの意図を認識し、論理的な順序でそれらに応じる必要があります。
モデルは、顧客が提供するエンティティを抽出して理解することもできなければなりません。たとえば、「土曜日のランチに、私、妻、2人の子供のためにテーブルはありますか?」表面的な意図はテーブルの可用性を確認することですが、モデルは日付(土曜日)や人数(4人)などの情報を抽出する必要があります。
最後に、会話は常に線形的ではありません。顧客は、ボイスアシスタントのプロンプトとは無関係な質問で話を遮ることがあります。したがって、アシスタントは、特定の入力に「耳を傾ける」必要がありながらも、FAQやユーザーが前に提供した情報の変更などの異なるトリガーにも対応できなければなりません。
PolyAIで会話AIボットを立ち上げたいと考えている会社にとって、プロセスとタイムラインはどのようになりますか?
私たちは、顧客エクスペリエンスの目標、重要なメトリクス、サポートプロセスを特定して、顧客と一緒に発見を行います。ここで、ボイスアシスタントが顧客を導く必要のあるジャーニーをスコープします。これに私たちの事前トレーニング済みのConveRTモデルを加えると、クライアントから膨大な会話データを必要としません。
ここから、クライアントの入力がほとんど不要なボイスアシスタントを開発できます。つまり、社内のITチームへの負担は非常に少ないです。
複雑さにもよりますが、2週間でProof of Valueを立ち上げ、2ヶ月で本格的なデプロイを行うことができます。
素晴らしいインタビュー、詳しく知りたい読者はPolyAIを訪問してください。












