記事執筆
PolyAI 共同創設者兼 CEO ニコラ・ムルクシッチ – インタビュー シリーズ

ニコラ・ムルクシッチは、の共同創設者兼CEOです。 ポリAIは、自動化された顧客サービスのためのエンタープライズ対応の音声アシスタントの大手サプライヤーです。
最初に AI に惹かれたのは何ですか?
私は幼い頃から数学とコンピューターサイエンスに興味がありました。ケンブリッジでの在学中に、Steve Young や Zoubin Ghahramani など、数人の主要な機械学習研究者と協力する機会がありました。スティーブは私に、彼のスタートアップである VocalIQ に参加して音声対話システムの構築に取り組むよう説得してくれました。その後、私は Steve と一緒に博士号を取得することになり、さまざまなユースケースや言語にまたがって機能するデータ駆動型の言語理解モデルの構築に取り組みました。会話型 AI は非常に困難で複雑な分野であり、多くの科学的および工学的な画期的な進歩がまだ私たちの前にあり、それ以来私は忙しくさせられています。
2017 年に会話型 AI 企業 PolyAI を立ち上げましたが、PolyAI の誕生の経緯について話していただけますか?
私の共同創設者であるショーン・ウェン、エディ・スーと私は、同時にケンブリッジで博士号を取得しました。 私たちは何年にもわたって対話システムに取り組んできましたが、私たちが慣れ親しんでいた種類の高度なシステムには商業用途がほとんどないことにすぐに気づきました。 そこで私たちは、現実世界で役立つ会話型 AI ソリューションを作成するために協力しました。 私たちは、日常生活の中で現実の人々と対話できる、真の会話型、マルチターン型、トランザクション型の対話システムの機会を見出しました。
現在の技術力とお客様のご要望がよくマッチしていると判断し、カスタマーサービスに注力しました。
使用されている機械学習および自然言語処理テクノロジーについていくつか説明していただけますか?
私たちの主な秘訣は、さまざまな独自のエンコーダー モデルのセットです。 何十億もの自然な会話で事前トレーニングされているため、入力音声にスラングや慣用句が使用されている場合でも、意図を抽出できます。 これは電話でのコミュニケーションにとって非常に重要です。 顧客はキーワードで話しません。 彼らは話をしたり、話を中断したり、質問したりしますが、一般的には会話の主導権を握りたいだけです。
私たちは最近、会話から値を正確に抽出できる、非常にデータ効率の高いエンティティ抽出ツールである ConVEx モデルを発表しました。
当社の ASR オーケストレーション プロセスには、音声認識プラットフォームの微調整を使用して、さまざまなアクセントによって生じるノイズを中和するだけでなく、さまざまなコンテキストに合わせた微調整も含まれます。
また、すべての一般的な顧客サービス トランザクションを含む、事前に設計されたユース ケースを備えた非常に堅牢な対話ポリシー ライブラリも開発しました。そのため、クライアント向けに新しい音声アシスタントを非常に迅速に起動できます。
優れた会話型 AI 製品と不十分な会話型 AI の違いは何だと思いますか?
優れた製品はユーザーが何を意味するのかを一貫して理解しており、ユーザーに同じことを繰り返させることはありません。 通話は騒がしい環境で行われることが多いため、製品には乱雑な入力に対する耐性が必要です。 ブランドが大規模市場に参入するにつれて、製品はさまざまなアクセントや意図を表現する方法を理解する必要があります。 どちらの製品も、堅牢な音声認識機能、復元力のある意図分類、およびエンティティ抽出を保証する製品を必要とします。
優れた製品はユーザーを積極的に惹きつけるものです。 ユーザーの思考の流れに従い、ユーザーが複数の意図や情報を同時に共有したり、異なるコンテキスト間を行き来したりする可能性のある複雑な日常のケースに対処できます。 それには、堅牢なマルチラベル分類とコンテキスト管理が必要です。
魅力的な製品は、不気味であったりロボット的すぎたりすることなく、人間の特徴を表現します。 これは、きびきびとしたインタラクション、本物の声、継続的なフィードバックの合図、そしてある程度のランダム性と不完全性を意味します。
最後に、優れた会話型 AI 製品は、どこにいてもユーザーと関わり、音声、SMS、チャット、ソーシャル メッセージング プラットフォームにまたがるシームレスなプラットフォーム固有のエクスペリエンスを提供します。 インタラクション パラダイムは、各通信プラットフォームの特性を考慮する必要があります。
企業が問い合わせをチャット ボットに集中させるのではなく、会話型 AI を使用する利点は何ですか?
顧客エクスペリエンスは非常に重要であり、顧客維持の重要な推進力となっています。 最優先事項は、顧客が必要なことを簡単に行えるようにすることです。
ほとんどの顧客が企業に連絡する際に好んで使用するチャネルは依然として電話です。 顧客とのやり取りの最大 65% は依然として電話で行われています。 新型コロナウイルス感染症(COVID-19)のパンデミック中、コンタクト センターはこれまで以上に多くの顧客からサポートを求められ、極限状態に追い込まれています。
もちろん、優れたエクスペリエンスでは顧客が好きなようにコミュニケーションできるため、非同期コミュニケーションを好む人のために、ブランドがテキスト チャネル全体で同じレベルのエクスペリエンスを簡単に提供できるようにします。
顧客が言おうとしていることの意図を検出することは、どの程度の課題ですか?
音声チャネルを通じて顧客を理解するには、多くの課題があります。 ユーザーの意味を正確かつ一貫して理解するには、多数のコンポーネントが適切に連携する必要があります。
まず、音声認識は、特にスピーカーフォンを使用しているときや、渋滞中やトンネルの中を運転しているときなど、騒がしい環境から電話をかけている場合には困難です。 アクセントや方言が異なる地域では、音声認識が困難になる場合もあります。 私たちは、音声認識を最適化するために、特定のコンテキストに合わせて音声認識モデルにバイアスをかける効果的な方法を開発しました。
ConveRT モデルは膨大な量の会話データに基づいてトレーニングされているため、人間がたとえ XNUMX ~ XNUMX 語聞き逃しても、誰かの言うことを理解できるのと同じように、弱い信号の意図を検出することができます。
もう XNUMX つの考慮事項は、ユーザーが一度に複数のアクションを実行したい場合を理解することです。 たとえば、誰かが「カードを紛失しました。」と言うかもしれません。 使用されているかどうかを知らせてブロックしていただけますか?」 この例では、モデルは XNUMX つの意図を認識し、意味のある順序でそれらの意図に基づいて動作する必要があります。
モデルは、顧客がボランティアとして提供しているエンティティを抽出して理解できる必要もあります。 たとえば、「私、妻、そして 2 人の子供たちのために土曜日のランチを用意してもらえますか?」 ここでの表面レベルの目的はテーブルの空き状況を確認することですが、モデルでは日付 (土曜日) と人数 (4 人)、およびその他の関連する可能性のある情報 (おそらくレストランは子供のみが許可されています) を抽出する必要があります。エリアにあり、バーには着席できません)。
最後に、会話は必ずしも直線的であるとは限りません。 顧客は音声アシスタントのプロンプトに関係のない質問で中断する可能性があるため、アシスタントは、FAQ やユーザーが以前に提供した情報の変更など、さまざまなトリガーを受け入れながら、あるタイプの入力を「聞く」ことができる必要があります。
PolyAI を使用して会話型 AI ボットを立ち上げたいと考えている企業には、どのようなプロセスとスケジュールが必要ですか?
私たちは、ビジネスに具体的な影響を与える音声アシスタントを提供するためにここにいます。 そのため、私たちはすべての取り組みを発見から開始し、クライアントが CX の目標、主要な指標、サポート プロセスを特定して明確にできるように支援します。 ここで、音声アシスタントが顧客をガイドするために必要な行程を概観します。 これに、事前トレーニングされた ConveRT モデルを加えれば、クライアントからの大量の会話データは必要ありません。
そこから、クライアントからの入力をほとんど必要とせずに音声アシスタントを開発できるため、社内の IT チームにはまったく負担がかかりません。
複雑さにもよりますが、価値証明を最短 2 週間で立ち上げ、本格的な展開を 2 か月で開始できます。
素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。 ポリAI.