スタブ コールセンターの会話用の AI ベースの嘘発見器 - Unite.AI
私達と接続

Artificial Intelligence

コールセンターの会話用の AI ベースの嘘発見器

mm
更新中 on

ドイツの研究者は、機械学習を使用して、顧客がコールセンターやサポート スタッフと音声通信する際に AI ベースの嘘発見器として機能することを主な目的とした音声分析システムを作成しました。

    は、死刑や授業料の道徳性など、論争の的となっている主題についての討論中に、40 人の生徒と教師が録音した特別に作成されたデータセットを使用しています。このモデルは、畳み込みニューラル ネットワーク (CNN) と長短期記憶 (LSTM) を使用するアーキテクチャでトレーニングされ、98% の精度率を達成したと報告されています。

この研究の意図は顧客とのコミュニケーションを引用していると述べられていますが、研究者らはそれが汎用の嘘発見器として効果的に機能することを認めています。

「この調査結果は幅広いサービスプロセスに適用でき、特に電話で行われるすべての顧客とのやり取りに役立ちます。」 提示されたアルゴリズムは、顧客が自分の信念に従って話しているかどうかをエージェントが知るのに役立つあらゆる状況に適用できます。

「これにより、例えば、疑わしい保険請求や就職面接での虚偽の発言が減少する可能性があります。 これにより、サービス会社の営業上の損失が軽減されるだけでなく、顧客がより誠実になるようになるでしょう。」

データセットの生成

ドイツ語で公開されている適切なデータセットがなかったため、ノイウルム応用科学大学 (HNU) の研究者たちは独自のソース資料を作成しました。 チラシは大学と地元の学校に掲示され、40 歳以上の 16 人のボランティアが選ばれました。ボランティアには 10 ユーロの Amazon クーポンが支払われました。

セッションは、意見を二極化し、扇動的な話題を中心に強い反応を引き起こすように設計されたディベートクラブモデルに基づいて実施され、問題のある顧客との電話での会話で発生する可能性のあるストレスを効果的にモデル化しました。

ボランティアが公の場で XNUMX 分間自由に話さなければならないトピックは次のとおりです。

–ドイツでは死刑と公開処刑を再導入すべきでしょうか?
– ドイツでは実費授業料を請求する必要がありますか?
– ドイツではヘロインや覚醒剤などのハードドラッグの使用を合法化すべきでしょうか?
–マクドナルドやバーガーキングなど、不健康なファストフードを提供するレストランチェーンはドイツで禁止されるべきでしょうか?

前処理

このプロジェクトでは、NLP アプローチ (音声が言語レベルで分析され、談話の「温度」が言語の使用から直接推測される) よりも、自動音声認識 (ASR) アプローチによる音響音声特徴の分析が好まれました。

前処理された抽出サンプルは、音声分析において依然として非常に人気のある信頼性の高い古い方法であるメル周波数ケプストラム係数 (MFCC) によって最初に分析されました。この方法は 1980 年に初めて提案されて以来、音声内で繰り返されるパターンを認識するという点でコンピューティング リソースを特に節約し、さまざまなレベルのオーディオ キャプチャ品質に耐性があります。セッションは 2020 年 XNUMX 月にロックダウン状況下で VOIP プラットフォームを介して実施されたため、必要に応じて低品質の音声を考慮できる録音フレームワークを用意することが重要でした。

興味深いのは、前述の 1980 つの技術的制限 (XNUMX 年代初頭の限られた CPU リソースと、混雑したネットワーク状況における VOIP 接続の偏り) がここで組み合わさって、事実上 (明らかに) 異常に堅牢な「技術的に疎な」モデルを作成していることです。理想的な労働条件と高レベルのリソースが存在しない場合、結果として得られるアルゴリズムのターゲット領域を模倣します。

その後、高速フーリエ変換 (FFT) アルゴリズムは、メル スケールへの最終マッピングの前に、各「オーディオ フレーム」のスペクトル プロファイルを提供するためにオーディオ セグメントに対して適用されました。

トレーニング、結果、限界

トレーニング中に、抽出された特徴ベクトルは時間分散畳み込みネットワーク層に渡され、平坦化されてから LSTM 層に渡されます。

AI 真実検出器のトレーニング プロセスのアーキテクチャ。 出典: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

AI 真実検出器のトレーニング プロセスのアーキテクチャ。 出典: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

最後に、話者が真実だと信じていることを言っているかどうかについての二値予測を生成するために、すべてのニューロンが互いに接続されます。

トレーニング後のテストでは、システムは意図の識別に関して最大​​ 98.91% の精度レベルを達成しました (話された内容が意図を反映していない可能性がある場合)。 研究者らは、この研究は音声パターンに基づく確信の識別を実証しており、これは NLP スタイルの言語の解体なしで達成できると考えています。

限界という点では、試験サンプルが少ないことを研究者らは認めている。 この論文では明示的に述べられていませんが、前提条件、設計された特徴、および一般的なトレーニング プロセスがデータに過剰適合した場合、少量のテスト データは後の適用性を低下させる可能性があります。 この論文では、プロジェクト全体で構築された XNUMX つのモデルのうち XNUMX つが学習プロセスのある時点で過剰適合しており、モデルに設定されたパラメーターの適用性を一般化するためにはさらに作業が必要であると指摘しています。

さらに、この種の研究では国民的特徴を考慮する必要があり、論文では、データの生成に関与したドイツ人被験者は文化を超えて直接再現できないコミュニケーションパターンを持っている可能性があると指摘しており、このような状況は、どのような研究でも発生する可能性が高い。どの国でも。