存根 用于呼叫中心对话的基于人工智能的测谎仪 - Unite.AI
关注我们.

人工智能

用于呼叫中心对话的基于人工智能的测谎仪

mm
更新 on

德国的研究人员利用机器学习创建了一个音频分析系统,主要用作基于人工智能的测谎仪,供客户与呼叫中心和支持人员进行音频通信。

系统 使用由 40 名学生和教师专门创建的录音数据集,这些录音由 98 名学生和教师就争议话题(包括死刑和学费的道德问题)进行辩论。该模型在使用卷积神经网络 (CNN) 和长短期记忆 (LSTM) 的架构上进行训练,报告的准确率达到 XNUMX%。

尽管该工作的既定意图引用了客户沟通,但研究人员承认它实际上是作为通用测谎仪运行的:

“研究结果适用于广泛的服务流程,特别适用于通过电话进行的所有客户互动。 所提出的算法可以应用于任何有助于代理了解客户是否说出她/他的信念的情况。

例如,这可能会减少可疑的保险索赔或工作面试中的不实陈述。 这不仅可以减少服务公司的运营损失,还可以鼓励客户更加诚实。”

数据集生成

由于缺乏合适的公开可用的德语数据集,来自新乌尔姆应用科学大学 (HNU) 的研究人员创建了自己的源材料。 大学和当地学校张贴了传单,选出了 40 名年龄至少为 16 岁的志愿者。志愿者获得了 10 欧元的亚马逊代金券。

这些会议是在辩论俱乐部模式下进行的,旨在使意见两极分化并围绕煽动性话题引起强烈反应,有效地模拟了电话中有问题的客户对话中可能出现的压力。

志愿者必须在公共场合自由发言三分钟的主题是:

– 德国是否应该重新实行死刑和公开处决?
– 德国是否应该收取费用覆盖的学费?
– 海洛因和冰毒等硬性毒品的使用是否应该在德国合法化?
– 德国是否应该禁止提供不健康快餐的连锁餐厅,例如麦当劳或汉堡王?

预处理

该项目倾向于使用自动语音识别 (ASR) 方法来分析声学语音特征,而不是使用 NLP 方法(在语言层面上分析语音,并直接从语言的使用中推断出话语的“温度”)。

预处理提取的样本最初通过梅尔频率倒谱系数(MFCC)进行分析,这是一种可靠的、较旧的方法,在语音分析中仍然非常流行。自 1980 年首次提出该方法以来,它在识别语音中的重复模式方面特别节省计算资源,并且能够适应各种级别的音频捕获质量。由于会议是在 2020 年 XNUMX 月的锁定条件下通过 VOIP 平台进行的,因此拥有一个可以在必要时解决质量较差的音频的录制框架非常重要。

有趣的是,前面提到的两个技术限制(1980 世纪 XNUMX 年代初期有限的 CPU 资源和拥塞网络环境中 VOIP 连接的怪异)在这里结合起来,创建了一个实际上“技术稀疏”的模型,该模型(显然)异常稳健在缺乏理想的工作条件和高级资源的情况下 - 模仿最终算法的目标领域。

此后进行快速傅里叶变换(FFT)算法应用于音频片段,以在最终映射到梅尔音阶之前提供每个“音频帧”的频谱轮廓。

培训、结果和局限性

在训练过程中,提取的特征向量被传递到时间分布卷积网络层,进行扁平化,然后传递到 LSTM 层。

AI 真值检测器的训练过程架构。 资料来源:https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

AI 真值检测器的训练过程架构。 资料来源:https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

最后,所有神经元相互连接,以便生成二进制预测,判断说话者是否在说他们认为是真实的话。

在训练后的测试中,系统在意图识别(语音内容可能无法反映意图)方面的准确率达到了98.91%。 研究人员认为,这项工作凭经验证明了基于语音模式的信念识别,并且无需 NLP 式的语言解构即可实现这一目标。

就局限性而言,研究人员承认测试样本很小。 尽管论文没有明确说明,但如果假设、架构特征和一般训练过程与数据过度拟合,低容量的测试数据可能会降低后续的适用性。 该论文指出,整个项目构建的八个模型中有六个在学习过程中的某个时刻出现了过度拟合,并且在推广模型参数集的适用性方面还有进一步的工作要做。

此外,这种性质的研究必须考虑到国家特征,论文指出,参与数据生成的德国受试者可能具有无法直接跨文化复制的沟通模式——这种情况可能会出现在任何此类研究中。任何国家。