Anderson 视角

基于人工智能的电话中心对话谎言检测器

mm

德国的研究人员使用机器学习创建了一个音频分析系统,主要用于检测电话中心和支持人员与客户的音频通信中的欺骗。

系统使用了一组由40名学生和老师在辩论会上关于有争议的话题(包括死刑的道德和学费)的音频录音创建的数据集。该模型使用卷积神经网络(CNN)和长短期记忆(LSTM)架构进行训练,据报道其准确率达到98%。

虽然该工作的明确意图是客户通信,但研究人员承认它实际上是一个通用的谎言检测器:

‘研究结果适用于广泛的服务流程,特别适用于通过电话进行的所有客户交互。算法可以在任何情况下应用,例如当代理需要知道客户是否真诚地说话时。 ‘

‘例如,这可能会导致可疑的保险理赔或面试中的不真实陈述减少。这不仅可以减少服务公司的运营损失,还可以鼓励客户更加真实。 ‘

数据集生成

由于没有合适的德语公开数据集,来自纽伦堡应用技术大学(HNU)的研究人员创建了自己的数据集。在大学和当地学校张贴传单后,选择了40名至少16岁的志愿者。志愿者每人获得10欧元的亚马逊购物券。

会议采用辩论俱乐部模式,旨在使意见两极分化并引发强烈的反应,有效地模拟了电话中心可能出现的紧张情况。

志愿者必须在公共场合自由发言三分钟,讨论以下话题:

– 德国是否应该恢复死刑和公开处决?
– 德国是否应该收取学费?
– 德国是否应该将海洛因和冰毒等硬毒品合法化?
– 德国是否应该禁止麦当劳或汉堡王等快餐连锁店?

预处理

该项目偏爱自动语音识别(ASR)方法中的音频特征分析,而不是自然语言处理(NLP)方法(其中语音在语言层面进行分析,并直接从语言使用中推断出“温度”)。

预处理后的抽取样本最初通过梅尔频率倒谱系数(MFCC)进行分析,这是一种可靠的老方法,仍然在语音分析中很受欢迎。由于该方法首次提出于1980年,它在识别语音中的重复模式方面节省了计算资源,并且对各种音频质量水平具有鲁棒性。由于会议是在2020年12月的封锁期间通过VoIP平台进行的,因此拥有一个可以在必要时考虑音频质量差的录音框架是很重要的。

有趣的是,上述两个技术限制(20世纪80年代初期的CPU资源有限和VoIP连接在拥挤网络中的怪癖)在这里结合起来,创建了一个“技术稀疏”的模型,这个模型在没有理想工作条件和高级资源的情况下显得异常强壮——模拟了所需算法的目标领域。

然后,对音频段应用快速傅里叶变换(FFT)算法,以提供每个“音频帧”的频谱特征,然后映射到梅尔尺度。

训练、结果和局限性

在训练过程中,抽取的特征向量被传递到时间分布卷积网络层,展平,然后传递到LSTM层。

AI真相检测器的训练过程架构。来源:https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

AI真相检测器的训练过程架构。 来源:https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

最后,所有神经元都相互连接,以生成一个二元预测,即说话者是否说的是他们相信的真相。

在训练后的测试中,该系统在意图辨别方面达到98.91%的准确率(其中口头内容可能不反映意图)。研究人员认为,该工作在基于语音模式的信念识别方面具有实证意义,并且可以在不使用NLP风格的语言解构的情况下实现。

在局限性方面,研究人员承认测试样本较小。虽然该论文没有明确说明,但低体积的测试数据可能会在后续应用中降低适用性,如果模型的假设、架构特征和训练过程过度拟合数据。该论文指出,在整个项目中构建的八个模型中,有六个在学习过程的某个时候过度拟合,并且需要进一步工作来推广模型参数的适用性。

此外,这类研究必须考虑国家特征,该论文指出,参与数据生成的德国受试者可能具有其他文化无法直接复制的通信模式——这可能是任何此类研究在任何国家都会出现的情况。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai