Anderson 视角

基于人工智能的电话中心对话谎言检测器

发布于 2021年7月27日

更新于 2026年5月24日

作者

Martin Anderson

德国的研究人员使用机器学习创建了一个音频分析系统，主要用于检测电话中心和支持人员与客户的音频通信中的欺骗。

该系统使用了一组由40名学生和老师在辩论会上关于有争议的话题（包括死刑的道德和学费）的音频录音创建的数据集。该模型使用卷积神经网络（CNN）和长短期记忆（LSTM）架构进行训练，据报道其准确率达到98%。

虽然该工作的明确意图是客户通信，但研究人员承认它实际上是一个通用的谎言检测器：

‘研究结果适用于广泛的服务流程，特别适用于通过电话进行的所有客户交互。算法可以在任何情况下应用，例如当代理需要知道客户是否真诚地说话时。 ‘

‘例如，这可能会导致可疑的保险理赔或面试中的不真实陈述减少。这不仅可以减少服务公司的运营损失，还可以鼓励客户更加真实。 ‘

数据集生成

由于没有合适的德语公开数据集，来自纽伦堡应用技术大学（HNU）的研究人员创建了自己的数据集。在大学和当地学校张贴传单后，选择了40名至少16岁的志愿者。志愿者每人获得10欧元的亚马逊购物券。

会议采用辩论俱乐部模式，旨在使意见两极分化并引发强烈的反应，有效地模拟了电话中心可能出现的紧张情况。

志愿者必须在公共场合自由发言三分钟，讨论以下话题：

– 德国是否应该恢复死刑和公开处决？
– 德国是否应该收取学费？
– 德国是否应该将海洛因和冰毒等硬毒品合法化？
– 德国是否应该禁止麦当劳或汉堡王等快餐连锁店？

预处理

该项目偏爱自动语音识别（ASR）方法中的音频特征分析，而不是自然语言处理（NLP）方法（其中语音在语言层面进行分析，并直接从语言使用中推断出“温度”）。

预处理后的抽取样本最初通过梅尔频率倒谱系数（MFCC）进行分析，这是一种可靠的老方法，仍然在语音分析中很受欢迎。由于该方法首次提出于1980年，它在识别语音中的重复模式方面节省了计算资源，并且对各种音频质量水平具有鲁棒性。由于会议是在2020年12月的封锁期间通过VoIP平台进行的，因此拥有一个可以在必要时考虑音频质量差的录音框架是很重要的。

有趣的是，上述两个技术限制（20世纪80年代初期的CPU资源有限和VoIP连接在拥挤网络中的怪癖）在这里结合起来，创建了一个“技术稀疏”的模型，这个模型在没有理想工作条件和高级资源的情况下显得异常强壮——模拟了所需算法的目标领域。

然后，对音频段应用快速傅里叶变换（FFT）算法，以提供每个“音频帧”的频谱特征，然后映射到梅尔尺度。