인공 지능

콜 센터 대화를 위한 AI 기반 거짓말 탐지기

업데이트 on 2022 년 12 월 9 일

독일의 연구원들은 기계 학습을 사용하여 주로 콜센터 및 지원 직원과의 오디오 통신에서 고객을 위한 AI 기반 거짓말 탐지기 역할을 하는 오디오 분석 시스템을 만들었습니다.

XNUMXD덴탈의 체계 사형의 도덕성 및 수업료를 포함하여 논쟁적인 주제에 대한 토론 중에 40명의 학생과 교사가 특별히 제작한 오디오 녹음 데이터 세트를 사용합니다. 이 모델은 CNN(Convolutional Neural Networks) 및 LSTM(Long Short-Term Memory)을 사용하는 아키텍처에서 훈련되었으며 보고된 정확도 98%를 달성했습니다.

작업의 명시된 의도는 고객 커뮤니케이션을 인용하지만 연구원은 범용 거짓말 탐지기로 효과적으로 작동한다는 점을 인정합니다.

'연구 결과는 광범위한 서비스 프로세스에 적용 가능하며 전화를 통해 발생하는 모든 고객 상호 작용에 특히 유용합니다. 제시된 알고리즘은 상담원이 고객이 자신의 신념에 따라 말하고 있는지 여부를 아는 데 도움이 되는 모든 상황에 적용할 수 있습니다.

'예를 들어 이것은 의심스러운 보험 청구 또는 취업 면접에서 거짓된 진술의 감소로 이어질 수 있습니다. 이렇게 하면 서비스 회사의 운영 손실을 줄일 수 있을 뿐만 아니라 고객이 더욱 진실되게 행동할 수 있습니다.'

데이터세트 생성

공개적으로 사용할 수 있는 독일어로 된 적절한 데이터 세트가 없는 상황에서 Neu-Ulm University of Applied Sciences(HNU)의 연구원들은 자체 소스 자료를 만들었습니다. 최소 40세 이상의 자원봉사자 16명을 선발하여 대학교와 지역 학교에 전단지를 붙였습니다. 자원봉사자들은 10유로의 아마존 바우처를 받았습니다.

세션은 의견을 양극화하고 도발적인 주제에 대해 강한 반응을 불러일으키도록 설계된 토론 클럽 모델로 진행되어 문제가 있는 고객 전화 대화에서 발생할 수 있는 스트레스를 효과적으로 모델링했습니다.

자원봉사자들이 대중 앞에서 XNUMX분 동안 자유롭게 말해야 했던 주제는 다음과 같습니다.

– 독일에서 사형과 공개처형을 다시 도입해야 하는가?
– 비용 충당 수업료는 독일에서 청구해야 합니까?
– 독일에서 헤로인과 크리스탈 필로폰과 같은 중독성 약물의 사용을 합법화해야 합니까?
– 독일에서는 맥도날드나 버거킹과 같이 건강에 해로운 패스트푸드를 제공하는 레스토랑 체인을 금지해야 합니까?

전처리

이 프로젝트는 NLP 접근 방식(음성은 언어 수준에서 분석되고 담화의 '온도'는 언어 사용에서 직접 추론됨)보다 자동 음성 인식(ASR) 방식의 음향 음성 기능 분석을 선호했습니다.

사전 처리된 추출 샘플은 초기에 음성 분석에서 여전히 널리 사용되는 신뢰할 수 있고 오래된 방법인 MFCC(Mel-Frequency Cepstral Coefficients)를 통해 분석되었습니다. 이 방법은 1980년에 처음 제안된 이후 음성의 반복 패턴을 인식하는 측면에서 컴퓨팅 리소스를 매우 절약하고 다양한 수준의 오디오 캡처 품질에 탄력적으로 대응합니다. 세션은 2020년 XNUMX월 봉쇄 조건에서 VOIP 플랫폼을 통해 진행되었기 때문에 필요할 때 낮은 품질의 오디오를 설명할 수 있는 녹음 프레임워크를 갖는 것이 중요했습니다.

위에서 언급한 두 가지 기술적 한계(1980년대 초반의 제한된 CPU 리소스 및 혼잡한 네트워크 컨텍스트에서 VOIP 연결의 기이함)가 여기에서 결합되어 (분명히) 비정상적으로 강력한 '기술적으로 희소한' 모델을 효과적으로 생성한다는 점에 주목하는 것은 흥미 롭습니다. 이상적인 작업 조건과 높은 수준의 리소스가 없는 경우 결과 알고리즘의 대상 영역을 모방합니다.

그 후 고속 푸리에 변환(FFT) 알고리즘을 오디오 세그먼트에 적용하여 Mel Scale에 최종 매핑하기 전에 각 '오디오 프레임'의 스펙트럼 프로필을 제공했습니다.

교육, 결과 및 제한 사항

학습하는 동안 추출된 특징 벡터는 시분산 컨벌루션 네트워크 계층으로 전달되고 평탄화된 다음 LSTM 계층으로 전달됩니다.

AI 진실 탐지기를 위한 훈련 프로세스의 아키텍처. 출처: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

마지막으로, 화자가 사실이라고 믿는 것을 말하고 있는지 여부에 대한 이진 예측을 생성하기 위해 모든 뉴런이 서로 연결됩니다.

훈련 후 테스트에서 시스템은 의도 식별 측면에서 최대 98.91%의 정확도 수준을 달성했습니다(말한 내용이 의도를 반영하지 않을 수 있음). 연구자들은 이 작업이 음성 패턴을 기반으로 한 확신 식별을 경험적으로 입증했으며 이는 NLP 스타일의 언어 해체 없이 달성될 수 있다고 생각합니다.

한계의 관점에서 연구원들은 테스트 샘플이 작다는 것을 인정합니다. 논문에서 명시적으로 언급하지는 않았지만 테스트 데이터의 양이 적으면 가정, 구조화된 기능 및 일반 교육 프로세스가 데이터에 과적합한 경우 나중에 적용 가능성이 줄어들 수 있습니다. 이 논문은 프로젝트 전반에 걸쳐 구성된 XNUMX개 모델 중 XNUMX개가 학습 프로세스의 어느 시점에서 과적합되었으며 모델에 설정된 매개변수의 적용 가능성을 일반화하는 데 추가 작업이 필요하다고 지적합니다.

또한 이러한 성격의 연구는 국가적 특성을 설명해야 하며, 논문은 데이터 생성에 관련된 독일 피험자가 문화 간에 직접적으로 복제할 수 없는 의사소통 패턴을 가질 수 있다고 지적합니다. 어떤 국가.