Yapay Zekâ

Çağrı Merkezi Konuşmaları için AI Tabanlı Yalan Dedektörü

Published July 27, 2021

Updated April 28, 2026

Martin Anderson

Almanya’daki araştırmacılar, çağrı merkezi ve destek personeli ile sesli iletişimler sırasında müşteriler için temel olarak AI tabanlı bir yalan dedektörü olarak davranmak amacıyla tasarlanmış bir ses analizi sistemi oluşturmak için makine öğrenimini kullandılar.

Sistem, 40 öğrenci ve öğretmenin tartışmalı konular hakkında, ölüm cezasının ahlakı ve öğrenim ücretleri dahil olmak üzere tartışmalar sırasında oluşturulan özel bir ses kayıtları veri setini kullanıyor. Model, Convolutional Neural Networks (CNNs) ve Long Short-Term Memory (LSTM) kullanan bir mimari üzerinde eğitildi ve %98’lik bir doğruluk oranı elde edildi.

Araştırmacılar, çalışmanın amacının müşteri iletişimlerini belirtmesine rağmen, aslında genel amaçlı bir yalan dedektörü olarak çalıştığını kabul ediyorlar:

‘Bulunanlar, geniş bir hizmet süreci yelpazesine uygulanabilir ve özellikle telefon yoluyla gerçekleşen tüm müşteri etkileşimleri için özellikle yararlıdır. Sunulan algoritma, ajanın müşterinin ikna olup olmadığını bilmesinin yararlı olabileceği her durumda uygulanabilir.

‘Örneğin, bu, şüpheli sigorta taleplerinin veya iş görüşmelerindeki yalan ifadelerin azaltılmasına yol açabilir. Bu, yalnızca hizmet şirketlerinin operasyonel kayıplarını azaltmakla kalmaz, aynı zamanda müşterilerin daha dürüst olmalarını teşvik eder.’

Veri Seti Oluşturma

Almanca’da uygun bir kamu veri setinin absence of, araştırmacılar – Neu-Ulm Uygulamalı Bilimler Üniversitesi’nden (HNU) – kendi kaynak materyallerini oluşturdular. Üniversite ve yerel okullarda broşürler yayınlandı ve en az 16 yaşındaki 40 gönüllü seçildi. Gönüllülere 10 euro’luk bir Amazon vouceri ödendi.

Oturumlar, görüşleri polarize etmek ve tartışmalı konularda güçlü tepkiler uyandırmak amacıyla tasarlanan bir tartışma kulübü modeli üzerine yapıldı, böylece telefonla gerçekleşen sorunlu müşteri konuşmalarında ortaya çıkan stresi etkili bir şekilde modelledi.

Gönüllülerin üç dakika boyunca kamuoyu önünde serbestçe konuşmak zorunda oldukları konular şunlardı:

– Almanya’da ölüm cezası ve kamu infazları yeniden getirilmeli mi?
– Almanya’da öğrenim ücretleri karşılayacak öğrenim ücretleri alınmalı mı?
– Almanya’da eroin ve kristal met gibi sert uyuşturucuların kullanımı yasal mı olmalıdır?
– Almanya’da McDonald’s veya Burger King gibi hızlı yemek sunan restoran zincirleri yasaklanmalı mı?

Ön İşleme

Proje, Otomatik Konuşma Tanıma (ASR) yaklaşımında ses özelliklerinin analizini, dil seviyesinde konuşmanın analiz edildiği ve konuşmanın “sıcaklığının” doğrudan dil kullanımından çıkarıldığı NLP yaklaşımına tercih etti.

Ön işleme yoluyla çıkarılan örnekler, ilk olarak Mel-frekans Cepstral Katsayıları (MFCCs) ile analiz edildi, bu güvenilir ve eski bir yöntem hala konuşma analizinde çok popüler ve hesaplama kaynakları açısından konuşmadaki tekrar eden desenleri tanımak için cimri ve çeşitli ses kayıt kalitelerine karşı dayanıklı. Aralık 2020’de kilitli koşullarda VOIP platformları üzerinden yapılan oturumlar nedeniyle, poor kaliteli ses olduğunda hesaba katmak için bir kayıt çerçevesine sahip olmak önemliydi.

İlginç olan, yukarıda bahsedilen iki teknik sınırlamanın (1980’lerin başındaki sınırlı CPU kaynakları ve kalabalık bir ağ bağlamında VOIP bağlantısının tuhaflıkları) burada birleşerek, aslında ideal çalışma koşulları ve yüksek düzeyde kaynak olmadan anomali olarak kabul edilebilecek ‘teknik olarak seyrek’ bir model oluşturmasıdır – hedef arenayı modelleyen sonuç algoritması.

Daha sonra, her “ses çerçevesi” için bir spektral profil sağlamak amacıyla ses segmentlerine Hızlı Fourier Dönüşümü (FFT) algoritması uygulandı, ardından son olarak Mel Ölçeğine eşlenerek haritalandı.

Eğitim, Sonuçlar ve Sınırlamalar

Eğitim sırasında, çıkarılan özellik vektörleri, zamanla dağıtılmış bir konvolüsyonel ağ katmanına geçirildi, düzleştirildi ve ardından bir LSTM katmanına geçirildi.

AI truth dedektörü için eğitim sürecinin mimarisi. Kaynak: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Son olarak, tüm nöronlar, konuşmacının inandığı şeyleri söyleyip söylemediğini belirlemek için bir ikili tahmin oluşturmak amacıyla birbirine bağlandı.

Eğitimden sonra yapılan testlerde, sistem %98,91’lik bir doğruluk seviyesine ulaştı. Araştırmacılar, çalışmanın ses desenlerine dayanarak ikna tanımlamasını empirik olarak gösterdiğini ve bunun NLP tarzı dil deşifre edilmeden gerçekleştirilebileceğini düşünüyorlar.

Sınırlamalar açısından, araştırmacılar, test örneğinin küçük olduğunu kabul ediyorlar. Makale bunu açıkça belirtmese de, düşük hacimli test verileri, varsayımların, mimari özelliklerin ve genel eğitim sürecinin daha sonra uygulanabilirliğini azaltabilir. Makale, projenin sırasında oluşturulan sekiz modelin altı tanesinin某 bir noktada öğrenme sürecinde aşırı uyumlu olduğunu ve model parametrelerinin genel uygulanabilirliğini artırmak için daha fazla çalışmaya ihtiyaç olduğunu belirtiyor.

Ayrıca, bu tür bir araştırmada, ulusal özellikler hesaba katılmalıdır ve makale, veri oluşturma sürecine katılan Alman konuların, diğer kültürlerde doğrudan çoğaltılamayan iletişim kalıplarına sahip olabileceğini belirtiyor – bu durum, herhangi bir ülkede böyle bir çalışma yapılması durumunda muhtemelen ortaya çıkacak bir durum.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

Çağrı Merkezi Konuşmaları için AI Tabanlı Yalan Dedektörü

Veri Seti Oluşturma

Ön İşleme

Eğitim, Sonuçlar ve Sınırlamalar

You may like