potongan Detektor Kebohongan Berbasis AI untuk Percakapan Pusat Panggilan - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Detektor Kebohongan Berbasis AI untuk Percakapan Pusat Panggilan

mm
Updated on

Para peneliti di Jerman telah menggunakan pembelajaran mesin untuk membuat sistem analisis audio yang dimaksudkan terutama sebagai pendeteksi kebohongan berbasis AI bagi pelanggan dalam komunikasi audio dengan pusat panggilan dan staf pendukung.

Grafik sistem menggunakan kumpulan data rekaman audio yang dibuat khusus oleh 40 siswa dan guru selama perdebatan tentang mata pelajaran yang kontroversial, termasuk moralitas hukuman mati dan biaya sekolah. Model ini dilatih pada arsitektur yang menggunakan Convolutional Neural Networks (CNNs) dan Long Short-Term Memory (LSTM), dan mencapai tingkat akurasi yang dilaporkan sebesar 98%.

Meskipun maksud yang dinyatakan dari pekerjaan mengutip komunikasi pelanggan, para peneliti mengakui bahwa itu secara efektif beroperasi sebagai pendeteksi kebohongan tujuan umum:

'Temuan ini berlaku untuk berbagai proses layanan dan secara khusus berguna untuk semua interaksi pelanggan yang terjadi melalui telepon. Algoritme yang disajikan dapat diterapkan dalam situasi apa pun yang berguna bagi agen untuk mengetahui apakah pelanggan berbicara sesuai dengan keyakinannya.

'Ini bisa, misalnya, mengarah pada pengurangan klaim asuransi yang meragukan, atau pernyataan tidak benar dalam wawancara kerja. Ini tidak hanya akan mengurangi kerugian operasional bagi perusahaan jasa, tetapi juga mendorong pelanggan untuk lebih jujur.'

Generasi Dataset

Dengan tidak adanya kumpulan data yang tersedia untuk umum dalam bahasa Jerman, para peneliti – dari Neu-Ulm University of Applied Sciences (HNU) – membuat materi sumber mereka sendiri. Selebaran dipasang di universitas dan sekolah lokal, dengan 40 sukarelawan dipilih dengan usia minimal 16 tahun. Relawan dibayar dengan voucher Amazon senilai 10 euro.

Sesi dilakukan dengan model klub debat yang dirancang untuk mempolarisasi opini dan membangkitkan tanggapan yang kuat seputar topik yang menghasut, secara efektif memodelkan stres yang dapat terjadi dalam percakapan pelanggan yang bermasalah di telepon.

Topik yang harus dibicarakan para relawan selama tiga menit di depan umum adalah:

– Haruskah hukuman mati dan eksekusi publik diterapkan kembali di Jerman?
– Haruskah biaya kuliah yang menutupi biaya dibebankan di Jerman?
– Haruskah penggunaan obat keras seperti heroin dan sabu dilegalkan di Jerman?
– Haruskah rantai restoran yang menyajikan makanan cepat saji yang tidak sehat, seperti McDonald's atau Burger King, dilarang di Jerman?

Pra-Pemrosesan

Proyek ini menyukai analisis fitur ucapan akustik dalam pendekatan Pengenalan Pidato Otomatis (ASR) daripada pendekatan NLP (di mana ucapan dianalisis pada tingkat linguistik, dan 'suhu' wacana disimpulkan langsung dari penggunaan bahasa).

Sampel yang diekstraksi yang telah diproses sebelumnya dianalisis pada awalnya melalui Koefisien Cepstral frekuensi Mel (MFCCs), metode lama yang andal yang masih sangat populer dalam analisis ucapan. Sejak metode ini pertama kali diusulkan pada tahun 1980, metode ini sangat hemat sumber daya komputasi dalam hal mengenali pola ucapan yang berulang, dan tahan terhadap berbagai tingkat kualitas pengambilan audio. Karena sesi dilakukan melalui platform VOIP dalam kondisi terkunci pada bulan Desember 2020, penting untuk memiliki kerangka perekaman yang dapat memperhitungkan kualitas audio yang buruk bila diperlukan.

Sangat menarik untuk dicatat bahwa dua batasan teknis yang disebutkan di atas (sumber daya CPU yang terbatas pada awal 1980-an dan keeksentrikan konektivitas VOIP dalam konteks jaringan yang padat) digabungkan di sini untuk menciptakan apa yang secara efektif merupakan model 'jarang secara teknis' yang (tampaknya) sangat kuat. dengan tidak adanya kondisi kerja yang ideal dan sumber daya tingkat tinggi – meniru arena target untuk algoritme yang dihasilkan.

Setelah itu Transformasi Fourier Cepat (FFT) algoritma diterapkan terhadap segmen audio untuk memasok profil spektral dari setiap 'bingkai audio', sebelum pemetaan akhir ke Skala Mel.

Pelatihan, Hasil dan Keterbatasan

Selama pelatihan, vektor fitur yang diekstraksi diteruskan ke lapisan jaringan konvolusional terdistribusi waktu, diratakan, dan kemudian diteruskan ke lapisan LSTM.

Arsitektur proses pelatihan untuk pendeteksi kebenaran AI. Sumber: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Arsitektur proses pelatihan untuk pendeteksi kebenaran AI. Sumber: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Akhirnya, semua neuron terhubung satu sama lain untuk menghasilkan prediksi biner apakah pembicara mengatakan hal-hal yang mereka yakini benar atau tidak.

Dalam pengujian setelah pelatihan, sistem mencapai tingkat akurasi hingga 98.91% dalam hal pemahaman maksud (di mana konten yang diucapkan mungkin tidak mencerminkan maksud). Para peneliti menganggap bahwa karya tersebut secara empiris menunjukkan identifikasi keyakinan berdasarkan pola suara, dan ini dapat dicapai tanpa dekonstruksi bahasa gaya NLP.

Dari segi keterbatasan, para peneliti mengakui bahwa sampel uji itu kecil. Meskipun makalah tidak secara eksplisit menyatakannya, data uji volume rendah dapat mengurangi penerapan selanjutnya jika anggapan, fitur yang dirancang, dan proses pelatihan umum terlalu sesuai dengan data. Makalah ini mencatat bahwa enam dari delapan model yang dibangun di seluruh proyek terlalu pas di beberapa titik dalam proses pembelajaran, dan ada pekerjaan lebih lanjut yang harus dilakukan untuk menggeneralisasi penerapan parameter yang ditetapkan untuk model tersebut.

Selanjutnya, penelitian seperti ini harus memperhitungkan karakteristik nasional, dan makalah mencatat bahwa subjek Jerman yang terlibat dalam pembuatan data mungkin memiliki pola komunikasi yang tidak dapat direplikasi secara langsung lintas budaya – situasi yang kemungkinan akan muncul dalam penelitian semacam itu di bangsa manapun.