Kecerdasan buatan
Detektor Kebohongan Berbasis AI untuk Percakapan Pusat Panggilan

Peneliti di Jerman telah menggunakan pembelajaran mesin untuk membuat sistem analisis audio yang dimaksudkan terutama untuk bertindak sebagai detektor kebohongan berbasis AI untuk pelanggan dalam komunikasi audio dengan staf pusat panggilan dan dukungan.
Sistem ini menggunakan dataset audio yang dibuat khusus yang terdiri dari rekaman audio oleh 40 siswa dan guru selama debat tentang subjek yang kontroversial, termasuk moralitas hukuman mati dan biaya kuliah. Model ini dilatih pada arsitektur yang menggunakan Convolutional Neural Networks (CNNs) dan Long Short-Term Memory (LSTM), dan mencapai tingkat akurasi yang dilaporkan sebesar 98%.
Meskipun tujuan yang dinyatakan dari pekerjaan ini mengutip komunikasi pelanggan, peneliti mengakui bahwa ini secara efektif beroperasi sebagai detektor kebohongan umum:
‘Temuan ini dapat diterapkan pada berbagai proses layanan dan khususnya berguna untuk semua interaksi pelanggan yang berlangsung melalui telepon. Algoritma yang disajikan dapat diterapkan dalam situasi apa pun di mana berguna bagi agen untuk mengetahui apakah pelanggan berbicara dengan keyakinan.
‘Ini, misalnya, dapat menyebabkan penurunan klaim asuransi yang meragukan, atau pernyataan yang tidak jujur dalam wawancara pekerjaan. Ini tidak hanya mengurangi kerugian operasional untuk perusahaan layanan, tetapi juga mendorong pelanggan untuk lebih jujur.’
Generasi Dataset
Dalam ketiadaan dataset yang sesuai dan tersedia secara publik dalam bahasa Jerman, peneliti – dari Neu-Ulm University of Applied Sciences (HNU) – membuat bahan sumber mereka sendiri. Selebaran diposting di universitas dan di sekolah-sekolah setempat, dengan 40 relawan dipilih dengan usia minimal 16 tahun. Relawan dibayar dengan voucher Amazon sebesar 10 euro.
Sesi tersebut dilakukan dengan model klub debat yang dirancang untuk mempolarisasi opini dan membangkitkan respons kuat sekitar topik yang kontroversial, secara efektif memodelkan stres yang dapat terjadi dalam percakapan pelanggan yang bermasalah di telepon.
Topik-topik yang harus dibicarakan oleh relawan secara bebas selama tiga menit di depan umum adalah:
– Apakah hukuman mati dan eksekusi publik harus diperkenalkan kembali di Jerman?
– Apakah biaya kuliah yang mencakup biaya harus dikenakan di Jerman?
– Apakah penggunaan narkoba keras seperti heroin dan crystal meth harus dilegalisasi di Jerman?
– Apakah rantai restoran yang menyajikan makanan cepat yang tidak sehat, seperti McDonald’s atau Burger King, harus dilarang di Jerman?
Prapengolahan
Proyek ini lebih memilih analisis fitur ucapan akustik dalam pendekatan Pengenalan Ucapan Otomatis (ASR) daripada pendekatan NLP (di mana ucapan dianalisis pada tingkat linguistik, dan ‘suhu’ dari wacana diinferensikan langsung dari penggunaan bahasa).
Contoh yang diekstrak dan diproses sebelumnya dianalisis awalnya melalui Koefisien Cepstral Mel-Frekuensi (MFCCs), metode yang handal dan masih sangat populer dalam analisis ucapan. Karena metode ini pertama kali diusulkan pada tahun 1980, ini terkenal hemat dengan sumber daya komputasi dalam hal mengenali pola berulang dalam ucapan, dan tahan terhadap berbagai tingkat kualitas penangkapan audio. Karena sesi tersebut dilakukan melalui platform VOIP dalam kondisi lockdown pada Desember 2020, penting untuk memiliki kerangka perekaman yang dapat mempertimbangkan kualitas audio yang buruk jika perlu.
Menarik untuk dicatat bahwa dua keterbatasan teknis yang disebutkan (sumber daya CPU terbatas pada awal 1980-an dan kekhasan koneksi VOIP dalam konteks jaringan yang sibuk) bergabung di sini untuk menciptakan apa yang secara efektif merupakan model ‘teknis yang jarang’ yang (secara nyata) tidak biasa kuat dalam ketiadaan kondisi kerja yang ideal dan sumber daya tingkat tinggi – meniru arena target untuk algoritma yang dihasilkan.
Kemudian, algoritma Transformasi Fourier Cepat (FFT) diterapkan pada segmen audio untuk memberikan profil spektral dari setiap ‘bingkai audio’, sebelum pemetaan akhir ke Skala Mel.
Pelatihan, Hasil, dan Keterbatasan
Selama pelatihan, vektor fitur yang diekstrak dilewatkan ke lapisan jaringan konvolusional yang didistribusikan secara waktu, diratakan dan kemudian dilewatkan ke lapisan LSTM.

Arsitektur proses pelatihan untuk detektor kebenaran AI. Sumber: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf
Akhirnya, semua neuron dihubungkan satu sama lain untuk menghasilkan prediksi biner tentang apakah pembicara mengatakan hal-hal yang mereka percayai benar.
Dalam tes setelah pelatihan, sistem ini mencapai tingkat akurasi hingga 98,91% dalam hal pengenalan niat (di mana konten yang diucapkan mungkin tidak mencerminkan niat). Peneliti menganggap bahwa pekerjaan ini secara empiris menunjukkan identifikasi keyakinan berdasarkan pola suara, dan bahwa ini dapat dicapai tanpa dekonstruksi bahasa gaya NLP.
Dalam hal keterbatasan, peneliti mengakui bahwa sampel tes kecil. Meskipun makalah ini tidak secara eksplisit menyatakan hal ini, data tes volume rendah dapat mengurangi penerapan kemudian dalam hal asumsi, fitur yang diarsitektur, dan proses pelatihan umum terlalu sesuai dengan data. Makalah ini mencatat bahwa enam dari delapan model yang dibangun sepanjang proyek ini over-fit pada beberapa titik dalam proses pembelajaran, dan bahwa ada pekerjaan lebih lanjut yang harus dilakukan dalam menggeneralisasi penerapan parameter yang ditetapkan untuk model.
Lebih lanjut, penelitian semacam ini harus mempertimbangkan karakteristik nasional, dan makalah ini mencatat bahwa subjek Jerman yang terlibat dalam pembangunan data mungkin memiliki pola komunikasi yang tidak dapat direplikasi langsung di seluruh budaya – situasi yang kemungkinan akan terjadi dalam studi semacam ini di negara mana pun.










