Sudut Anderson
Detektor Kebohongan Berbasis AI untuk Percakapan Pusat Panggilan

Peneliti di Jerman telah menggunakan pembelajaran mesin untuk membuat sistem analisis audio yang dimaksudkan terutama untuk bertindak sebagai detektor kebohongan berbasis AI untuk pelanggan dalam komunikasi audio dengan staf pusat panggilan dan dukungan.
Sistem ini menggunakan dataset audio rekaman yang dibuat khusus oleh 40 siswa dan guru selama debat tentang subjek yang kontroversial, termasuk moralitas hukuman mati dan biaya kuliah. Model ini dilatih pada arsitektur yang menggunakan Convolutional Neural Networks (CNN) dan Long Short-Term Memory (LSTM), dan mencapai tingkat akurasi yang dilaporkan sebesar 98%.
Meskipun tujuan yang dinyatakan dari pekerjaan ini mengutip komunikasi pelanggan, peneliti mengakui bahwa ini secara efektif beroperasi sebagai detektor kebohongan umum:
‘Temuan ini dapat diterapkan pada berbagai proses layanan dan khususnya berguna untuk semua interaksi pelanggan yang terjadi melalui telepon. Algoritma yang disajikan dapat diterapkan dalam situasi apa pun di mana penting bagi agen untuk mengetahui apakah pelanggan berbicara dengan keyakinan.
‘Hal ini, misalnya, dapat menyebabkan penurunan klaim asuransi yang meragukan, atau pernyataan yang tidak benar dalam wawancara pekerjaan. Ini tidak hanya akan mengurangi kerugian operasional untuk perusahaan layanan, tetapi juga mendorong pelanggan untuk lebih jujur.’
Generasi Dataset
Dalam ketiadaan dataset yang sesuai dan tersedia secara publik dalam bahasa Jerman, peneliti – dari Universitas Terapan Neu-Ulm (HNU) – membuat bahan sumber mereka sendiri. Selebaran dibagikan di universitas dan di sekolah setempat, dengan 40 relawan dipilih dengan usia minimum 16 tahun. Relawan dibayar dengan voucher Amazon sebesar 10 euro.
Sesi-sesi tersebut dilakukan dengan model klub debat yang dirancang untuk mempolarisasi opini dan membangkitkan respons kuat sekitar topik yang kontroversial, secara efektif memodelkan stres yang dapat terjadi dalam percakapan pelanggan yang bermasalah di telepon.
Topik-topik yang dibicarakan oleh relawan selama tiga menit di depan umum adalah:
– Apakah hukuman mati dan eksekusi publik harus diperkenalkan kembali di Jerman?
– Apakah biaya kuliah yang mencakup biaya harus dikenakan di Jerman?
– Apakah penggunaan narkoba keras seperti heroin dan kristal met harus dilegalisasi di Jerman?
– Apakah rantai restoran yang menyajikan makanan cepat yang tidak sehat, seperti McDonald’s atau Burger King, harus dilarang di Jerman?
Praproses
Proyek ini lebih memilih analisis fitur suara akustik dalam pendekatan Pengenalan Suara Otomatis (ASR) daripada pendekatan NLP (di mana suara dianalisis pada tingkat linguistik, dan ‘suhu’ dari wacana diinferensikan langsung dari penggunaan bahasa).
Contoh yang diekstrak dan diproses awalnya dianalisis melalui Mel-frequency Cepstral Coefficients (MFCCs), metode yang handal dan masih sangat populer dalam analisis suara. Karena metode ini pertama kali diajukan pada tahun 1980, metode ini terkenal hemat dalam penggunaan sumber daya komputasi dalam hal mengenali pola berulang dalam suara, dan tahan terhadap berbagai tingkat kualitas perekaman audio. Karena sesi-sesi tersebut dilakukan melalui platform VOIP dalam kondisi penguncian pada Desember 2020, penting untuk memiliki kerangka perekaman yang dapat memperhitungkan audio berkualitas rendah jika perlu.
Sangat menarik untuk dicatat bahwa dua keterbatasan teknis yang disebutkan (sumber daya CPU terbatas pada awal 1980-an dan kekhasan koneksi VOIP dalam konteks jaringan yang sibuk) bergabung di sini untuk menciptakan apa yang secara efektif merupakan model ‘teknis yang jarang’ yang (secara tampak) tidak biasa kuat dalam ketiadaan kondisi kerja ideal dan sumber daya tingkat tinggi – meniru arena target untuk algoritma yang dihasilkan.
Setelah itu, algoritma Fast Fourier Transform (FFT) diterapkan terhadap segmen audio untuk menyediakan profil spektral dari setiap ‘kerangka audio’, sebelum pemetaan akhir ke Skala Mel.
Pelatihan, Hasil, dan Keterbatasan
Selama pelatihan, vektor fitur yang diekstrak dilewatkan ke lapisan konvolusi waktu, diratakan dan kemudian dilewatkan ke lapisan LSTM.

Arsitektur proses pelatihan detektor kebenaran AI. Sumber: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf
Akhirnya, semua neuron dihubungkan satu sama lain untuk menghasilkan prediksi biner tentang apakah pembicara mengatakan hal-hal yang mereka percayai benar.
Dalam tes setelah pelatihan, sistem mencapai tingkat akurasi hingga 98,91% dalam hal pengenalan niat (di mana konten yang diucapkan mungkin tidak mencerminkan niat). Peneliti menganggap bahwa pekerjaan ini secara empiris mendemonstrasikan identifikasi keyakinan berdasarkan pola suara, dan bahwa ini dapat dicapai tanpa dekonstruksi bahasa gaya NLP.
Dalam hal keterbatasan, peneliti mengakui bahwa sampel tes kecil. Meskipun makalah tidak secara eksplisit menyatakan hal ini, data tes volume rendah dapat mengurangi kemudahan penerapan kemudian jika asumsi, fitur yang dirancang, dan proses pelatihan umum over-fit ke data. Makalah mencatat bahwa enam dari delapan model yang dibangun sepanjang proyek over-fit pada beberapa titik dalam proses pembelajaran, dan bahwa ada pekerjaan lebih lanjut yang harus dilakukan dalam menggeneralisasi penerapan parameter yang ditetapkan untuk model.
Lebih lanjut, penelitian semacam ini harus memperhitungkan karakteristik nasional, dan makalah mencatat bahwa subjek Jerman yang terlibat dalam pembuatan data mungkin memiliki pola komunikasi yang tidak dapat direplikasi langsung di seluruh budaya – situasi yang kemungkinan akan timbul dalam studi semacam ini di negara mana pun.












