Trí tuệ nhân tạo

Máy phát hiện nói dối dựa trên AI cho các cuộc trò chuyện trong trung tâm cuộc gọi

cập nhật on 9 Tháng mười hai, 2022

Các nhà nghiên cứu ở Đức đã sử dụng học máy để tạo ra một hệ thống phân tích âm thanh nhằm mục đích chủ yếu hoạt động như một máy phát hiện nói dối dựa trên AI cho khách hàng khi liên lạc bằng âm thanh với trung tâm cuộc gọi và nhân viên hỗ trợ.

Sản phẩm hệ thống sử dụng tập dữ liệu ghi âm được tạo đặc biệt bởi 40 học sinh và giáo viên trong các cuộc tranh luận về các chủ đề gây tranh cãi, bao gồm cả đạo đức của án tử hình và học phí. Mô hình này đã được đào tạo trên kiến trúc sử dụng Mạng thần kinh chuyển đổi (CNN) và Bộ nhớ ngắn hạn dài (LSTM) và đạt được tỷ lệ chính xác được báo cáo là 98%.

Mặc dù mục đích đã nêu của công việc trích dẫn thông tin liên lạc của khách hàng, các nhà nghiên cứu thừa nhận rằng nó hoạt động hiệu quả như một máy phát hiện nói dối cho mục đích chung:

'Những phát hiện này có thể áp dụng cho một loạt các quy trình dịch vụ và đặc biệt hữu ích cho tất cả các tương tác của khách hàng diễn ra qua điện thoại. Thuật toán được trình bày có thể được áp dụng trong mọi tình huống giúp nhân viên biết liệu khách hàng có đang nói với niềm tin của họ hay không.

'Ví dụ, điều này có thể dẫn đến việc giảm các yêu cầu bảo hiểm đáng ngờ hoặc những tuyên bố không trung thực trong các cuộc phỏng vấn việc làm. Điều này không chỉ làm giảm tổn thất hoạt động cho các công ty dịch vụ mà còn khuyến khích khách hàng trung thực hơn.'

Tạo tập dữ liệu

Trong trường hợp không có bộ dữ liệu phù hợp có sẵn công khai bằng tiếng Đức, các nhà nghiên cứu – từ Đại học Khoa học Ứng dụng Neu-Ulm (HNU) – đã tạo tài liệu nguồn của riêng họ. Các tờ rơi đã được dán tại trường đại học và các trường học địa phương, với 40 tình nguyện viên được chọn với độ tuổi tối thiểu là 16. Các tình nguyện viên được trả bằng phiếu mua hàng Amazon trị giá 10 euro.

Các phiên họp được tiến hành theo mô hình câu lạc bộ tranh luận được thiết kế để phân cực quan điểm và khơi dậy những phản ứng mạnh mẽ xung quanh các chủ đề gây kích động, mô hình hóa hiệu quả sự căng thẳng có thể xảy ra trong các cuộc trò chuyện qua điện thoại của khách hàng có vấn đề.

Các chủ đề mà các tình nguyện viên phải nói thoải mái trong ba phút trước công chúng là:

– Liệu án tử hình và các vụ hành quyết công khai có nên được áp dụng lại ở Đức?
– Học phí bao gồm chi phí có nên được tính ở Đức?
– Việc sử dụng các loại ma túy nặng như heroin và ma túy đá có nên được hợp pháp hóa ở Đức không?
– Các chuỗi nhà hàng phục vụ đồ ăn nhanh không tốt cho sức khỏe như McDonald's hay Burger King có nên bị cấm ở Đức?

Sơ chế

Dự án ủng hộ việc phân tích các tính năng giọng nói âm thanh trong phương pháp Nhận dạng giọng nói tự động (ASR) so với phương pháp NLP (trong đó lời nói được phân tích ở cấp độ ngôn ngữ và 'nhiệt độ' của bài phát biểu được suy ra trực tiếp từ việc sử dụng ngôn ngữ).

Các mẫu trích xuất được xử lý trước được phân tích ban đầu thông qua Hệ số Cepstral tần số Mel (MFCC), một phương pháp cũ, đáng tin cậy vẫn rất phổ biến trong phân tích giọng nói. Kể từ khi phương pháp này được đề xuất lần đầu tiên vào năm 1980, nó đặc biệt tiết kiệm tài nguyên máy tính trong việc nhận dạng các mẫu lặp lại trong giọng nói và có khả năng phục hồi ở nhiều mức chất lượng thu âm khác nhau. Bởi vì các phiên được thực hiện trên nền tảng VOIP trong điều kiện khóa vào tháng 2020 năm XNUMX, điều quan trọng là phải có một khung ghi âm có thể giải quyết được âm thanh chất lượng kém khi cần thiết.

Thật thú vị khi lưu ý rằng hai hạn chế kỹ thuật đã nói ở trên (tài nguyên CPU hạn chế vào đầu những năm 1980 và sự khác biệt của kết nối VOIP trong bối cảnh mạng bị tắc nghẽn) kết hợp ở đây để tạo ra một mô hình 'thưa thớt về mặt kỹ thuật' (rõ ràng) mạnh mẽ một cách hiệu quả. trong trường hợp không có điều kiện làm việc lý tưởng và tài nguyên cấp cao – bắt chước đấu trường mục tiêu cho thuật toán kết quả.

Sau đó là Biến đổi Fourier nhanh (FFT) đã được áp dụng cho các phân đoạn âm thanh để cung cấp cấu hình quang phổ của từng 'khung âm thanh', trước khi ánh xạ cuối cùng tới Thang âm Mel.

Đào tạo, Kết quả và Hạn chế

Trong quá trình đào tạo, các vectơ đặc trưng được trích xuất được chuyển đến lớp mạng tích chập phân bổ theo thời gian, được làm phẳng và sau đó được chuyển đến lớp LSTM.

Kiến trúc của quy trình đào tạo cho máy phát hiện sự thật AI. Nguồn: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Cuối cùng, tất cả các tế bào thần kinh được kết nối với nhau để tạo ra một dự đoán nhị phân về việc liệu người nói có đang nói những điều mà họ tin là đúng hay không.

Trong các bài kiểm tra sau khi đào tạo, hệ thống đã đạt được mức độ chính xác lên tới 98.91% về khả năng phân biệt ý định (trong đó nội dung được nói có thể không phản ánh đúng ý định). Các nhà nghiên cứu cho rằng công việc chứng minh bằng thực nghiệm việc xác định niềm tin dựa trên các mẫu giọng nói và điều này có thể đạt được mà không cần giải cấu trúc ngôn ngữ theo kiểu NLP.

Về hạn chế, các nhà nghiên cứu thừa nhận rằng mẫu thử nghiệm còn nhỏ. Mặc dù bài báo không nêu rõ điều đó, nhưng dữ liệu thử nghiệm khối lượng thấp có thể làm giảm khả năng áp dụng sau này trong trường hợp các giả định, tính năng kiến trúc và quy trình đào tạo chung quá phù hợp với dữ liệu. Bài báo lưu ý rằng sáu trong số tám mô hình được xây dựng trong suốt dự án đã được trang bị quá mức tại một số điểm trong quá trình học tập và còn nhiều việc phải làm để khái quát hóa khả năng áp dụng của các tham số được đặt cho mô hình.

Hơn nữa, nghiên cứu về bản chất này phải tính đến các đặc điểm quốc gia và bài báo lưu ý rằng các đối tượng người Đức tham gia vào việc tạo dữ liệu có thể có các mẫu giao tiếp không thể sao chép trực tiếp giữa các nền văn hóa – một tình huống có thể phát sinh trong bất kỳ nghiên cứu nào như vậy ở bất kỳ dân tộc nào.