Штучний інтелект

AI-орієнтований детектор брехні для розмов у центрах обслуговування

Published July 27, 2021

Updated April 5, 2026

Martin Anderson

Дослідники в Німеччині використали машинне навчання для створення системи аналізу аудіо, призначеної в першу чергу для дії як AI-орієнтований детектор брехні для клієнтів в аудіо-комунікаціях з центром обслуговування та підтримки персоналу.

Система використовує спеціально створену базу даних аудіозаписів 40 студентів і викладачів під час дебатів на спірних темах, включаючи моральність смертної кари та плати за навчання. Модель була навчена на архітектурі, яка використовує Конволюційні Нейронні Мережі (CNN) і Короткочасну Пам’ять (LSTM), і досягла заявленої точності 98%.

Хоча заявлена мета роботи цитує комунікації клієнтів, дослідники погоджуються, що вона ефективно діє як загального призначення детектор брехні:

‘Результати застосовні до широкого спектру сервісних процесів і особливо корисні для всіх взаємодій клієнтів, які відбуваються через телефон. Алгоритм, представлений тут, можна застосовувати в будь-якій ситуації, коли це корисно для агента знати, чи говорить клієнт зі своєї переконаності.

‘Це, наприклад, може привести до зменшення сумнівних страхових претензій або нечесних заяв на роботі. Це не тільки зменшить операційні втрати для сервісних компаній, але також заохотить клієнтів бути більш чесними.’

Генерація бази даних

У відсутності підходящої публічно доступної бази даних німецькою мовою, дослідники – з Neu-Ulm Університету прикладних наук (HNU) – створили свою власну джерельну матеріал. Плакати були розміщені в університеті та в місцевих школах, з 40 добровольцями, обраними з мінімальним віком 16 років. Добровольці були оплачені 10 євро Amazon-вouchером.

Сесії проводилися на основі дебат-клубної моделі, призначеної для поляризації думок і викликання сильних реакцій навколо інцидентних тем, ефективно моделюючи стрес, який може виникнути в проблемних клієнтських розмовах по телефону.

Теми, на яких добровольці мали вільно говорити три хвилини на публіці, були:

– Чи слід відновити смертну кару та публічні страти в Німеччині?
– Чи слід вводити плату за навчання в Німеччині?
– Чи слід легалізувати використання важких наркотиків, таких як героїн і кристалічний мет, в Німеччині?
– Чи слід заборонити ресторани швидкого харчування, такі як McDonald’s або Burger King, в Німеччині?

Попередня обробка

Проект віддав перевагу аналізу акустичних ознак мови в підході Автоматичного Розпізнавання Мови (ASR) над підходом NLP (де мова аналізується на лінгвістичному рівні, і “температура” дискурсу виводиться безпосередньо з використання мови).

Попередньо оброблені витягнуті зразки були проаналізовані спочатку за допомогою Мел-частотних Цепстральних Коефіцієнтів (MFCC), надійного, старого методу, все ще дуже популярного в аналізі мови. Оскільки метод був вперше запропонований в 1980 році, він є помітно ощадливим щодо обчислювальних ресурсів з точки зору визнання повторюваних патернів у мові, і є стійким до різних рівнів якості аудіозапису. Оскільки сесії проводилися через платформи VOIP в умовах локдауну в грудні 2020 року, було важливо мати рамку запису, яка могла б враховувати низьку якість аудіо при необхідності.

Цікаво зауважити, що дві згадані технічні обмеження (обмежені ресурси CPU на початку 1980-х років і особливості VOIP-з’єднання в контексті переповненої мережі) поєднуються тут, створюючи, по суті, “технічно-рідку” модель, яка є (очевидно) незвично стійкою в відсутності ідеальних робочих умов і високорівневих ресурсів – імітуючи цільову арену для отриманого алгоритму.

Потім алгоритм швидкої Фур’є-трасформації (FFT) був застосований до аудіо-сегментів, щоб забезпечити спектральний профіль кожного “аудіо-фрейму”, перед остаточним відображенням на шкалу Мель.

Навчання, результати та обмеження

Під час навчання витягнуті ознаки передаються до часово-розподіленого шару конволюційної мережі, розплющуються, а потім передаються до шару LSTM.

Архітектура процесу навчання для AI-детектора істини. Джерело: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Нарешті, всі нейрони з’єднані один з одним, щоб генерувати бінарне передбачення щодо того, чи говорить мовець речі, які він вважає правдою.

У тестах після навчання система досягла рівня точності до 98,91% щодо визначення намірів (де висловлювана зміст може не відображати намір). Дослідники вважають, що робота емпірично демонструє ідентифікацію переконаності на основі голосових патернів, і що це можна зробити без деконструкції мови в стилі NLP.

У термінах обмежень дослідники погоджуються, що вибірка тестів мала. Хоча робота не містить явного зазначення цього, низький об’єм тестових даних може зменшити пізнішу застосовність у разі, якщо припущення, архітектурні ознаки та загальний процес навчання надмірно підходять до даних. Робота зазначає, що шість із восьми моделей, створених протягом проекту, були надмірно підходили в деякий момент процесу навчання, і що є подальша робота, яку потрібно зробити для загального застосування параметрів, встановлених для моделі.

Крім того, дослідження цього типу повинні враховувати національні характеристики, і робота зазначає, що німецькі учасники, залучені до генерації даних, можуть мати комунікаційні патерни, які не можуть бути безпосередньо репліковані через культури – ситуація, яка, ймовірно, виникне в будь-якому такому дослідженні в будь-якій країні.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]