Искусственный интеллект

AI-основной детектор лжи для разговоров в колл-центре

Published July 27, 2021

Updated April 28, 2026

Martin Anderson

Исследователи в Германии использовали машинное обучение для создания системы анализа аудио, предназначенной в основном для того, чтобы действовать как AI-основной детектор лжи для клиентов в аудио-коммуникациях с персоналом колл-центра и поддержки.

Система система использует специально созданный набор данных аудиозаписей 40 студентов и преподавателей во время дебатов на спорные темы, включая моральность смертной казни и платы за обучение. Модель была обучена на архитектуре, которая использует свёрточные нейронные сети (CNN) и долгую краткосрочную память (LSTM), и достигла заявленной точности 98%.

Хотя заявленная цель работы цитирует коммуникации с клиентами, исследователи признают, что она эффективно работает как детектор лжи общего назначения:

‘Результаты применимы к широкому спектру сервисных процессов и особенно полезны для всех взаимодействий с клиентами, которые происходят по телефону. Алгоритм, представленный здесь, может быть применен в любой ситуации, когда для агента полезно знать, говорит ли клиент с убеждением.

‘Это, например, может привести к снижению количества сомнительных страховых претензий или ложных заявлений на собеседованиях. Это не только снизит операционные потери для сервисных компаний, но и поощрит клиентов быть более правдивыми.’

Генерация набора данных

В отсутствие подходящего публично доступного набора данных на немецком языке, исследователи – из Университета прикладных наук Ной-Ульм (HNU) – создали свой собственный источник материалов. Плакаты были размещены в университете и в местных школах, с 40 волонтерами, отобранными с минимальным возрастом 16 лет. Волонтерам была выплачена компенсация в размере 10 евро в виде ваучера Amazon.

Сессии проводились по модели дебатного клуба, предназначенной для поляризации мнений и вызова сильных реакций вокруг провокационных тем, эффективно моделируя стресс, который может возникнуть в проблемных разговорах клиентов по телефону.

Темы, на которые волонтерам пришлось говорить свободно в течение трех минут в обществе, были:

– Следует ли ввести смертную казнь и публичные казни в Германии?
– Следует ли взимать плату за обучение, покрывающую затраты, в Германии?
– Следует ли разрешить использование тяжелых наркотиков, таких как героин и метамфетамин, в Германии?
– Следует ли запретить сети ресторанов быстрого питания, такие как McDonald’s или Burger King, в Германии?

Предварительная обработка

Проект отдал предпочтение анализу акустических особенностей речи в подходе к автоматическому распознаванию речи (ASR) над подходом NLP (где речь анализируется на лингвистическом уровне, и «температура» дискурса выводится напрямую из использования языка).

Предварительно обработанные извлеченные образцы были проанализированы сначала с помощью коэффициентов мел-чепстр (MFCC), надежного и старого метода, который все еще очень популярен в анализе речи. Поскольку метод был впервые предложен в 1980 году, он заметно бережлив с вычислительными ресурсами в плане распознавания повторяющихся закономерностей в речи и устойчив к различным уровням качества аудиозаписи. Поскольку сессии проводились на платформах VOIP в условиях локдауна в декабре 2020 года, было важно иметь рамку записи, которая могла бы учитывать плохое качество аудио, когда это необходимо.

Интересно отметить, что два вышеупомянутых технических ограничения (ограниченные ресурсы CPU в начале 1980-х годов и эксцентричность соединений VOIP в контексте загруженной сети) объединяются здесь, чтобы создать то, что эффективно является «технически скудной» моделью, которая (видимо) необычно устойчива в отсутствие идеальных условий работы и высокоуровневых ресурсов – имитируя целевую арену для полученного алгоритма.

Затем был применен алгоритм быстрого преобразования Фурье (FFT) к аудиосегментам, чтобы обеспечить спектральный профиль каждого «аудиокадра», прежде чем окончательное сопоставление с масштабом Мель.

Обучение, результаты и ограничения

Во время обучения извлеченные векторы особенностей передаются в слой свёрточной сети, распространенной во времени, затем уплощаются и передаются в слой LSTM.

Архитектура процесса обучения для детектора правды AI. Источник: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Наконец, все нейроны соединены друг с другом, чтобы сгенерировать бинарное предсказание о том, говорит ли говорящий то, что он считает правдой.

В тестах после обучения система достигла уровня точности до 98,91% в плане определения намерения (где произнесенный контент может не отражать намерение). Исследователи считают, что работа эмпирически демонстрирует определение убеждения на основе закономерностей голоса, и что это можно достичь без деконструкции языка в стиле NLP.

В плане ограничений исследователи признают, что тестовый образец небольшой. Хотя статья не явно заявляет об этом, низкообъемные тестовые данные могут снизить позднюю применимость в случае, если предположения, архитектурные особенности и общий процесс обучения переобучены на данных. Статья отмечает, что шесть из восьми моделей, созданных в ходе проекта, были переобучены на某ком этапе процесса обучения, и что есть дальнейшая работа, которая должна быть сделана для обобщения применимости параметров, заданных для модели.

Кроме того, исследования такого рода должны учитывать национальные характеристики, и статья отмечает, что немецкие субъекты, участвовавшие в генерации данных, могут иметь закономерности коммуникации, которые не могут быть напрямую воспроизведены в разных культурах – ситуация, которая, вероятно, возникнет в любом таком исследовании в любой стране.