заглушки Детектор лжи на основе ИИ для разговоров в колл-центре - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Детектор лжи на основе ИИ для разговоров в колл-центре

mm
обновленный on

Исследователи из Германии использовали машинное обучение для создания системы аудиоанализа, предназначенной в первую очередь для работы в качестве детектора лжи на основе искусственного интеллекта для клиентов при аудиосвязи с колл-центром и персоналом службы поддержки.

Ассоциация система использует специально созданный набор аудиозаписей 40 студентов и преподавателей во время дебатов на спорные темы, включая моральность смертной казни и платы за обучение. Модель была обучена на архитектуре, которая использует сверточные нейронные сети (CNN) и краткосрочную память (LSTM), и достигла заявленного уровня точности 98%.

Хотя заявленная цель работы связана с общением с клиентами, исследователи признают, что она эффективно работает как детектор лжи общего назначения:

«Выводы применимы к широкому спектру процессов обслуживания и особенно полезны для всех взаимодействий с клиентами, которые происходят по телефону. Представленный алгоритм может применяться в любой ситуации, когда агенту полезно знать, высказывает ли клиент свое убеждение.

«Это может, например, привести к сокращению количества сомнительных страховых случаев или ложных заявлений на собеседованиях при приеме на работу. Это не только сократит операционные потери сервисных компаний, но и побудит клиентов быть более правдивыми».

Генерация набора данных

В отсутствие подходящего общедоступного набора данных на немецком языке исследователи из Университета прикладных наук Ной-Ульма (HNU) создали собственный исходный материал. В университете и местных школах были расклеены листовки, отобрано 40 добровольцев в возрасте от 16 лет. Добровольцам платили ваучером Amazon на 10 евро.

Сессии проводились по модели дискуссионного клуба, предназначенной для поляризации мнений и вызывания резкой реакции на зажигательные темы, эффективно моделируя стресс, который может возникнуть в проблемных разговорах с клиентами по телефону.

Темы, на которые волонтеры должны были свободно говорить в течение трех минут публично:

– Следует ли вернуть в Германии смертную казнь и публичные казни?
– Должна ли в Германии взиматься плата за обучение, покрывающая расходы?
– Следует ли легализовать в Германии употребление тяжелых наркотиков, таких как героин и метамфетамин?
– Должны ли быть запрещены в Германии сети ресторанов, предлагающих нездоровый фаст-фуд, такие как McDonald’s или Burger King?

Предварительная обработка

Проект отдавал предпочтение анализу акустических характеристик речи в подходе автоматического распознавания речи (ASR), а не подходе NLP (где речь анализируется на лингвистическом уровне, а «температура» дискурса выводится непосредственно из использования языка).

Предварительно обработанные извлеченные образцы первоначально анализировались с помощью кепстральных коэффициентов Mel-частоты (MFCC), надежного, старого метода, который до сих пор очень популярен в анализе речи. Поскольку этот метод был впервые предложен в 1980 году, он особенно экономно расходует вычислительные ресурсы с точки зрения распознавания повторяющихся шаблонов речи и устойчив к различным уровням качества захвата звука. Поскольку сеансы проводились через платформы VOIP в условиях блокировки в декабре 2020 года, было важно иметь систему записи, которая могла бы учитывать низкое качество звука, когда это необходимо.

Интересно отметить, что два вышеупомянутых технических ограничения (ограниченные ресурсы ЦП в начале 1980-х годов и эксцентричность подключения VOIP в перегруженном сетевом контексте) объединяются здесь, чтобы создать то, что фактически является «технически разреженной» моделью, которая (очевидно) необычайно надежна. при отсутствии идеальных условий работы и высокоуровневых ресурсов — имитация целевой арены для получившегося алгоритма.

После этого быстрое преобразование Фурье (БПФ) алгоритм был применен к аудиосегментам для получения спектрального профиля каждого «аудиокадра» перед окончательным сопоставлением со шкалой Мела.

Обучение, результаты и ограничения

Во время обучения извлеченные векторы признаков передаются на слой сверточной сети с распределенным временем, сглаживаются, а затем передаются на слой LSTM.

Архитектура процесса обучения для детектора правды ИИ. Источник: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Архитектура процесса обучения для детектора правды ИИ. Источник: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Наконец, все нейроны связаны друг с другом, чтобы генерировать бинарное предсказание того, говорит ли говорящий то, что он считает правдой.

В тестах после обучения система достигла уровня точности до 98.91% с точки зрения распознавания намерений (где устное содержание может не отражать намерения). Исследователи считают, что работа эмпирически демонстрирует идентификацию убеждений на основе голосовых паттернов, и что этого можно достичь без деконструкции языка в стиле НЛП.

Что касается ограничений, исследователи признают, что тестовая выборка невелика. Хотя в документе об этом прямо не говорится, тестовые данные небольшого объема могут снизить применимость в дальнейшем в случае, если предположения, архитектурные особенности и общий процесс обучения слишком подходят к данным. В документе отмечается, что шесть из восьми моделей, построенных на протяжении всего проекта, в какой-то момент в процессе обучения были переобучены, и что предстоит проделать дальнейшую работу по обобщению применимости параметров, установленных для модели.

Кроме того, исследования такого рода должны учитывать национальные особенности, и в документе отмечается, что немецкие испытуемые, участвующие в создании данных, могут иметь коммуникативные модели, которые нельзя напрямую воспроизвести в разных культурах — ситуация, которая, вероятно, возникла бы в любом таком исследовании в США. любая нация.