заглушки Детектор брехні на основі ШІ для розмов у колл-центрі - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Детектор брехні на основі ШІ для розмов у колл-центрі

mm
оновлений on

Дослідники з Німеччини використали машинне навчання, щоб створити систему аудіоаналізу, призначену в основному як детектор брехні на основі штучного інтелекту для клієнтів під час аудіоспілкування з кол-центром і персоналом служби підтримки.

Команда система використовує спеціально створений набір даних аудіозаписів 40 студентів і викладачів під час дебатів на спірні теми, включно з моральністю смертної кари та платою за навчання. Модель була навчена на архітектурі, яка використовує згорточні нейронні мережі (CNN) і довготривалу короткочасну пам’ять (LSTM), і досягла рівня точності 98%.

Хоча заявлений намір роботи посилається на повідомлення клієнтів, дослідники визнають, що вона ефективно працює як детектор брехні загального призначення:

«Висновки застосовні до широкого спектру процесів надання послуг і особливо корисні для всіх взаємодій з клієнтами, які відбуваються по телефону. Представлений алгоритм може бути застосований у будь-якій ситуації, коли агенту корисно знати, чи клієнт висловлює свої переконання.

«Це може, наприклад, призвести до зменшення сумнівних страхових вимог або неправдивих заяв під час співбесід. Це не тільки зменшить операційні втрати для обслуговуючих компаній, але й заохотить клієнтів бути більш правдивими».

Генерація набору даних

Через відсутність відповідного загальнодоступного набору даних німецькою мовою дослідники з Університету прикладних наук Ной-Ульма (HNU) створили власний вихідний матеріал. В університеті та в місцевих школах були розклеєні листівки, відібрано 40 волонтерів віком від 16 років. Волонтерам платили ваучером Amazon на 10 євро.

Заняття проводилися за моделлю дебатного клубу, розробленого для поляризації думок і виклику сильних реакцій на запальні теми, ефективно моделюючи стрес, який може виникнути під час проблемних розмов клієнтів по телефону.

Теми, на які волонтери мали вільно висловлюватися протягом трьох хвилин публічно:

– Чи варто в Німеччині знову запровадити смертну кару та публічні страти?
– Чи потрібно стягувати плату за навчання в Німеччині?
– Чи слід у Німеччині легалізувати вживання важких наркотиків, таких як героїн і метамфетамін?
– Чи варто заборонити в Німеччині мережі ресторанів, які подають нездоровий фаст-фуд, наприклад McDonald's чи Burger King?

Попередня обробка

Проект віддав перевагу аналізу характеристик акустичного мовлення в підході автоматичного розпізнавання мовлення (ASR), а не підході NLP (де мова аналізується на лінгвістичному рівні, а «температура» дискурсу визначається безпосередньо з використання мови).

Попередньо оброблені витягнуті зразки були спочатку проаналізовані за допомогою Кепстральних коефіцієнтів Мел-частоти (MFCC), надійного старішого методу, який все ще дуже популярний у аналізі мови. Оскільки цей метод був вперше запропонований у 1980 році, він помітно ощадливий з обчислювальними ресурсами з точки зору розпізнавання повторюваних шаблонів у мовленні та є стійким до різних рівнів якості запису звуку. Оскільки сеанси проводилися на платформах VOIP в умовах блокування в грудні 2020 року, було важливо мати структуру запису, яка могла б пояснити аудіо низької якості, коли це було необхідно.

Цікаво відзначити, що два вищезазначені технічні обмеження (обмежені ресурси процесора на початку 1980-х років і дивацтва підключення VOIP у контексті перевантаженої мережі) поєднуються тут, щоб створити те, що фактично є «технічно розрідженою» моделлю, яка є (очевидно) надзвичайно надійною за відсутності ідеальних умов роботи та ресурсів високого рівня – імітація цільової арени для кінцевого алгоритму.

Після цього швидке перетворення Фур'є (ШПФ) алгоритм застосовувався до аудіосегментів для надання спектрального профілю кожного «аудіокадру» перед остаточним відображенням у шкалі Мела.

Навчання, результати та обмеження

Під час навчання витягнуті вектори ознак передаються на розподілений у часі згортковий мережевий рівень, вирівнюються, а потім передаються на рівень LSTM.

Архітектура процесу навчання для детектора правди ШІ. Джерело: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Архітектура процесу навчання для детектора правди ШІ. Джерело: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Нарешті, усі нейрони з’єднані один з одним, щоб генерувати двійкове передбачення щодо того, чи говорить мовець те, що він вважає правдою.

У тестах після навчання система досягла рівня точності до 98.91% щодо визначення наміру (де промовлений вміст може не відображати наміри). Дослідники вважають, що робота емпірично демонструє ідентифікацію переконань на основі голосових патернів, і що цього можна досягти без деконструкції мови в стилі НЛП.

Що стосується обмежень, дослідники визнають, що тестова вибірка невелика. Незважаючи на те, що в документі це прямо не зазначено, тестові дані малого обсягу можуть зменшити можливість подальшого застосування у випадку, якщо припущення, архітектурні особливості та загальний процес навчання не відповідають даним. У документі зазначається, що шість із восьми моделей, створених протягом усього проекту, були переналаштовані на певному етапі процесу навчання, і що потрібно ще попрацювати над узагальненням застосовності набору параметрів для моделі.

Крім того, дослідження такого характеру повинні враховувати національні особливості, і в документі зазначається, що німецькі суб’єкти, залучені до генерації даних, можуть мати моделі спілкування, які не можна безпосередньо відтворити в різних культурах – ситуація, яка, ймовірно, виникне в будь-якому такому дослідженні в будь-якої нації.