Изкуствен интелект

Базиран на AI детектор на лъжата за разговори в кол център

Обновено on Декември 9, 2022

Изследователи в Германия са използвали машинно обучение, за да създадат система за аудио анализ, предназначена основно да действа като базиран на изкуствен интелект детектор на лъжата за клиенти в аудио комуникации с кол център и обслужващ персонал.

- система използва специално създаден набор от аудиозаписи на 40 студенти и учители по време на дебати по спорни теми, включително морала на смъртното наказание и таксите за обучение. Моделът е обучен върху архитектура, която използва конволюционни невронни мрежи (CNN) и дългосрочна краткосрочна памет (LSTM), и е постигнал докладван процент на точност от 98%.

Въпреки че обявеното намерение на работата цитира комуникации с клиенти, изследователите признават, че тя ефективно работи като детектор на лъжата с общо предназначение:

„Констатациите са приложими за широк спектър от процеси на обслужване и са особено полезни за всички взаимодействия с клиенти, които се осъществяват по телефона. Представеният алгоритъм може да се приложи във всяка ситуация, в която е полезно за агента да разбере дали клиентът говори според убежденията си.

„Това може например да доведе до намаляване на съмнителните застрахователни искове или неверни твърдения на интервюта за работа. Това не само ще намали оперативните загуби за обслужващите компании, но и ще насърчи клиентите да бъдат по-честни.

Генериране на набор от данни

При липсата на подходящ публично достъпен набор от данни на немски език, изследователите от Университета за приложни науки в Ной-Улм (HNU) създадоха свой собствен изходен материал. В университета и в местните училища бяха разлепени листовки, като бяха избрани 40 доброволци с минимална възраст 16 години. На доброволците беше платено с ваучер от 10 евро на Amazon.

Сесиите бяха проведени по модел на дебат клуб, предназначен да поляризира мненията и да събуди силни реакции около възпламенителни теми, като ефективно моделира стреса, който може да възникне при проблемни разговори с клиенти по телефона.

Темите, по които доброволците трябваше да говорят свободно в продължение на три минути публично, бяха:

– Трябва ли отново да се въведат смъртното наказание и публичните екзекуции в Германия?
– Трябва ли в Германия да се начисляват покриващи разходите такси за обучение?
– Трябва ли да се легализира употребата на твърди наркотици като хероин и метамфетамин в Германия?
– Трябва ли в Германия да бъдат забранени вериги ресторанти, предлагащи нездравословна бърза храна, като McDonald's или Burger King?

Предварителна обработка

Проектът благоприятства анализа на характеристиките на акустичната реч в подхода за автоматично разпознаване на реч (ASR) пред подхода на НЛП (където речта се анализира на лингвистично ниво и „температурата“ на дискурса се извежда директно от използването на езика).

Предварително обработените извлечени проби бяха анализирани първоначално чрез Мел-честотни Кепстрални коефициенти (MFCC), надежден, по-стар метод, все още много популярен в анализа на речта. Тъй като методът е предложен за първи път през 1980 г., той е особено пестелив с изчислителни ресурси по отношение на разпознаването на повтарящи се модели в речта и е устойчив на различни нива на качество на аудиозаснемане. Тъй като сесиите бяха проведени през VOIP платформи в условия на блокиране през декември 2020 г., беше важно да има рамка за запис, която да отчете лошото качество на звука, когато е необходимо.

Интересно е да се отбележи, че двете гореспоменати технически ограничения (ограничени ресурси на процесора в началото на 1980-те години на миналия век и ексцентричността на VOIP свързаността в претоварен мрежов контекст) се комбинират тук, за да създадат това, което всъщност е „технически оскъден“ модел, който е (очевидно) необичайно здрав при липса на идеални условия за работа и ресурси на високо ниво – имитиране на целевата арена за получения алгоритъм.

След това бързо преобразуване на Фурие (FFT) алгоритъмът беше приложен към аудио сегментите, за да предостави спектрален профил на всеки „аудио кадър“, преди окончателното картографиране към Мел скалата.

Обучение, резултати и ограничения

По време на обучението извлечените вектори на характеристиките се предават на разпределен във времето конволюционен мрежов слой, изравняват се и след това се предават на слой LSTM.

Архитектура на процеса на обучение за AI детектор на истината. Източник: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

И накрая, всички неврони са свързани помежду си, за да генерират двоична прогноза за това дали говорещият казва неща, които смятат за верни.

При тестове след обучение системата постигна ниво на точност до 98.91% по отношение на разпознаването на намерението (където изговореното съдържание може да не отразява намерението). Изследователите смятат, че работата емпирично демонстрира идентификация на убеждението въз основа на гласови модели и че това може да се постигне без деконструкция на езика в стил НЛП.

По отношение на ограниченията, изследователите признават, че тестовата извадка е малка. Въпреки че документът не го посочва изрично, тестовите данни с малък обем могат да намалят по-късната приложимост в случай, че презумпциите, архитектурните характеристики и общият процес на обучение са прекалено подходящи за данните. В документа се отбелязва, че шест от осемте модела, конструирани по време на проекта, са били пренастроени в даден момент от процеса на обучение и че трябва да се направи допълнителна работа за обобщаване на приложимостта на параметрите, зададени за модела.

Освен това, изследванията от такова естество трябва да отчитат националните характеристики и документът отбелязва, че германските субекти, участващи в генерирането на данни, може да имат комуникационни модели, които не се възпроизвеждат директно в различните култури – ситуация, която вероятно би възникнала при всяко такова проучване в всяка нация.