Spojte se s námi

Umělá inteligence

Detektor lži založený na umělé inteligenci pro hovory v call centru

mm

Němečtí výzkumníci použili strojové učení k vytvoření systému pro analýzu zvuku, který má sloužit především jako detektor lži založený na umělé inteligenci pro zákazníky při audio komunikaci s call centrem a pracovníky podpory.

Jedno systém využívá speciálně vytvořený datový soubor zvukových nahrávek od 40 studentů a učitelů během debat na sporná témata, včetně morálky trestu smrti a školného. Model byl trénován na architektuře, která využívá konvoluční neuronové sítě (CNN) a dlouhodobou krátkodobou paměť (LSTM), a dosáhl hlášené míry přesnosti 98 %.

Ačkoli uvedený záměr práce cituje komunikaci se zákazníky, výzkumníci připouštějí, že efektivně funguje jako obecný detektor lži:

„Zjištění jsou použitelná pro širokou škálu servisních procesů a jsou zvláště užitečná pro všechny interakce se zákazníky, které probíhají prostřednictvím telefonu. Uvedený algoritmus lze použít v jakékoli situaci, kdy je pro agenta užitečné vědět, zda zákazník mluví se svým přesvědčením.

„To by mohlo například vést ke snížení počtu pochybných pojistných událostí nebo nepravdivých prohlášení v pracovních pohovorech. To by nejen snížilo provozní ztráty servisních společností, ale také by to povzbudilo zákazníky k větší pravdomluvnosti.“

Generování datové sady

Vzhledem k neexistenci vhodného veřejně dostupného souboru dat v německém jazyce vytvořili vědci z Univerzity aplikovaných věd v Neu-Ulmu (HNU) svůj vlastní zdrojový materiál. Na univerzitě a v místních školách byly vyvěšeny letáky, přičemž bylo vybráno 40 dobrovolníků s minimálním věkem 16 let. Dobrovolníci byli placeni 10eurovým poukazem Amazon.

Sezení byla vedena na modelu debatního klubu, který byl navržen tak, aby polarizoval názory a vyvolal silné reakce na pobuřující témata, účinně modeloval stres, který se může vyskytnout při problémových konverzacích se zákazníky po telefonu.

Témata, o kterých museli dobrovolníci po dobu tří minut volně mluvit na veřejnosti, byla:

– Měl by být v Německu znovu zaveden trest smrti a veřejné popravy?
– Mělo by se v Německu účtovat školné pokrývající náklady?
– Mělo by být v Německu legalizováno užívání tvrdých drog, jako je heroin a pervitin?
– Měly by být v Německu zakázány řetězce restaurací nabízející nezdravé rychlé občerstvení, jako je McDonald's nebo Burger King?

Předzpracování

Projekt upřednostňoval analýzu akustických řečových rysů v přístupu automatického rozpoznávání řeči (ASR) před přístupem NLP (kde je řeč analyzována na lingvistické úrovni a „teplota“ diskurzu je odvozena přímo z užívání jazyka).

Předzpracované extrahované vzorky byly nejprve analyzovány pomocí Mel-frekvenčních kepstrálních koeficientů (MFCC), spolehlivé, starší metody stále velmi oblíbené v analýze řeči. Vzhledem k tomu, že tato metoda byla poprvé navržena v roce 1980, je zvláště šetrná k výpočetním zdrojům, pokud jde o rozpoznávání opakujících se vzorů v řeči, a je odolná vůči různým úrovním kvality zachycení zvuku. Vzhledem k tomu, že relace probíhaly na platformách VOIP v podmínkách uzamčení v prosinci 2020, bylo důležité mít nahrávací rámec, který by v případě potřeby mohl zohlednit špatnou kvalitu zvuku.

Je zajímavé poznamenat, že dvě výše zmíněná technická omezení (omezené zdroje CPU na začátku 1980. let a výstřednosti VoIP konektivity v přetíženém síťovém kontextu) se zde spojují a vytvářejí v podstatě „technicky řídký“ model, který je (zřejmě) neobvykle robustní při absenci ideálních pracovních podmínek a zdrojů na vysoké úrovni – napodobuje cílovou oblast pro výsledný algoritmus.

Poté Rychlá Fourierova transformace (FFT) algoritmus byl aplikován na audio segmenty pro poskytnutí spektrálního profilu každého „audio snímku“ před finálním mapováním na Melovu stupnici.

Školení, výsledky a omezení

Během trénování jsou extrahované příznakové vektory předány časově distribuované konvoluční síťové vrstvě, zploštěny a poté předány vrstvě LSTM.

Architektura tréninkového procesu pro detektor pravdy AI. Zdroj: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Architektura tréninkového procesu pro detektor pravdy AI. Zdroj: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Nakonec jsou všechny neurony vzájemně propojeny, aby se vytvořila binární předpověď, zda mluvčí říká věci, o kterých se domnívají, že jsou pravdivé.

V testech po zaškolení systém dosáhl úrovně přesnosti až 98.91 % z hlediska rozlišení záměru (kde mluvený obsah nemusí odrážet záměr). Výzkumníci se domnívají, že práce empiricky demonstruje identifikaci přesvědčení na základě hlasových vzorů a že toho lze dosáhnout bez dekonstrukce jazyka ve stylu NLP.

Pokud jde o omezení, výzkumníci připouštějí, že testovací vzorek je malý. Ačkoli to dokument výslovně neuvádí, data z testů s malým objemem mohou snížit pozdější použitelnost v případě, že předpoklady, architektonické prvky a obecný proces školení jsou příliš přizpůsobené datům. Článek poznamenává, že šest z osmi modelů konstruovaných v průběhu projektu bylo v určité fázi procesu učení přemontováno a že je třeba udělat další práci na zobecnění použitelnosti parametrů nastavených pro model.

Kromě toho musí výzkum této povahy zohledňovat národní charakteristiky a článek poznamenává, že německé subjekty zapojené do generování dat mohou mít komunikační vzorce, které nejsou přímo replikovatelné napříč kulturami – což je situace, která by pravděpodobně nastala v jakékoli takové studii v jakýkoli národ.