Umelá inteligencia

Detektor lži založený na AI pre konverzácie v call centre

Aktualizované on Decembra 9, 2022

Výskumníci v Nemecku použili strojové učenie na vytvorenie systému na analýzu zvuku, ktorý má slúžiť predovšetkým ako detektor lži založený na AI pre zákazníkov pri zvukovej komunikácii s call centrom a podporným personálom.

systém využíva špeciálne vytvorený dátový súbor zvukových nahrávok od 40 študentov a učiteľov počas diskusií o sporných témach vrátane morálky trestu smrti a školného. Model bol trénovaný na architektúre, ktorá využíva konvolučné neurónové siete (CNN) a dlhodobú krátkodobú pamäť (LSTM), a dosiahol uvádzanú mieru presnosti 98 %.

Hoci uvedený zámer práce uvádza komunikáciu so zákazníkmi, výskumníci pripúšťajú, že efektívne funguje ako všeobecný detektor lži:

„Zistenia sú použiteľné pre širokú škálu servisných procesov a sú špecificky užitočné pre všetky interakcie so zákazníkmi, ktoré prebiehajú cez telefón. Uvedený algoritmus je možné použiť v každej situácii, keď je pre agenta užitočné vedieť, či zákazník hovorí s jeho presvedčením.

„To by mohlo viesť napríklad k zníženiu pochybných poistných udalostí alebo nepravdivých tvrdení na pracovných pohovoroch. To by nielen znížilo prevádzkové straty pre servisné spoločnosti, ale aj povzbudilo zákazníkov, aby boli pravdivejší.“

Generovanie množiny údajov

Vzhľadom na to, že neexistuje vhodný verejne dostupný súbor údajov v nemeckom jazyku, výskumníci – z Univerzity aplikovaných vied Neu-Ulm (HNU) – vytvorili svoj vlastný zdrojový materiál. Letáky boli vyvesené na univerzite a v miestnych školách, pričom sa vybralo 40 dobrovoľníkov s minimálnym vekom 16 rokov. Dobrovoľníci boli platení 10-eurovou poukážkou Amazon.

Stretnutia sa uskutočnili na modeli debatného klubu, ktorý bol navrhnutý tak, aby polarizoval názory a vyvolal silné reakcie na zápalové témy, čím efektívne modeloval stres, ktorý sa môže vyskytnúť pri problémových zákazníckych rozhovoroch po telefóne.

Témy, o ktorých mali dobrovoľníci voľne hovoriť tri minúty na verejnosti, boli:

– Mal by sa v Nemecku znovu zaviesť trest smrti a verejné popravy?
– Malo by sa v Nemecku účtovať školné pokrývajúce náklady?
– Malo by byť v Nemecku legalizované užívanie tvrdých drog ako heroín a pervitín?
– Mali by byť v Nemecku zakázané siete reštaurácií, ktoré ponúkajú nezdravé rýchle občerstvenie, ako napríklad McDonald's alebo Burger King?

Predspracovanie

Projekt uprednostnil analýzu akustických prejavov reči v prístupe automatického rozpoznávania reči (ASR) pred prístupom NLP (kde sa reč analyzuje na lingvistickej úrovni a „teplota“ diskurzu sa odvodzuje priamo z používania jazyka).

Vopred spracované extrahované vzorky boli pôvodne analyzované pomocou Mel-frekvenčných kepstrálnych koeficientov (MFCC), spoľahlivej staršej metódy, ktorá je stále veľmi populárna v analýze reči. Keďže táto metóda bola prvýkrát navrhnutá v roku 1980, je obzvlášť šetrná k výpočtovým zdrojom, pokiaľ ide o rozpoznávanie opakujúcich sa vzorov v reči, a je odolná voči rôznym úrovniam kvality snímania zvuku. Keďže v decembri 2020 prebiehali relácie cez platformy VOIP v podmienkach uzamknutia, bolo dôležité mať k dispozícii rámec nahrávania, ktorý by v prípade potreby mohol zodpovedať za nekvalitný zvuk.

Je zaujímavé poznamenať, že dve vyššie uvedené technické obmedzenia (obmedzené zdroje CPU na začiatku osemdesiatych rokov a výstrednosť pripojenia VOIP v kontexte preťaženej siete) sa tu kombinujú a vytvárajú to, čo je v skutočnosti „technicky riedky“ model, ktorý je (zrejme) nezvyčajne robustný. pri absencii ideálnych pracovných podmienok a zdrojov na vysokej úrovni – napodobňovanie cieľovej oblasti pre výsledný algoritmus.

Potom rýchla Fourierova transformácia (FFT) algoritmus bol aplikovaný proti audio segmentom na poskytnutie spektrálneho profilu každého „zvukového rámca“ pred konečným mapovaním na Mel Scale.

Školenie, výsledky a obmedzenia

Počas trénovania sa extrahované vektory znakov prenášajú do časovo rozloženej konvolučnej sieťovej vrstvy, vyrovnávajú sa a potom sa odovzdávajú vrstve LSTM.

Architektúra tréningového procesu pre detektor pravdy AI. Zdroj: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Nakoniec sú všetky neuróny navzájom prepojené, aby sa vytvorila binárna predpoveď, či hovoriaci hovorí alebo nehovorí veci, o ktorých sa domnieva, že sú pravdivé.

V testoch po tréningu systém dosiahol úroveň presnosti až 98.91 % z hľadiska rozlišovania zámerov (kde hovorený obsah nemusí odrážať zámer). Výskumníci sa domnievajú, že práca empiricky demonštruje identifikáciu presvedčenia na základe hlasových vzorov a že to možno dosiahnuť bez dekonštrukcie jazyka v štýle NLP.

Pokiaľ ide o obmedzenia, výskumníci pripúšťajú, že testovaná vzorka je malá. Hoci sa to v dokumente výslovne neuvádza, údaje z testov s malým objemom môžu znížiť neskoršiu použiteľnosť v prípade, že predpoklady, architektonické prvky a všeobecný proces školenia príliš zodpovedajú údajom. Dokument poznamenáva, že šesť z ôsmich modelov vytvorených v rámci projektu bolo v určitom bode procesu učenia nadmerne vybavených a že je potrebné vykonať ďalšiu prácu na zovšeobecnení použiteľnosti parametrov stanovených pre model.

Okrem toho, výskum tohto charakteru musí zohľadňovať národné charakteristiky a článok poznamenáva, že nemecké subjekty zapojené do generovania údajov môžu mať komunikačné vzorce, ktoré nie sú priamo replikovateľné naprieč kultúrami – situácia, ktorá by pravdepodobne nastala pri každej takejto štúdii v ktorýkoľvek národ.