Artificiell intelligens

En AI-baserad lögndetektor för callcentersamtal

Uppdaterad on December 9, 2022

Forskare i Tyskland har använt maskininlärning för att skapa ett ljudanalyssystem som främst är avsett att fungera som en AI-baserad lögndetektor för kunder i ljudkommunikation med callcenter och supportpersonal.

Smakämnen system använder en speciellt skapad datauppsättning av ljudinspelningar av 40 elever och lärare under debatter om kontroversiella ämnen, inklusive dödsstraffets moral och studieavgifter. Modellen tränades på en arkitektur som använder Convolutional Neural Networks (CNN) och Long Short-Term Memory (LSTM), och uppnådde en rapporterad noggrannhet på 98%.

Även om den uttalade avsikten med arbetet citerar kundkommunikation, medger forskarna att det effektivt fungerar som en allmän lögndetektor:

”Fynden är tillämpliga på ett brett utbud av tjänsteprocesser och specifikt användbara för alla kundinteraktioner som sker via telefon. Algoritmen som presenteras kan användas i alla situationer där det är till hjälp för agenten att veta om en kund talar till sin övertygelse.

”Detta kan till exempel leda till en minskning av tveksamma försäkringsfordringar eller osanna påståenden i anställningsintervjuer. Detta skulle inte bara minska operativa förluster för tjänsteföretag, utan också uppmuntra kunderna att vara mer sanningsenliga.'

Datauppsättning

I avsaknad av en lämplig allmänt tillgänglig datauppsättning på tyska, skapade forskarna – från Neu-Ulm University of Applied Sciences (HNU) – sitt eget källmaterial. Flygblad lades ut på universitetet och på lokala skolor, med 40 volontärer utvalda med en minimiålder på 16. Volontärer betalades med en Amazon-kupong på 10 euro.

Sessionerna genomfördes på en debattklubbsmodell utformad för att polarisera åsikter och väcka starka reaktioner kring upphetsande ämnen, och effektivt modellera stressen som kan uppstå i problematiska kundsamtal på telefon.

De ämnen som volontärerna fick tala fritt i tre minuter offentligt var:

– Bör dödsstraffet och offentliga avrättningar återinföras i Tyskland?
– Bör kostnadstäckande studieavgifter tas ut i Tyskland?
– Bör användningen av hårda droger som heroin och crystal meth legaliseras i Tyskland?
– Bör restaurangkedjor som serverar ohälsosam snabbmat, som McDonald's eller Burger King, förbjudas i Tyskland?

Förbearbetning

Projektet gynnade analysen av akustiska talegenskaper i ett tillvägagångssätt med automatisk taligenkänning (ASR) framför en NLP-metod (där tal analyseras på en språklig nivå, och "temperaturen" i diskursen härleds direkt från användningen av språk).

De förbearbetade extraherade proverna analyserades initialt via Mel-frekvens Cepstral Coefficients (MFCCs), en pålitlig, äldre metod som fortfarande är mycket populär inom talanalys. Sedan metoden först föreslogs 1980, är den särskilt sparsam med datorresurser när det gäller att känna igen återkommande mönster i tal, och den är motståndskraftig mot olika nivåer av ljudupptagningskvalitet. Eftersom sessionerna genomfördes över VOIP-plattformar under låsta förhållanden i december 2020, var det viktigt att ha ett inspelningsramverk som kunde ta hänsyn till dålig ljudkvalitet när det var nödvändigt.

Det är intressant att notera att de två ovannämnda tekniska begränsningarna (begränsade CPU-resurser i början av 1980-talet och excentriciteten av VOIP-anslutning i ett överbelastat nätverkssammanhang) kombineras här för att skapa vad som faktiskt är en "tekniskt sparsam" modell som är (uppenbarligen) ovanligt robust i avsaknad av idealiska arbetsförhållanden och resurser på hög nivå – som efterliknar målarenan för den resulterande algoritmen.

Därefter en Fast Fourier-transform (FFT) algoritm applicerades mot ljudsegmenten för att tillhandahålla en spektral profil för varje 'ljudbild', innan den slutliga kartläggningen till Mel-skalan.

Träning, resultat och begränsningar

Under träning skickas de extraherade särdragsvektorerna till ett tidsfördelat faltningsnätslager, plattas ut och skickas sedan till ett LSTM-lager.

Arkitektur för utbildningsprocessen för AI-sanningsdetektorn. Källa: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Slutligen är alla neuroner anslutna till varandra för att generera en binär förutsägelse för huruvida talaren säger saker som de tror är sanna.

I tester efter träning uppnådde systemet en noggrannhetsnivå på upp till 98.91 % vad gäller avsiktsurskiljning (där det talade innehållet kanske inte speglar avsikten). Forskarna anser att arbetet empiriskt visar övertygelseidentifiering baserad på röstmönster, och att detta kan uppnås utan NLP-liknande dekonstruktion av språk.

När det gäller begränsningar medger forskarna att provet är litet. Även om tidningen inte uttryckligen anger det, kan testdata med låg volym minska senare tillämpbarhet i händelse av att antagandena, arkitektoniska funktioner och den allmänna utbildningsprocessen överensstämmer med data. Uppsatsen noterar att sex av de åtta modeller som konstruerats under hela projektet var övermonterade någon gång i inlärningsprocessen, och att det finns ytterligare arbete att göra för att generalisera tillämpbarheten av parametrarna som satts för modellen.

Vidare måste forskning av denna karaktär ta hänsyn till nationella särdrag, och artikeln noterar att de tyska försökspersonerna som är involverade i genereringen av data kan ha kommunikationsmönster som inte är direkt replikerbara mellan kulturer – en situation som sannolikt skulle uppstå i en sådan studie i vilken nation som helst.