stub En AI-basert løgndetektor for Call Center-samtaler - Unite.AI
Kontakt med oss

Kunstig intelligens

En AI-basert løgndetektor for Call Center-samtaler

mm
oppdatert on

Forskere i Tyskland har brukt maskinlæring for å lage et lydanalysesystem som først og fremst skal fungere som en AI-basert løgndetektor for kunder i lydkommunikasjon med kundesenter og støttepersonell.

De system bruker et spesiallaget datasett med lydopptak av 40 elever og lærere under debatter om omstridte emner, inkludert dødsstraffens moral og skolepenger. Modellen ble trent på en arkitektur som bruker Convolutional Neural Networks (CNNs) og Long Short-Term Memory (LSTM), og oppnådde en rapportert nøyaktighetsrate på 98%.

Selv om den uttalte intensjonen med arbeidet siterer kundekommunikasjon, innrømmer forskerne at det effektivt fungerer som en generell løgndetektor:

Funnene er anvendelige for et bredt spekter av tjenesteprosesser og spesielt nyttige for alle kundeinteraksjoner som foregår via telefon. Algoritmen som presenteres kan brukes i enhver situasjon der det er nyttig for agenten å vite om en kunde snakker til sin overbevisning.

«Dette kan for eksempel føre til reduksjon av tvilsomme forsikringskrav, eller usanne utsagn i jobbintervjuer. Dette vil ikke bare redusere driftstap for serviceselskaper, men også oppmuntre kundene til å være mer sannferdige.'

Datasettgenerering

I mangel av et passende offentlig tilgjengelig datasett på tysk, laget forskerne – fra Neu-Ulm University of Applied Sciences (HNU) – sitt eget kildemateriale. Flygeblader ble lagt ut ved universitetet og på lokale skoler, med 40 frivillige valgt med en minimumsalder på 16. Frivillige ble betalt med en Amazon-kupong på 10 euro.

Sesjonene ble gjennomført på en debattklubbmodell designet for å polarisere meninger og vekke sterke reaksjoner rundt brennende temaer, og effektivt modellere stresset som kan oppstå i problematiske kundesamtaler på telefonen.

Temaene som de frivillige måtte snakke fritt om i tre minutter offentlig var:

– Bør dødsstraff og offentlige henrettelser gjeninnføres i Tyskland?
– Bør kostnadsdekkende skolepenger belastes i Tyskland?
– Bør bruken av harde stoffer som heroin og crystal meth legaliseres i Tyskland?
– Bør restaurantkjeder som serverer usunn hurtigmat, som McDonald's eller Burger King, forbys i Tyskland?

Forbehandling

Prosjektet favoriserte analysen av akustiske taleegenskaper i en tilnærming med automatisk talegjenkjenning (ASR) fremfor en NLP-tilnærming (der tale analyseres på et språklig nivå, og 'temperaturen' til diskursen utledes direkte fra bruk av språk).

De forhåndsbehandlede ekstraherte prøvene ble først analysert via Mel-frekvens Cepstral Coefficients (MFCCs), en pålitelig, eldre metode som fortsatt er veldig populær i taleanalyse. Siden metoden først ble foreslått i 1980, er den spesielt nøysom med dataressurser når det gjelder å gjenkjenne tilbakevendende mønstre i tale, og er motstandsdyktig mot ulike nivåer av lydopptakskvalitet. Fordi øktene ble gjennomført over VOIP-plattformer under låste forhold i desember 2020, var det viktig å ha et opptaksrammeverk som kunne ta hensyn til dårlig lydkvalitet når det var nødvendig.

Det er interessant å merke seg at de to nevnte tekniske begrensningene (begrensede CPU-ressurser på begynnelsen av 1980-tallet og eksentrisitetene til VOIP-tilkobling i en overbelastet nettverkskontekst) kombineres her for å skape det som faktisk er en "teknisk sparsom" modell som er (tilsynelatende) uvanlig robust i fravær av ideelle arbeidsforhold og ressurser på høyt nivå – etterligner målarenaen for den resulterende algoritmen.

Deretter en Fast Fourier-transformasjon (FFT) algoritme ble brukt mot lydsegmentene for å gi en spektral profil for hver 'lydramme', før den endelige kartleggingen til Mel-skalaen.

Trening, resultater og begrensninger

Under trening blir de ekstraherte egenskapsvektorene sendt til et tidsfordelt konvolusjonelt nettverkslag, flatet ut og deretter sendt til et LSTM-lag.

Arkitektur av treningsprosessen for AI-sannhetsdetektoren. Kilde: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Arkitektur av treningsprosessen for AI-sannhetsdetektoren. Kilde: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Til slutt er alle nevronene koblet til hverandre for å generere en binær prediksjon for om taleren sier ting de mener er sanne eller ikke.

I tester etter trening oppnådde systemet et nøyaktighetsnivå på opptil 98.91 % når det gjelder intensjonsavstand (hvor det talte innholdet kanskje ikke gjenspeiler intensjonen). Forskerne vurderer at arbeidet empirisk demonstrerer overbevisningsidentifikasjon basert på stemmemønstre, og at dette kan oppnås uten NLP-lignende dekonstruksjon av språk.

Når det gjelder begrensninger, innrømmer forskerne at prøveutvalget er lite. Selv om papiret ikke sier det eksplisitt, kan testdata med lavt volum redusere senere anvendelighet i tilfelle forutsetningene, de utformede funksjonene og den generelle opplæringsprosessen er overtilpasset til dataene. Artikkelen bemerker at seks av de åtte modellene som ble konstruert gjennom prosjektet ble overtilpasset på et tidspunkt i læringsprosessen, og at det er ytterligere arbeid som må gjøres for å generalisere anvendeligheten til parameterne som er satt for modellen.

Videre må forskning av denne art ta hensyn til nasjonale særtrekk, og papiret bemerker at de tyske subjektene som er involvert i genereringen av dataene kan ha kommunikasjonsmønstre som ikke er direkte replikerbare på tvers av kulturer – en situasjon som sannsynligvis vil oppstå i en slik studie i enhver nasjon.