Andersons vinkel

En AI-baseret løgndetektor til samtaler i callcenter

mm

Forskere i Tyskland har brugt maskinel læring til at oprette et lydanalyse-system, der primært er designet til at fungere som en AI-baseret løgndetektor for kunder i audio-kommunikation med callcenter- og supportpersonale.

Systemet bruger en særligt udviklet dataset af lydoptagelser fra 40 studerende og lærere under debatter om kontroversielle emner, herunder moralen i dødsstraf og undervisningsgebyrer. Modellen blev trænet på en arkitektur, der anvender Convolutional Neural Networks (CNN) og Long Short-Term Memory (LSTM), og opnåede en rapporteret nøjagtighed på 98%.

Selvom det erklærede formål med arbejdet nævner kunde-kommunikation, indrømmer forskerne, at det i virkeligheden fungerer som en generel løgndetektor:

‘Resultaterne er anvendelige på en bred vifte af serviceprocesser og specifikt nyttige for alle kundeinteraktioner, der finder sted via telefon. Algoritmen kan anvendes i enhver situation, hvor det er nyttigt for agenten at vide, om en kunde taler til sin overbevisning.

‘Dette kunne f.eks. føre til en reduktion i tvivlsomme forsikringskrav eller usandfærdige udsagn i jobsamtaler. Dette ville ikke kun reducere driftstab for servicevirksomheder, men også opmuntre kunderne til at være mere sandfærdige.’

Dataset Generering

I mangelen på en passende offentligt tilgængelig dataset på tysk, skabte forskerne – fra Neu-Ulm Universitet for Anvendt Videnskab (HNU) – deres eget kilde-materiale. Plakater blev sat op på universitetet og på lokale skoler, og 40 frivillige blev valgt med en minimumsalder på 16 år. Frivillige blev betalt med en 10 euro Amazon-voucher.

Sessions blev gennemført på en debatklub-model designet til at polarisere mening og vække stærke reaktioner omkring kontroversielle emner, effektivt modellerer stress, der kan opstå i problematiske kunde-samtaler på telefonen.

Emnerne, som de frivillige skulle tale frit om i tre minutter offentligt, var:

– Skal dødsstraf og offentlige henrettelser genindføres i Tyskland?
– Skal kost-dækkende undervisningsgebyrer pålægges i Tyskland?
– Skal brugen af hårde stoffer som heroin og crystal meth legaliseres i Tyskland?
– Skal restaurantkæder, der serverer usunde hurtige måltider, såsom McDonald’s eller Burger King, forbydes i Tyskland?

Forbehandling

Projektet favoriserede analyse af akustiske tale-egenskaber i en Automatic Speech Recognition (ASR)-tilgang over en NLP-tilgang (hvor tale analyseres på et lingvistisk niveau, og ‘temperaturen’ i diskursen infæres direkte fra sprogbrug).

De forbehandlede eksempler blev analyseret initialt via Mel-frequency Cepstral Coefficients (MFCC), en pålidelig, ældre metode, der stadig er meget populær i tale-analyse. Da metoden først blev foreslået i 1980, er den bemærkelsesværdigt sparsom med beregningsressourcer i forhold til at genkende gentagne mønstre i tale, og er robust over for forskellige niveauer af lydoptagelses-kvalitet. Da sessionerne blev gennemført over VOIP-platforme under låsning i december 2020, var det vigtigt at have en optagelses-ramme, der kunne tage højde for dårlig kvalitet af lyd, hvis nødvendigt.

Det er interessant at bemærke, at de to nævnte tekniske begrænsninger (begrænsede CPU-ressourcer i begyndelsen af 1980’erne og de ekscentriske aspekter af VOIP-forbindelser i en overbelastet netværkskontekst) kombinerer her for at skabe, hvad der effektivt er et ‘teknisk sparsomt’ model, der (apparent) er usædvanligt robust i mangelen på ideelle arbejdsbetingelser og høj-niveaueressourcer – efterligner mål-arenen for den resulterende algoritme.

Herefter blev en Fast Fourier Transform (FFT)-algoritme anvendt mod lyd-segmenterne for at levere en spektral profil af hver ‘lyd-ramme’, før endelig afbildning til Mel-Skalaen.

Træning, Resultater og Begrænsninger

Under træning blev de ekstraherede egenskabs-vektorer overført til et tidsfordelt konvolutions-neuralt netværkslag, fladt og derefter overført til et LSTM-lag.

Arkitektur af træningsprocessen for AI-sandheds-detektoren. Kilde: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Arkitektur af træningsprocessen for AI-sandheds-detektoren. Kilde: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Til sidst er alle neuroner forbundet til hinanden for at generere en binær forudsigelse af, om taleren siger ting, som de tror er sande.

I tests efter træning opnåede systemet en nøjagtighedsgrad på op til 98,91% i forhold til intentionsskæl (hvor den talte indhold måske ikke reflekterer intentionen). Forskerne mener, at arbejdet empirisk demonstrerer overbevisningsidentifikation baseret på stemmønstre, og at dette kan opnås uden NLP-stil dekonstruktion af sprog.

I forhold til begrænsninger indrømmer forskerne, at test-eksemplet er lille. Selvom artiklen ikke udtrykkeligt siger det, kan lav-volumen test-data reducere senere anvendelighed i tilfælde af, at antagelserne, arkitektoniske egenskaber og den generelle træningsproces er over-tilpasset til data. Artiklen nævner, at seks af de otte modeller, der blev konstrueret under projektet, var over-tilpasset på et tidspunkt i læreprocessen, og at der er yderligere arbejde at gøre for at generalisere anvendeligheden af parametrene, der er fastsat for modellen.

Yderligere skal forskning af denne art tage højde for nationale karakteristika, og artiklen nævner, at de tyske emner, der var involveret i genereringen af data, kan have kommunikationsmønstre, der ikke direkte kan gentages på tværs af kulturer – en situation, der sandsynligvis ville opstå i enhver lignende studie i enhver nation.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.