Intelligenza artificiale

Un rilevatore di bugie basato su intelligenza artificiale per le conversazioni nel call center

Published July 27, 2021

Updated April 26, 2026

Martin Anderson

I ricercatori in Germania hanno utilizzato l’apprendimento automatico per creare un sistema di analisi audio destinato principalmente ad agire come un rilevatore di bugie basato su intelligenza artificiale per i clienti nelle comunicazioni audio con il personale del call center e di supporto.

Il sistema utilizza un set di dati appositamente creato di registrazioni audio di 40 studenti e insegnanti durante dibattiti su argomenti controversi, tra cui la moralità della pena di morte e le tasse universitarie. Il modello è stato addestrato su un’architettura che utilizza reti neurali convoluzionali (CNN) e memoria a breve termine lunga (LSTM), e ha raggiunto un tasso di accuratezza dichiarato del 98%.

Sebbene l’intento dichiarato del lavoro citi le comunicazioni con i clienti, i ricercatori ammettono che funziona efficacemente come un rilevatore di bugie generico:

‘I risultati sono applicabili a una vasta gamma di processi di servizio e sono particolarmente utili per tutte le interazioni con i clienti che si svolgono via telefono. L’algoritmo presentato può essere applicato in qualsiasi situazione in cui sia utile per l’agente sapere se un cliente sta parlando con convinzione.

‘Ciò potrebbe, ad esempio, portare a una riduzione delle richieste di assicurazione dubbie o delle dichiarazioni false nei colloqui di lavoro. Ciò non solo ridurrebbe le perdite operative per le società di servizi, ma incoraggerebbe anche i clienti a essere più veritieri.’

Generazione del set di dati

In assenza di un set di dati pubblicamente disponibile adatto in lingua tedesca, i ricercatori – dell’Università di Scienze Applicate di Neu-Ulm (HNU) – hanno creato il loro own materiale di origine. Sono stati pubblicati volantini all’università e nelle scuole locali, con 40 volontari selezionati con un’età minima di 16 anni. I volontari sono stati pagati con un buono Amazon da 10 euro.

Le sessioni sono state condotte su un modello di club di dibattito progettato per polarizzare l’opinione e suscitare forti risposte intorno ad argomenti incendiari, modellando efficacemente lo stress che può verificarsi in conversazioni problematiche con i clienti al telefono.

Gli argomenti su cui i volontari hanno dovuto parlare liberamente per tre minuti in pubblico sono stati:

– La pena di morte e le esecuzioni pubbliche dovrebbero essere reintrodotti in Germania?
– Le tasse universitarie che coprono i costi dovrebbero essere addebitate in Germania?
– L’uso di droghe pesanti come l’eroina e il metanfetamina dovrebbe essere legalizzato in Germania?
– Le catene di ristoranti che servono cibo spazzatura malsano, come McDonald’s o Burger King, dovrebbero essere bandite in Germania?

Pre-elaborazione

Il progetto ha favorito l’analisi delle caratteristiche dell’eloquio acustico in un approccio di riconoscimento automatico del parlato (ASR) rispetto a un approccio NLP (in cui il parlato viene analizzato a livello linguistico e la “temperatura” del discorso viene inferita direttamente dall’uso del linguaggio).

I campioni pre-elaborati estratti sono stati inizialmente analizzati tramite coefficienti cefalici della frequenza di Mel (MFCC), un metodo affidabile e ancora molto popolare nell’analisi del parlato. Poiché il metodo è stato proposto per la prima volta nel 1980, è notevolmente parsimonioso in termini di risorse di calcolo per quanto riguarda il riconoscimento di modelli ricorrenti nel parlato e è resistente a vari livelli di qualità di cattura audio. Poiché le sessioni sono state condotte su piattaforme VOIP in condizioni di blocco nel dicembre 2020, è stato importante avere un framework di registrazione che potesse tenere conto della qualità audio scarsa quando necessario.

È interessante notare che le due limitazioni tecniche sopra menzionate (risorse CPU limitate negli anni ’80 e le eccentricità della connettività VOIP in un contesto di rete congestionato) si combinano qui per creare ciò che è essenzialmente un modello “tecnicamente scarso” che è (apparentemente) insolitamente robusto in assenza di condizioni di lavoro ideali e risorse di alto livello – mimando l’arena di destinazione per l’algoritmo risultante.

Successivamente, è stato applicato un algoritmo di trasformata rapida di Fourier (FFT) ai segmenti audio per fornire un profilo spettrale di ogni “frame” audio, prima della mappatura finale sulla scala di Mel.

Addestramento, risultati e limitazioni

Durante l’addestramento, i vettori di caratteristiche estratti vengono passati a un livello di rete convoluzionale distribuito nel tempo, appiattito e quindi passato a un livello LSTM.

Architettura del processo di addestramento per il rilevatore di verità AI. Fonte: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Infine, tutti i neuroni sono connessi tra loro per generare una previsione binaria per determinare se il parlante sta dicendo cose che ritiene vere.

Nei test dopo l’addestramento, il sistema ha raggiunto un livello di accuratezza fino al 98,91% in termini di discernimento dell’intento (dove il contenuto parlato potrebbe non riflettere l’intento). I ricercatori ritengono che il lavoro dimostri empiricamente l’identificazione della convinzione basata sui modelli vocali e che ciò possa essere realizzato senza la decostruzione del linguaggio in stile NLP.

In termini di limitazioni, i ricercatori ammettono che il campione di test è piccolo. Sebbene la carta non lo affermi esplicitamente, i dati di test a basso volume possono ridurre l’applicabilità successiva nel caso in cui le presunzioni, le caratteristiche architettoniche e il processo di addestramento generale siano sovrapposti ai dati. La carta nota che sei dei otto modelli costruiti nel corso del progetto sono stati sovrapposti in qualche punto del processo di apprendimento e che c’è ulteriore lavoro da fare per generalizzare l’applicabilità dei parametri impostati per il modello.

Inoltre, la ricerca di questo tipo deve tenere conto delle caratteristiche nazionali e la carta nota che i soggetti tedeschi coinvolti nella generazione dei dati possono avere modelli di comunicazione che non sono direttamente riproducibili attraverso le culture – una situazione che probabilmente si verificherebbe in qualsiasi studio del genere in qualsiasi nazione.