Ângulo de Anderson
Um Detetor de Mentiras Baseado em IA para Conversas em Centros de Atendimento

Pesquisadores na Alemanha utilizaram aprendizado de máquina para criar um sistema de análise de áudio destinado principalmente a atuar como um detetor de mentiras baseado em IA para clientes em comunicações de áudio com funcionários de centros de atendimento e suporte.
O sistema utiliza um conjunto de dados especialmente criado de gravações de áudio por 40 estudantes e professores durante debates sobre temas controversos, incluindo a moralidade da pena de morte e taxas de matrícula. O modelo foi treinado em uma arquitetura que utiliza Redes Neurais Convolucionais (CNNs) e Memória de Longo Prazo (LSTM), e alcançou uma taxa de precisão relatada de 98%.
Embora a intenção declarada do trabalho cite comunicações de clientes, os pesquisadores admitem que ele efetivamente opera como um detetor de mentiras de propósito geral:
‘Os resultados são aplicáveis a uma ampla gama de processos de serviço e especificamente úteis para todas as interações de clientes que ocorrem via telefone. O algoritmo apresentado pode ser aplicado em qualquer situação em que seja útil para o agente saber se um cliente está falando com convicção.
‘Isso poderia, por exemplo, levar a uma redução de reclamações duvidosas de seguros, ou declarações falsas em entrevistas de emprego. Isso não apenas reduziria perdas operacionais para empresas de serviços, mas também incentivaria os clientes a serem mais honestos.’
Geração do Conjunto de Dados
Na ausência de um conjunto de dados públicos adequado na língua alemã, os pesquisadores – da Universidade de Ciências Aplicadas de Neu-Ulm (HNU) – criaram seu próprio material de origem. Folhetos foram postados na universidade e em escolas locais, com 40 voluntários selecionados com idade mínima de 16 anos. Os voluntários foram pagos com um voucher de 10 euros da Amazon.
As sessões foram realizadas em um modelo de clube de debates projetado para polarizar opiniões e provocar respostas fortes em torno de tópicos incendiários, efetivamente modelando o estresse que pode ocorrer em conversas de clientes problemáticas ao telefone.
Os tópicos sobre os quais os voluntários tiveram que falar livremente por três minutos em público foram:
– A pena de morte e execuções públicas devem ser reintroduzidas na Alemanha?
– Devem ser cobradas taxas de matrícula que cubram os custos na Alemanha?
– O uso de drogas duras, como heroína e metanfetamina, deve ser legalizado na Alemanha?
– Cadeias de restaurantes que servem comida rápida não saudável, como McDonald’s ou Burger King, devem ser proibidas na Alemanha?
Pré-Processamento
O projeto favoreceu a análise de recursos de fala acústica em uma abordagem de Reconhecimento Automático de Fala (ASR) sobre uma abordagem de PLN (onde a fala é analisada em um nível linguístico, e a “temperatura” do discurso é inferida diretamente do uso da linguagem).
As amostras extraídas pré-processadas foram analisadas inicialmente por meio de Coeficientes Cepstrais de Frequência de Mel (MFCCs), um método confiável e antigo ainda muito popular na análise de fala. Desde que o método foi proposto pela primeira vez em 1980, é notavelmente frugal em termos de recursos de computação para reconhecer padrões recorrentes na fala, e é resistente a vários níveis de qualidade de captura de áudio. Como as sessões foram realizadas em plataformas de VOIP em condições de lockdown em dezembro de 2020, foi importante ter um quadro de gravação que pudesse levar em conta áudio de baixa qualidade quando necessário.
É interessante notar que as duas limitações técnicas mencionadas (recursos de CPU limitados nos anos 80 e as peculiaridades da conectividade VOIP em um contexto de rede congestionada) se combinam aqui para criar o que é efetivamente um modelo “tecnicamente esparsamente” que é (aparentemente) incomumente robusto na ausência de condições de trabalho ideais e recursos de alto nível – imitando o arena-alvo para o algoritmo resultante.
Em seguida, um algoritmo de Transformada Rápida de Fourier (FFT) foi aplicado contra os segmentos de áudio para fornecer um perfil espectral de cada “quadro de áudio”, antes do mapeamento final para a Escala de Mel.
Treinamento, Resultados e Limitações
Durante o treinamento, os vetores de recursos extraídos são passados para uma camada de rede convolucional distribuída no tempo, achatados e, em seguida, passados para uma camada LSTM.

Arquitetura do processo de treinamento do detetor de mentiras de IA. Fonte: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf
Finalmente, todos os neurônios são conectados uns aos outros para gerar uma previsão binária de se o falante está dizendo coisas que acredita serem verdadeiras.
Nos testes após o treinamento, o sistema alcançou um nível de precisão de até 98,91% em termos de discernimento de intenção (onde o conteúdo falado pode não refletir a intenção). Os pesquisadores consideram que o trabalho demonstra empiricamente a identificação de convicção com base em padrões de voz, e que isso pode ser alcançado sem a desconstrução de linguagem no estilo PLN.
Em termos de limitações, os pesquisadores admitem que a amostra de teste é pequena. Embora o artigo não afirme explicitamente, dados de teste de baixo volume podem reduzir a aplicabilidade posterior no evento de que as suposições, recursos arquitetados e o processo de treinamento geral sejam superajustados aos dados. O artigo observa que seis dos oito modelos construídos durante o projeto foram superajustados em algum ponto do processo de aprendizado, e que há mais trabalho a ser feito na generalização da aplicabilidade dos parâmetros definidos para o modelo.
Além disso, a pesquisa deste tipo deve levar em conta as características nacionais, e o artigo observa que os sujeitos alemães envolvidos na geração dos dados podem ter padrões de comunicação que não são diretamente replicáveis entre culturas – uma situação que provavelmente surgiria em qualquer estudo desse tipo em qualquer nação.












