Inteligencia artificial

Un detector de mentiras basado en IA para conversaciones en centros de llamadas

Published July 27, 2021

Updated April 5, 2026

Martin Anderson

Los investigadores en Alemania han utilizado el aprendizaje automático para crear un sistema de análisis de audio destinado principalmente a actuar como un detector de mentiras basado en IA para clientes en comunicaciones de audio con personal de centros de llamadas y soporte.

El sistema utiliza un conjunto de datos especialmente creado de grabaciones de audio de 40 estudiantes y profesores durante debates sobre temas controvertidos, incluida la moralidad de la pena de muerte y las tasas de matrícula. El modelo se entrenó en una arquitectura que utiliza Redes Neuronales Convolucionales (CNN) y Memoria Corta y Larga (LSTM), y logró una tasa de precisión informada del 98%.

Aunque la intención declarada del trabajo cita las comunicaciones con clientes, los investigadores admiten que efectivamente opera como un detector de mentiras de propósito general:

‘Los hallazgos son aplicables a una amplia gama de procesos de servicio y específicamente útiles para todas las interacciones con clientes que tienen lugar a través del teléfono. El algoritmo presentado se puede aplicar en cualquier situación en la que sea útil para el agente saber si un cliente está hablando con convicción.

‘Esto podría, por ejemplo, llevar a una reducción de reclamaciones de seguros dudosas o declaraciones falsas en entrevistas de trabajo. Esto no solo reduciría las pérdidas operativas para las empresas de servicios, sino que también alentaría a los clientes a ser más veraces.’

Generación del conjunto de datos

En ausencia de un conjunto de datos públicamente disponible en el idioma alemán, los investigadores – de la Universidad de Ciencias Aplicadas de Neu-Ulm (HNU) – crearon su propio material de origen. Se publicaron folletos en la universidad y en escuelas locales, y se seleccionaron 40 voluntarios con una edad mínima de 16 años. Los voluntarios fueron pagados con un vale de Amazon de 10 euros.

Las sesiones se llevaron a cabo en un modelo de club de debate diseñado para polarizar la opinión y provocar respuestas fuertes alrededor de temas incendiarios, efectivamente modelando el estrés que puede ocurrir en conversaciones problemáticas de clientes por teléfono.

Los temas sobre los que los voluntarios tuvieron que hablar libremente durante tres minutos en público fueron:

– ¿Debería reintroducirse la pena de muerte y las ejecuciones públicas en Alemania?
– ¿Deberían cobrarse tasas de matrícula que cubran los costos en Alemania?
– ¿Debería legalizarse el uso de drogas duras como la heroína y el metanfetamina en Alemania?
– ¿Deberían prohibirse las cadenas de restaurantes que sirven comida rápida poco saludable, como McDonald’s o Burger King, en Alemania?

Preprocesamiento

El proyecto favoreció el análisis de características de habla acústica en un enfoque de Reconocimiento Automático del Habla (ASR) sobre un enfoque de NLP (donde el habla se analiza a nivel lingüístico, y la ‘temperatura’ del discurso se infiere directamente del uso del lenguaje).

Las muestras extraídas y preprocesadas se analizaron inicialmente a través de Coeficientes Cepstrales de Frecuencia de Mel (MFCC), un método antiguo pero fiable que aún es muy popular en el análisis del habla. Dado que el método se propuso por primera vez en 1980, es notablemente frugal en términos de recursos de computación para reconocer patrones recurrentes en el habla, y es resistente a varios niveles de calidad de captura de audio. Dado que las sesiones se llevaron a cabo en plataformas de VOIP en condiciones de bloqueo en diciembre de 2020, fue importante tener un marco de grabación que pudiera tener en cuenta la mala calidad del audio cuando fuera necesario.

Es interesante destacar que las dos limitaciones técnicas mencionadas (recursos de CPU limitados a principios de la década de 1980 y las excentricidades de la conectividad de VOIP en un contexto de red congestionada) se combinan aquí para crear lo que es efectivamente un modelo ‘técnicamente escaso’ que es (aparentemente) inusualmente robusto en ausencia de condiciones de trabajo ideales y recursos de alto nivel – imitando el ámbito objetivo para el algoritmo resultante.

Posteriormente, se aplicó un algoritmo de Transformada Rápida de Fourier (FFT) a los segmentos de audio para suministrar un perfil espectral de cada ‘marco de audio’, antes de asignarlo finalmente a la Escala de Mel.

Entrenamiento, resultados y limitaciones

Durante el entrenamiento, los vectores de características extraídos se pasan a una capa de red neuronal convolucional distribuida en el tiempo, se aplanan y luego se pasan a una capa de LSTM.

Arquitectura del proceso de entrenamiento para el detector de verdad de IA. Fuente: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Finalmente, todas las neuronas están conectadas entre sí para generar una predicción binaria sobre si el hablante está diciendo cosas que cree que son verdaderas.

En las pruebas después del entrenamiento, el sistema logró un nivel de precisión de hasta el 98,91% en términos de discernimiento de la intención (donde el contenido hablado puede no reflejar la intención). Los investigadores consideran que el trabajo demuestra empíricamente la identificación de la convicción basada en patrones de voz, y que esto se puede lograr sin la descomposición del lenguaje al estilo de NLP.

En términos de limitaciones, los investigadores admiten que la muestra de prueba es pequeña. Aunque el documento no lo establece explícitamente, los datos de prueba de bajo volumen pueden reducir la aplicabilidad posterior en el caso de que las suposiciones, las características arquitectónicas y el proceso de entrenamiento general se ajusten en exceso a los datos. El documento señala que seis de los ocho modelos construidos a lo largo del proyecto se ajustaron en exceso en algún momento del proceso de aprendizaje, y que hay más trabajo por hacer para generalizar la aplicabilidad de los parámetros establecidos para el modelo.

Además, la investigación de este tipo debe tener en cuenta las características nacionales, y el documento señala que los sujetos alemanes involucrados en la generación de los datos pueden tener patrones de comunicación que no se pueden replicar directamente a través de culturas – una situación que probablemente surgiría en cualquier estudio de este tipo en cualquier nación.