talón Un detector de mentiras basado en IA para conversaciones en centros de llamadas - Unite.AI
Contáctanos

Inteligencia artificial

Un detector de mentiras basado en IA para conversaciones en centros de llamadas

mm
Actualizado on

Investigadores en Alemania han utilizado el aprendizaje automático para crear un sistema de análisis de audio destinado principalmente a actuar como un detector de mentiras basado en inteligencia artificial para los clientes en comunicaciones de audio con el centro de llamadas y el personal de soporte.

El te utiliza un conjunto de datos especialmente creado de grabaciones de audio de 40 estudiantes y profesores durante debates sobre temas polémicos, incluida la moralidad de la pena de muerte y las tasas de matrícula. El modelo se entrenó en una arquitectura que utiliza redes neuronales convolucionales (CNN) y memoria a corto plazo (LSTM) y logró una tasa de precisión reportada del 98%.

Aunque la intención declarada del trabajo cita las comunicaciones con los clientes, los investigadores admiten que funciona efectivamente como un detector de mentiras de propósito general:

'Los resultados son aplicables a una amplia gama de procesos de servicio y son especialmente útiles para todas las interacciones con los clientes que tienen lugar por teléfono. El algoritmo presentado se puede aplicar en cualquier situación en la que sea útil para el agente saber si un cliente está hablando de su convicción.

'Esto podría, por ejemplo, conducir a una reducción de reclamos de seguro dudosos o declaraciones falsas en entrevistas de trabajo. Esto no solo reduciría las pérdidas operativas para las empresas de servicios, sino que también alentaría a los clientes a ser más veraces”.

Generación de conjuntos de datos

En ausencia de un conjunto de datos adecuado disponible públicamente en idioma alemán, los investigadores, de la Universidad de Ciencias Aplicadas de Neu-Ulm (HNU), crearon su propio material de origen. Se colocaron volantes en la universidad y en las escuelas locales, y se seleccionaron 40 voluntarios con una edad mínima de 16 años. Se pagó a los voluntarios con un cupón de Amazon de 10 euros.

Las sesiones se llevaron a cabo en un modelo de club de debate diseñado para polarizar la opinión y generar fuertes respuestas en torno a temas incendiarios, modelando de manera efectiva el estrés que puede ocurrir en las conversaciones telefónicas problemáticas con los clientes.

Los temas sobre los que los voluntarios tuvieron que hablar libremente durante tres minutos en público fueron:

– ¿Deberían reintroducirse la pena de muerte y las ejecuciones públicas en Alemania?
– ¿Deberían cobrarse tasas de matrícula que cubran los costes en Alemania?
– ¿Debería legalizarse en Alemania el uso de drogas duras como la heroína y la metanfetamina?
– ¿Deberían prohibirse en Alemania las cadenas de restaurantes que sirven comida rápida poco saludable, como McDonald's o Burger King?

Preprocesamiento

El proyecto favoreció el análisis de las características acústicas del habla en un enfoque de Reconocimiento Automático del Habla (ASR) sobre un enfoque de PNL (donde el habla se analiza a nivel lingüístico y la 'temperatura' del discurso se infiere directamente del uso del lenguaje).

Las muestras extraídas preprocesadas se analizaron inicialmente mediante coeficientes cepstrales de frecuencia Mel (MFCC), un método antiguo y confiable que sigue siendo muy popular en el análisis del habla. Desde que el método se propuso por primera vez en 1980, es notablemente frugal con los recursos informáticos en términos de reconocimiento de patrones recurrentes en el habla y es resistente a varios niveles de calidad de captura de audio. Debido a que las sesiones se llevaron a cabo a través de plataformas VOIP en condiciones de bloqueo en diciembre de 2020, era importante tener un marco de grabación que pudiera dar cuenta de la mala calidad del audio cuando fuera necesario.

Es interesante notar que las dos limitaciones técnicas antes mencionadas (recursos de CPU limitados a principios de la década de 1980 y las excentricidades de la conectividad VOIP en un contexto de red congestionada) se combinan aquí para crear lo que es efectivamente un modelo 'técnicamente escaso' que es (aparentemente) inusualmente robusto. en ausencia de condiciones de trabajo ideales y recursos de alto nivel, imitando el escenario objetivo para el algoritmo resultante.

A partir de entonces, una transformada rápida de Fourier (FFT) se aplicó contra los segmentos de audio para proporcionar un perfil espectral de cada 'cuadro de audio', antes del mapeo final a la Escala Mel.

Entrenamiento, Resultados y Limitaciones

Durante el entrenamiento, los vectores de características extraídos se pasan a una capa de red convolucional distribuida en el tiempo, se aplanan y luego se pasan a una capa LSTM.

Arquitectura del proceso de entrenamiento para el detector de verdad de IA. Fuente: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Arquitectura del proceso de entrenamiento para el detector de verdad de IA. Fuente: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Finalmente, todas las neuronas se conectan entre sí para generar una predicción binaria de si el hablante está diciendo o no cosas que cree que son ciertas.

En las pruebas posteriores al entrenamiento, el sistema logró un nivel de precisión de hasta el 98.91 % en términos de discernimiento de la intención (donde el contenido hablado puede no reflejar la intención). Los investigadores consideran que el trabajo demuestra empíricamente la identificación de convicciones basada en patrones de voz, y que esto se puede lograr sin la deconstrucción del lenguaje al estilo de la PNL.

En términos de limitaciones, los investigadores admiten que la muestra de prueba es pequeña. Aunque el documento no lo establece explícitamente, los datos de prueba de bajo volumen pueden reducir la aplicabilidad posterior en el caso de que las suposiciones, las características de la arquitectura y el proceso de capacitación general se ajusten demasiado a los datos. El documento señala que seis de los ocho modelos construidos a lo largo del proyecto estaban sobreajustados en algún momento del proceso de aprendizaje, y que queda trabajo por hacer para generalizar la aplicabilidad de los parámetros establecidos para el modelo.

Además, la investigación de esta naturaleza debe tener en cuenta las características nacionales, y el documento señala que los sujetos alemanes involucrados en la generación de los datos pueden tener patrones de comunicación que no son directamente replicables entre culturas, una situación que probablemente surgiría en cualquier estudio de este tipo en cualquier nación.