Connect with us

Intelligence artificielle

Un détecteur de mensonges basé sur l’IA pour les conversations dans les centres d’appel

mm

Les chercheurs en Allemagne ont utilisé l’apprentissage automatique pour créer un système d’analyse audio destiné principalement à agir comme un détecteur de mensonges basé sur l’IA pour les clients dans les communications audio avec le personnel des centres d’appel et de support.

Le système utilise un ensemble de données spécialement créé d’enregistrements audio par 40 étudiants et enseignants lors de débats sur des sujets controversés, notamment la moralité de la peine de mort et les frais de scolarité. Le modèle a été formé sur une architecture qui utilise des réseaux de neurones convolutionnels (CNN) et des mémoires à court terme (LSTM), et a atteint un taux de précision déclaré de 98 %.

Bien que l’intention déclarée de ce travail cite les communications avec les clients, les chercheurs reconnaissent qu’il fonctionne effectivement comme un détecteur de mensonges à usage général :

‘Les résultats sont applicables à un large éventail de processus de service et spécifiquement utiles pour toutes les interactions avec les clients qui ont lieu par téléphone. L’algorithme présenté peut être appliqué dans toute situation où il est utile pour l’agent de savoir si un client parle avec conviction.

‘Cela pourrait, par exemple, conduire à une réduction des demandes d’assurance douteuses ou des déclarations fausses lors des entretiens d’embauche. Cela ne réduirait pas seulement les pertes opérationnelles pour les sociétés de services, mais encouragerait également les clients à être plus véridiques.’

Génération de l’ensemble de données

En l’absence d’un ensemble de données publiques adapté en langue allemande, les chercheurs – de l’Université des sciences appliquées de Neu-Ulm (HNU) – ont créé leur propre matériel source. Des affiches ont été publiées à l’université et dans les écoles locales, avec 40 volontaires sélectionnés avec un âge minimum de 16 ans. Les volontaires ont été payés avec un bon d’Amazon de 10 euros.

Les sessions ont été menées sur un modèle de club de débat conçu pour polariser l’opinion et provoquer de fortes réactions autour de sujets incendiaires, modélisant ainsi le stress qui peut survenir dans les conversations de clients problématiques au téléphone.

Les sujets sur lesquels les volontaires devaient parler librement pendant trois minutes en public étaient :

– La peine de mort et les exécutions publiques devraient-elles être réintroduites en Allemagne ?
– Des frais de scolarité couvrant les coûts devraient-ils être facturés en Allemagne ?
– L’utilisation de drogues dures telles que l’héroïne et la méthamphétamine devrait-elle être légalisée en Allemagne ?
– Les chaînes de restaurants servant de la nourriture rapide malsaine, telles que McDonald’s ou Burger King, devraient-elles être interdites en Allemagne ?

Prétraitement

Le projet a favorisé l’analyse des caractéristiques de la parole acoustique dans une approche de reconnaissance automatique de la parole (ASR) plutôt que dans une approche NLP (où la parole est analysée à un niveau linguistique, et la « température » du discours est inférée directement à partir de l’utilisation de la langue).

Les échantillons extraits et prétraités ont été analysés initialement via les coefficients cepstraux de fréquence de Mel (MFCC), une méthode fiable et ancienne encore très populaire dans l’analyse de la parole, et résistante à différents niveaux de qualité de capture audio. Puisque les sessions ont été menées sur des plateformes VOIP dans des conditions de confinement en décembre 2020, il était important d’avoir un cadre d’enregistrement qui puisse tenir compte d’une qualité audio médiocre si nécessaire.

Il est intéressant de noter que les deux limitations techniques mentionnées (ressources CPU limitées dans les années 80 et les particularités de la connectivité VOIP dans un contexte de réseau congestionné) se combinent ici pour créer ce qui est effectivement un modèle « techniquement parcimonieux » qui est (apparemment) inhabituellement robuste en l’absence de conditions de travail idéales et de ressources de haute qualité – imitant l’arène cible pour l’algorithme résultant.

Par la suite, un algorithme de transformation de Fourier rapide (FFT) a été appliqué contre les segments audio pour fournir un profil spectral de chaque « trame audio », avant la mise en correspondance finale sur l’échelle de Mel.

Formation, résultats et limitations

Lors de la formation, les vecteurs de caractéristiques extraits sont passés à une couche de réseau de neurones convolutionnel distribué dans le temps, aplatissés, puis passés à une couche LSTM.

Architecture du processus de formation du détecteur de vérité basé sur l'IA. Source : https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Architecture du processus de formation du détecteur de vérité basé sur l’IA. Source : https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Enfin, tous les neurones sont connectés les uns aux autres afin de générer une prédiction binaire pour savoir si le locuteur dit des choses qu’il croit être vraies.

Lors des tests après la formation, le système a atteint un niveau de précision allant jusqu’à 98,91 % en termes de discernement de l’intention (où le contenu parlé peut ne pas refléter l’intention). Les chercheurs considèrent que le travail démontre empiriquement l’identification de la conviction basée sur les modèles de voix, et que cela peut être réalisé sans déconstruction du langage de style NLP.

En termes de limitations, les chercheurs reconnaissent que l’échantillon de test est petit. Bien que l’article ne le déclare pas explicitement, des données de test de faible volume peuvent réduire l’applicabilité ultérieure dans le cas où les présomptions, les fonctionnalités architecturales et le processus de formation général sont surajustés aux données. L’article note que six des huit modèles construits tout au long du projet ont été surajustés à un moment donné du processus d’apprentissage, et qu’il y a encore du travail à faire pour généraliser l’applicabilité des paramètres définis pour le modèle.

De plus, des recherches de cette nature doivent tenir compte des caractéristiques nationales, et l’article note que les sujets allemands impliqués dans la génération des données peuvent avoir des modèles de communication qui ne sont pas directement répétables à travers les cultures – une situation qui surgirait probablement dans toute étude de ce type dans n’importe quelle nation.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.