Angle d’Anderson

Un dĂ©tecteur de mensonges basĂ© sur l’IA pour les conversations dans les centres d’appel

mm

Des chercheurs en Allemagne ont utilisé l’apprentissage automatique pour créer un système d’analyse audio destiné principalement à agir comme un détecteur de mensonges basé sur l’IA pour les clients dans les communications audio avec le personnel des centres d’appel et de support.

Le système utilise un ensemble de données spécialement créé à partir d’enregistrements audio de 40 étudiants et enseignants lors de débats sur des sujets controversés, notamment la moralité de la peine de mort et les frais de scolarité. Le modèle a été formé sur une architecture qui utilise des réseaux de neurones convolutionnels (CNN) et des mémoires à long terme (LSTM), et a atteint un taux de précision rapporté de 98 %.

Bien que l’objectif déclaré de l’œuvre cite les communications avec les clients, les chercheurs admettent qu’il fonctionne effectivement comme un détecteur de mensonges à usage général :

‘Les résultats sont applicables à un large éventail de processus de service et spécifiquement utiles pour toutes les interactions client qui ont lieu par téléphone. L’algorithme présenté peut être appliqué dans toute situation où il est utile pour l’agent de savoir si un client parle avec conviction.

‘Cela pourrait, par exemple, conduire à une réduction des demandes d’assurance douteuses ou des déclarations fausses lors des entretiens d’embauche. Cela ne réduirait pas seulement les pertes opérationnelles pour les entreprises de services, mais encouragerait également les clients à être plus honnêtes.’

Génération de l’ensemble de données

En l’absence d’un ensemble de données publiquement disponible en allemand, les chercheurs – de l’Université des sciences appliquées de Neu-Ulm (HNU) – ont créé leur propre matériau source. Des affiches ont été publiées à l’université et dans les écoles locales, avec 40 volontaires sélectionnés ayant un âge minimum de 16 ans. Les volontaires ont été payés avec un bon d’Amazon de 10 euros.

Les sessions ont été menées sur un modèle de club de débat conçu pour polariser l’opinion et susciter de fortes réactions autour de sujets incendiaires, modélisant effectivement le stress qui peut survenir dans les conversations de clients problématiques au téléphone.

Les sujets sur lesquels les volontaires devaient parler librement pendant trois minutes en public étaient :

– La peine de mort et les exécutions publiques devraient-elles être rétablies en Allemagne ?
– Des frais de scolarité couvrant les coûts devraient-ils être facturés en Allemagne ?
– L’utilisation de drogues dures telles que l’héroïne et la méthamphétamine devrait-elle être légalisée en Allemagne ?
– Les chaînes de restaurants servant de la nourriture rapide malsaine, telles que McDonald’s ou Burger King, devraient-elles être interdites en Allemagne ?

Prétraitement

Le projet a favorisé l’analyse des caractéristiques acoustiques de la parole dans une approche de reconnaissance automatique de la parole (ASR) plutôt qu’une approche de traitement automatique des langues (TAL) (où la parole est analysée à un niveau linguistique, et la « température » du discours est inférée directement à partir de l’utilisation de la langue).

Les échantillons extraits prétraités ont été analysés initialement via les coefficients cepstraux de fréquence de Mel (MFCC), une méthode fiable et ancienne encore très populaire dans l’analyse de la parole. Puisque la méthode a été proposée pour la première fois en 1980, elle est notablement économe en ressources informatiques en termes de reconnaissance de modèles récurrents dans la parole, et est résistante à différents niveaux de qualité de capture audio. Puisque les sessions ont été menées sur des plateformes VOIP dans des conditions de confinement en décembre 2020, il était important d’avoir un cadre d’enregistrement qui puisse tenir compte d’une qualité audio médiocre si nécessaire.

Il est intéressant de noter que les deux limitations techniques mentionnées (ressources CPU limitées dans les années 80 et les particularités de la connectivité VOIP dans un contexte de réseau congestionné) se combinent ici pour créer ce qui est effectivement un modèle « techniquement épars » qui est (apparemment) inhabituellement robuste en l’absence de conditions de travail idéales et de ressources de haut niveau – imitant l’arène cible pour l’algorithme résultant.

Par la suite, un algorithme de transformée de Fourier rapide (FFT) a été appliqué contre les segments audio pour fournir un profil spectral de chaque « trame audio », avant la mise en correspondance finale avec l’échelle de Mel.

Formation, résultats et limites

Lors de la formation, les vecteurs de caractéristiques extraits sont passés à une couche de convolution temporelle, aplatissés, puis passés à une couche LSTM.

Architecture du processus de formation pour le détecteur de vérité basé sur l'IA. Source: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Architecture du processus de formation pour le détecteur de vérité basé sur l’IA. Source: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Enfin, tous les neurones sont connectés les uns aux autres afin de générer une prédiction binaire pour savoir si le locuteur dit des choses qu’il croit être vraies.

Lors des tests après la formation, le système a atteint un niveau de précision allant jusqu’à 98,91 % en termes de discernement de l’intention (où le contenu parlé peut ne pas refléter l’intention). Les chercheurs considèrent que le travail démontre empiriquement l’identification de la conviction basée sur les modèles vocaux, et que cela peut être réalisé sans déconstruction de type TAL de la langue.

En termes de limites, les chercheurs admettent que l’échantillon de test est petit. Bien que l’article ne le déclare pas explicitement, des données de test à faible volume peuvent réduire l’applicabilité ultérieure dans le cas où les hypothèses, les fonctionnalités architecturées et le processus de formation général sont surajustés aux données. L’article note que six des huit modèles construits tout au long du projet ont été surajustés à un moment donné du processus d’apprentissage, et qu’il y a encore du travail à faire pour généraliser l’applicabilité des paramètres définis pour le modèle.

De plus, la recherche de ce type doit tenir compte des caractéristiques nationales, et l’article note que les sujets allemands impliqués dans la génération des données peuvent avoir des modèles de communication qui ne sont pas directement répétables d’une culture à l’autre – une situation qui se produirait probablement dans toute étude de ce type dans n’importe quel pays.

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.