Leaders d’opinion

Agents vocaux basés sur l’IA pour les entreprises : deux défis clés

Publié le 31 janvier 2024

Mis à jour le 22 mai 2026

Par

Dr. Itamar Arel and Dr. Ron Chrisley

Maintenant, plus que jamais, il est temps de mettre en place des systèmes vocaux basés sur l’IA. Considérons un appel au service client. Bientôt, toute la rigidité et l’inflexibilité disparaîtront – les voix robotiques raides, les menus de type “appuyez sur 1 pour les ventes” qui contraignent, les expériences irritantes qui nous ont tous fait appuyer frénétiquement sur le 0 dans l’espoir de parler avec un agent humain. (Ou, étant donné les longs temps d’attente que peut entraîner le transfert à un agent humain, nous avons abandonné l’appel.)

Plus maintenant. Les progrès non seulement dans les grands modèles de langage basés sur les transformateurs (LLM) mais également dans la reconnaissance automatique de la parole (ASR) et les systèmes de synthèse de la parole (TTS) signifient que les agents vocaux de “nouvelle génération” sont là – si vous savez comment les construire.

Aujourd’hui, nous examinons les défis auxquels est confrontée toute personne qui espère construire un agent conversationnel vocal d’avant-garde.

Pourquoi la voix ?

Avant de plonger dans le sujet, faisons un bref tour d’horizon des attractions et de la pertinence générales des agents vocaux (par opposition aux interactions basées sur du texte). Il existe de nombreuses raisons pour lesquelles une interaction vocale pourrait être plus appropriée qu’une interaction basée sur du texte – celles-ci peuvent inclure, par ordre de gravité croissante :

Préférence ou habitude – la parole précède l’écriture dans le développement et l’histoire
Saisie de texte lente – beaucoup peuvent parler plus vite qu’ils ne peuvent taper
Situations sans mains libres – telles que la conduite, le sport ou la vaisselle
Illétrisme – au moins dans la langue que l’agent comprend
Handicaps – tels que la cécité ou le manque de contrôle moteur non vocal

À une époque qui semble être dominée par les transactions médiatisées par des sites Web, la voix reste un canal puissant pour le commerce. Par exemple, une étude récente de JD Power sur la satisfaction des clients dans l’industrie hôtelière a constaté que les clients qui ont réservé leur chambre par téléphone étaient plus satisfaits de leur séjour que ceux qui ont réservé par l’intermédiaire d’un site de voyage en ligne (OTA) ou directement sur le site Web de l’hôtel.

Mais les réponses interactives vocales, ou IVR pour les appeler, ne suffisent pas. Une étude de 2023 de Zippia a constaté que 88 % des clients préfèrent les appels vocaux avec un agent humain plutôt que de naviguer dans un menu téléphonique automatisé. L’étude a également constaté que les principales choses qui irritent les gens le plus sur les menus téléphoniques incluent l’écoute d’options non pertinentes (69 %), l’incapacité de décrire pleinement le problème (67 %), un service inefficace (33 %) et des options confuses (15 %).

Et il y a une ouverture à utiliser des assistants vocaux. Selon une étude d’Accenture, environ 47 % des consommateurs sont déjà à l’aise avec l’utilisation d’assistants vocaux pour interagir avec les entreprises et environ 31 % des consommateurs ont déjà utilisé un assistant vocal pour interagir avec une entreprise.

Quelle que soit la raison, pour beaucoup, il y a une préférence et une demande pour une interaction parlée – tant qu’elle est naturelle et confortable.

Qu’est-ce qui fait un bon agent vocal ?

Grossièrement, un bon agent vocal devrait répondre à l’utilisateur d’une manière qui est :

Pertinent : basé sur une compréhension correcte de ce que l’utilisateur a dit / voulu. Notez que dans certains cas, la réponse de l’agent ne sera pas seulement une réponse verbale, mais une forme d’action via une intégration avec un backend (par exemple, réellement réserver une chambre d’hôtel lorsque l’appelant dit « Allez-y et réservez-la »).
Précis : basé sur les faits (par exemple, ne dites qu’il y a une chambre disponible à l’hôtel le 19 janvier si c’est le cas)
Clair : la réponse doit être compréhensible
Opportun : avec le type de latence que l’on attendrait d’un humain
Sûr : pas de langage offensant ou inapproprié, révélation d’informations protégées, etc.

Le problème

Les systèmes automatisés vocaux actuels tentent de répondre aux critères ci-dessus au détriment de a) être très limités et b) très frustrants à utiliser. Partie de cela est le résultat des attentes élevées que le contexte conversationnel vocal établit, avec ces attentes ne faisant que croître davantage que la qualité vocale des systèmes TTS devient indiscernable des voix humaines. Mais ces attentes sont déçues dans les systèmes largement déployés actuellement. Pourquoi ?

En un mot – inflexibilité :

Parole limitée – l’utilisateur est généralement forcé de dire des choses de manière non naturelle : en phrases courtes, dans un ordre particulier, sans informations parasites, etc. Cela offre peu ou pas d’avance sur le système de menu numérique traditionnel
Notion étroite et non inclusive de « parole acceptable » – faible tolérance pour les expressions idiomatiques, les « euh » et les « ah », etc.
Pas de marche arrière : si quelque chose se passe mal, il peut y avoir peu de chance de « réparer » ou de corriger l’information problématique, mais plutôt de recommencer ou d’attendre un transfert à un humain.
Prise de tour stricte – pas de possibilité d’interrompre ou de parler à un agent

Il va sans dire que les gens trouvent ces contraintes irritantes ou frustrantes.

La solution :

La bonne nouvelle est que les systèmes d’IA modernes sont puissants et rapides enough pour améliorer considérablement les expériences ci-dessus. Cela est dû à une variété de facteurs :

Matériel plus rapide et plus puissant
Améliorations de la reconnaissance automatique de la parole (ASR) (meilleure précision, surmontant le bruit, les accents, etc.)
Améliorations de la synthèse de la parole (TTS) (voix naturelles ou même clonées)
L’arrivée des LLM génératifs (conversations naturelles)

Ce dernier point est un changement de jeu. L’idée clé était qu’un bon modèle prédictif peut servir de bon modèle génératif. Un agent artificiel peut se rapprocher de la performance conversationnelle humaine s’il dit ce que prédit un LLM suffisamment bon comme étant la chose la plus probable que dirait un bon agent de service client humain dans le contexte conversationnel donné.

Cue l’arrivée de dizaines de startups d’IA espérant résoudre le problème de l’agent conversationnel vocal simplement en sélectionnant, puis en connectant, des modules ASR et TTS standards à un noyau LLM. Selon cette vue, la solution est juste une question de sélectionner une combinaison qui minimise la latence et le coût. Et bien sûr, c’est important. Mais est-ce suffisant ?

Pas si vite

Il existe plusieurs raisons spécifiques pour lesquelles cette approche simple ne fonctionnera pas, mais elles découlent de deux points généraux :

Les LLM ne peuvent pas, par eux-mêmes, fournir de bonnes conversations textuelles basées sur des faits du type requis pour les applications d’entreprise comme le service client. Ils ne peuvent donc pas, par eux-mêmes, le faire pour les conversations vocales non plus. Quelque chose d’autre est nécessaire.
Même si vous supplémentez les LLM avec ce qui est nécessaire pour faire un bon agent conversationnel basé sur du texte, transformer cela en un bon agent conversationnel vocal nécessite plus que de simplement le connecter aux meilleurs modules ASR et TTS que vous pouvez vous offrir.

Examinons un exemple spécifique de chacun de ces défis.

Défi 1 : Garder les choses réelles

Comme on le sait maintenant, les LLM produisent parfois des informations inexactes ou « hallucinées ». C’est désastreux dans le contexte de nombreuses applications commerciales, même si cela pourrait faire une bonne application de divertissement où la précision n’est pas l’objectif.

Que les LLM produisent parfois des hallucinations est seulement à prévoir, en réfléchissant. C’est une conséquence directe de l’utilisation de modèles formés sur des données d’il y a un an (ou plus) pour générer des réponses à des questions sur des faits qui ne font pas partie de, ou ne sont pas impliqués par, un ensemble de données (quelle que soit sa taille) qui pourrait être d’un an ou plus vieux. Lorsque l’appelant demande « Quel est mon numéro de membre ? », un LLM simplement formé ne peut générer qu’une réponse qui sonne plausible, et non précise.

Les moyens les plus courants de résoudre ce problème sont :

Affiner : former le LLM préformé davantage, cette fois sur toutes les données spécifiques au domaine que vous voulez qu’il puisse répondre correctement.
Ingénierie de prompt : ajouter les données / instructions supplémentaires en tant qu’entrée pour le LLM, en plus de l’historique conversationnel
Génération augmentée de récupération (RAG) : comme l’ingénierie de prompt, sauf que les données ajoutées à la invite sont déterminées à la volée en faisant correspondre le contexte conversationnel actuel (par exemple, le client a demandé « L’hôtel a-t-il une piscine ? ») à un index de codage d’embedding de vos données spécifiques au domaine (qui inclut, par exemple, un fichier qui dit : « Voici les installations disponibles à l’hôtel : piscine, sauna, station de recharge de véhicules électriques. »).
Contrôle basé sur des règles : comme le RAG, mais ce qui doit être ajouté (ou soustrait) à la invite n’est pas récupéré par une mémoire neuronale mais est déterminé par des règles codées en dur (et codées à la main).

Notez qu’une taille ne convient pas à tous. Le choix de ces méthodes dépendra, par exemple, des données spécifiques au domaine qui informent la réponse de l’agent. En particulier, cela dépendra de savoir si lesdites données changent fréquemment (d’un appel à l’autre, disons – par exemple, le nom du client) ou presque jamais (par exemple, la salutation initiale : « Bonjour, merci de appeler l’Hôtel Budapest. Comment puis-je vous aider aujourd’hui ? »). L’affinement ne serait pas approprié pour le premier, et le RAG serait une solution maladroite pour le second. Ainsi, tout système fonctionnel devra utiliser une variété de ces méthodes.

Quoi de plus, intégrer ces méthodes avec le LLM et les uns avec les autres d’une manière qui minimise la latence et le coût nécessite une ingénierie soigneuse. Par exemple, les performances RAG de votre modèle pourraient s’améliorer si vous l’affiniez pour faciliter cette méthode.

Il ne devrait pas surprendre que chacune de ces méthodes introduit à son tour ses propres défis. Par exemple, prenons l’affinement. L’affinement de votre LLM préformé sur vos données spécifiques au domaine améliorera ses performances sur ces données, oui. Mais l’affinement modifie les paramètres (poids) qui sont la base des performances générales (présumément assez bonnes) du modèle préformé. Cette modification cause donc un « oubli » (ou « oublie catastrophique ») de certaines des connaissances précédentes du modèle. Cela peut entraîner que le modèle donne des réponses incorrectes ou inappropriées (même dangereuses). Si vous voulez que votre agent continue à répondre avec précision et en toute sécurité, vous avez besoin d’une méthode d’affinement qui atténue l’oubli catastrophique.

Défi 2 : Endpointing

Déterminer quand un client a fini de parler est crucial pour un flux de conversation naturel. De même, le système doit gérer les interruptions de manière élégante, en veillant à ce que la conversation reste cohérente et réceptive aux besoins du client. Atteindre cela à un niveau comparable à l’interaction humaine est une tâche complexe mais essentielle pour créer des expériences conversationnelles naturelles et agréables.

Une solution qui fonctionne nécessite que les concepteurs prennent en compte des questions comme celles-ci :

Combien de temps après que le client a cessé de parler l’agent doit-il attendre avant de décider que le client a cessé de parler ?
Cela dépend-il de savoir si le client a terminé une phrase complète ?
Que faire si le client interrompt l’agent ?
En particulier, l’agent doit-il supposer que ce qu’il disait n’a pas été entendu par le client ?

Ces questions, ayant principalement trait au timing, nécessitent une ingénierie soigneuse au-delà de celle impliquée dans l’obtention d’une réponse correcte d’un LLM.

Conclusion

L’évolution des systèmes vocaux basés sur l’IA promet un changement révolutionnaire dans la dynamique du service client, remplaçant les anciens systèmes téléphoniques par des LLM avancés, des technologies ASR et TTS. Cependant, surmonter les défis d’informations hallucinées et de terminaison de conversation sans heurt sera crucial pour livrer des interactions vocales naturelles et efficaces.

L’automatisation du service client a le pouvoir de devenir un véritable changement de jeu pour les entreprises, mais seulement si elle est faite correctement. En 2024, particulièrement avec toutes ces nouvelles technologies, nous pouvons enfin construire des systèmes qui peuvent sembler naturels et fluides et comprendre robustement. L’effet net réduira les temps d’attente et améliorera l’expérience actuelle que nous avons avec les robots vocaux, marquant une ère de transformation dans l’engagement et la qualité du service client.

Dr. Itamar Arel

Dr. Itamar Arel, actuellement le PDG de Tenyx, combine son expérience universitaire en tant qu'ancien professeur à l'Université du Tennessee et au laboratoire d'IA de Stanford avec le succès entrepreneurial, en co-fondant des entreprises pionnières Binatix, Apprentice (acquise par McDonald’s et IBM) et Tenyx. Itamar a récemment occupé le poste de vice-président corporatif et de directeur de McD Tech Labs chez McDonald’s Corporation et de directeur de l'IA conversationnelle chez IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI