Des leaders d'opinion

Agents vocaux basés sur l'IA pour les entreprises : deux défis clés

Publié 31 janvier 2024

Le kit de préparation mis à jour 1 février 2024

Dr Itamar Arel et Dr Ron Chrisley

Aujourd’hui plus que jamais, l’heure est aux systèmes vocaux basés sur l’IA. Pensez à appeler le service client. Bientôt, toute la fragilité et la rigidité auront disparu – les voix robotiques raides, les menus contraignants du style « appuyez sur un pour les ventes », les expériences ennuyeuses qui nous ont tous amenés à appuyer frénétiquement sur zéro dans l'espoir de parler à la place avec un agent humain. (Ou, étant donné les longs délais d'attente que peut entraîner le transfert vers un agent humain, nous avons complètement abandonné l'appel.)

Pas plus. Des progrès non seulement dans le domaine des transformateurs grands modèles de langage (LLM) mais en automatique reconnaissance de la parole (ASR) et texte pour parler Les systèmes TTS signifient que les agents vocaux de « nouvelle génération » sont là – si vous savez comment les créer.

Aujourd’hui, nous examinons les défis auxquels est confronté quiconque espère créer un agent conversationnel vocal de pointe.

Pourquoi la voix ?

Avant de nous lancer, jetons un coup d'œil rapide aux attraits généraux et à la pertinence des agents vocaux (par opposition aux interactions textuelles). Il existe de nombreuses raisons pour lesquelles une interaction vocale peut être plus appropriée qu’une interaction textuelle – celles-ci peuvent inclure, par ordre croissant de gravité :

Préférence ou habitude – parler est antérieur à l’écriture sur le plan du développement et de l’histoire
Saisie de texte lente – beaucoup peuvent parler plus vite qu’ils ne peuvent envoyer des SMS
Situations mains libres – comme conduire, s'entraîner ou faire la vaisselle
Analphabétisme – au moins dans la ou les langues que l'agent comprend
Handicaps – tels que la cécité ou le manque de contrôle moteur non vocal

À une époque apparemment dominée par les transactions via les sites Web, la voix reste un puissant canal de commerce. Par exemple, une étude récente de JD Power sur la satisfaction des clients dans l'industrie hôtelière a révélé que les clients qui réservaient leur chambre par téléphone étaient plus satisfaits de leur séjour que ceux qui réservaient via une agence de voyages en ligne (OTA) ou directement via le site Web de l'hôtel. .

Mais les réponses vocales interactives, ou IVR en abrégé, ne suffisent pas. Une étude 2023 de Zippia a constaté que 88 % des clients préfèrent les appels vocaux avec un agent en direct plutôt que de naviguer dans un menu téléphonique automatisé. L'étude a également révélé que les principales choses qui agacent le plus les gens dans les menus téléphoniques incluent l'écoute d'options non pertinentes (69 %), l'incapacité de décrire complètement le problème (67 %), un service inefficace (33 %) et des options confuses (15 %. ).

Et il existe une ouverture à l’utilisation d’assistants vocaux. Selon une étude d'Accenture, environ 47 % des consommateurs sont déjà à l'aise avec l'utilisation d'assistants vocaux pour interagir avec des entreprises et environ 31 % des consommateurs ont déjà utilisé un assistant vocal pour interagir avec une entreprise.

Quelle que soit la raison, pour beaucoup, il existe une préférence et une demande pour l’interaction orale – à condition qu’elle soit naturelle et confortable.

Qu’est-ce qui fait un bon agent vocal ?

En gros, un bon agent vocal doit répondre à l’utilisateur d’une manière :

Pertinent : basé sur une compréhension correcte de ce que l'utilisateur a dit/voulu. Notez que dans certains cas, la réponse de l'agent ne sera pas simplement une réponse orale, mais une certaine forme d'action via l'intégration avec un backend (par exemple, provoquer la réservation d'une chambre d'hôtel lorsque l'appelant dit « Allez-y et réservez-la »). .
Précis : basé sur des faits (par exemple, disons seulement qu'il y a une chambre disponible à l'hôtel le 19 janvier s'il y en a)
Claire : la réponse doit être compréhensible
Opportun : avec le type de latence que l'on pourrait attendre d'un être humain
Sûr : pas de langage offensant ou inapproprié, de révélation d'informations protégées, etc.

Le problème

Les systèmes automatisés vocaux actuels tentent de répondre aux critères ci-dessus au prix a) d'être a) très limités et b) très frustrants à utiliser. Cela s'explique en partie par les attentes élevées qu'engendre un contexte conversationnel basé sur la voix, ces attentes ne faisant qu'augmenter à mesure que la qualité de la voix dans les systèmes TTS devient impossible à distinguer des voix humaines. Mais ces attentes sont déçues dans les systèmes qui sont actuellement largement déployés. Pourquoi?

En un mot – inflexibilité :

Discours limité – l’utilisateur est généralement obligé de dire les choses de manière anormale : avec des phrases courtes, dans un ordre particulier, sans informations parasites, etc. Cela n’offre que peu ou pas d’avancée par rapport au système de menus basé sur des numéros de l’ancienne école.
Notion étroite et non inclusive de discours « acceptable » – faible tolérance pour l’argot, les uhms et les ahs, etc.
Pas de retour en arrière : si quelque chose ne va pas, il peut y avoir peu de chances de « réparer » ou de corriger l'information problématique, mais plutôt de devoir recommencer ou attendre un transfert vers un humain.
Tour de rôle strict – aucune possibilité d’interrompre ou de parler à un agent

Il va sans dire que les gens trouvent ces contraintes ennuyeuses ou frustrantes.

La solution:

La bonne nouvelle est que les systèmes d’IA modernes sont suffisamment puissants et rapides pour améliorer considérablement les types d’expériences ci-dessus, au lieu d’approcher (ou de dépasser !) les normes de service client basées sur l’humain. Cela est dû à divers facteurs :

Matériel plus rapide et plus puissant
Améliorations de l'ASR (plus grande précision, suppression du bruit, des accents, etc.)
Améliorations du TTS (voix au son naturel ou même clonées)
L’arrivée des LLM génératifs (conversations à consonance naturelle)

Ce dernier point change la donne. L’idée clé était qu’un bon modèle prédictif peut servir de bon modèle génératif. Un agent artificiel peut se rapprocher des performances conversationnelles de niveau humain s'il dit ce qu'un LLM suffisamment bon prédit comme étant la chose la plus probable qu'un bon agent du service client humain dirait dans le contexte conversationnel donné.

C'est le cas de l'arrivée de dizaines de startups d'IA espérant résoudre le problème des agents conversationnels vocaux simplement en sélectionnant, puis en connectant des modules ASR et TTS disponibles dans le commerce à un noyau LLM. De ce point de vue, la solution consiste simplement à sélectionner une combinaison qui minimise la latence et les coûts. Et bien sûr, c'est important. Mais est-ce suffisant ?

Pas si vite

Il existe plusieurs raisons spécifiques pour lesquelles cette approche simple ne fonctionnera pas, mais elles découlent de deux points généraux :

En réalité, les LLM ne peuvent pas, à eux seuls, fournir de bonnes conversations textuelles basées sur des faits, du type requis pour les applications d'entreprise telles que le service client. Ils ne peuvent donc pas non plus le faire eux-mêmes pour les conversations vocales. Il faut autre chose.
Même si vous complétez les LLM avec ce qui est nécessaire pour créer un bon agent conversationnel basé sur du texte, le transformer en un bon agent conversationnel vocal nécessite plus que simplement le connecter aux meilleurs modules ASR et TTS que vous pouvez vous permettre.

Examinons un exemple spécifique de chacun de ces défis.

Défi 1 : Garder la réalité

Comme on le sait désormais, les LLM produisent parfois des informations inexactes ou « hallucinées ». Ceci est désastreux pour de nombreuses applications commerciales, même si cela pourrait constituer une bonne application de divertissement où la précision n'est pas forcément un critère essentiel.

Il faut s’attendre, après réflexion, à ce que les LLM aient parfois des hallucinations. C'est une conséquence directe de l'utilisation de modèles formés sur des données datant d'il y a un an (ou plus) pour générer des réponses à des questions sur des faits qui ne font pas partie ou ne sont pas impliqués par un ensemble de données (aussi énorme soit-il) qui pourrait durer un an ou plus. vieux. Lorsque l'appelant demande « Quel est mon numéro de membre ? », un simple LLM pré-formé ne peut générer qu'une réponse plausible, pas précise.

Les moyens les plus courants de résoudre ce problème sont les suivants :

Mise au point : formez davantage le LLM pré-entraîné, cette fois sur toutes les données spécifiques au domaine auxquelles vous souhaitez qu'il puisse répondre correctement.
Ingénierie rapide : ajoutez les données/instructions supplémentaires en tant qu'entrée au LLM, en plus de l'historique des conversations.
Génération augmentée de récupération (RAG) : comme l'ingénierie d'invite, sauf que les données ajoutées à l'invite sont déterminées à la volée en faisant correspondre le contexte conversationnel actuel (par exemple, le client a demandé « Votre hôtel dispose-t-il d'une piscine ? ») à une intégration codée. index des données spécifiques à votre domaine (qui comprend, par exemple, un fichier indiquant : « Voici les installations disponibles à l'hôtel : piscine, sauna, borne de recharge pour véhicules électriques. »).
Contrôle basé sur des règles : comme RAG, mais ce qui doit être ajouté (ou soustrait) à l'invite n'est pas récupéré en faisant correspondre une mémoire neuronale mais est déterminé par des règles codées en dur (et codées à la main).

Notez qu’une taille unique ne convient pas à tous. Laquelle de ces méthodes sera appropriée dépendra, par exemple, des données spécifiques au domaine qui éclairent la réponse de l'agent. En particulier, cela dépendra si ces données changent fréquemment (d'un appel à l'autre, par exemple – par exemple le nom du client) ou rarement (par exemple, le message d'accueil initial : « Bonjour, merci d'avoir appelé l'hôtel Budapest. Comment puis-je vous aider aujourd'hui ? ?"). Un réglage fin ne serait pas approprié pour le premier, et RAG serait une solution maladroite pour le second. Ainsi, tout système fonctionnel devra utiliser une variété de ces méthodes.

De plus, l'intégration de ces méthodes avec le LLM et entre elles de manière à minimiser la latence et les coûts nécessite une ingénierie minutieuse. Par exemple, les performances RAG de votre modèle peuvent s'améliorer si vous l'ajustez pour faciliter cette méthode.

Il n’est peut-être pas surprenant que chacune de ces méthodes présente à son tour ses propres défis. Par exemple, prenons le réglage fin. Affiner votre LLM pré-entraîné sur les données spécifiques à votre domaine améliorera ses performances sur ces données, oui. Mais le réglage fin modifie les paramètres (poids) qui sont à la base des performances générales (vraisemblablement assez bonnes) du modèle pré-entraîné. Cette modification provoque donc un désapprentissage (ou « oubli catastrophique ») de certaines connaissances antérieures du modèle. Cela peut amener le modèle à donner des réponses incorrectes ou inappropriées (voire dangereuses). Si vous souhaitez que votre agent continue à répondre avec précision et en toute sécurité, vous avez besoin d’une méthode de réglage fin qui atténue les oublis catastrophiques.

Défi 2 : Point final

Déterminer quand un client a fini de parler est essentiel pour un déroulement naturel de la conversation. De même, le système doit gérer les interruptions avec élégance, garantissant que la conversation reste cohérente et adaptée aux besoins du client. Atteindre cet objectif à un niveau comparable à l’interaction humaine est une tâche complexe mais essentielle pour créer des expériences conversationnelles naturelles et agréables.

Une solution qui fonctionne nécessite que les concepteurs réfléchissent à des questions telles que celles-ci :

Combien de temps après que le client a cessé de parler, l'agent doit-il attendre avant de décider que le client a cessé de parler ?
Est-ce que ce qui précède dépend du fait que le client ait terminé ou non une phrase complète ?
Que faire si le client interrompt l'agent ?
En particulier, l’agent doit-il supposer que ce qu’il dit n’a pas été entendu par le client ?

Ces problèmes, liés en grande partie au timing, nécessitent une ingénierie minutieuse au-delà de celle nécessaire pour qu'un LLM donne une réponse correcte.

Conclusion

L’évolution des systèmes vocaux basés sur l’IA promet un changement révolutionnaire dans la dynamique du service client, en remplaçant les systèmes téléphoniques obsolètes par des technologies avancées LLM, ASR et TTS. Cependant, surmonter les défis liés aux informations hallucinées et à la fluidité des points de terminaison sera essentiel pour offrir des interactions vocales naturelles et efficaces.

L’automatisation du service client a le pouvoir de changer véritablement la donne pour les entreprises, mais seulement si elle est effectuée correctement. En 2024, notamment grâce à toutes ces nouvelles technologies, nous pourrons enfin construire des systèmes qui semblent naturels et fluides et qui nous comprennent de manière robuste. L’effet net réduira les temps d’attente et améliorera l’expérience actuelle que nous avons avec les robots vocaux, marquant ainsi une ère de transformation en matière d’engagement client et de qualité de service.

Rubriques connexes:leaders d'opinion IA basée sur la voix

Dr Itamar Arel

Dr Itamar Arel, actuellement PDG de Tenyx, allie sa formation universitaire en tant qu'ancien professeur à l'Université du Tennessee et au laboratoire d'IA de l'Université de Stanford avec une réussite entrepreneuriale, en cofondant les sociétés pionnières Binatix, Apprente (acquise par McDonald's et IBM) et Tenyx. Itamar a récemment occupé le poste de vice-président d'entreprise et de responsable de McD Tech Labs chez McDonald's Corporation et de responsable de l'IA conversationnelle chez IBM Watson Orders.

Dr Ron Chrisley

Le Dr Ron Chrisley est actuellement conseiller scientifique en chef à Tenyx, qu'il a cofondé en 2021. Il est titulaire d'un BS en systèmes symboliques de Stanford, est titulaire d'un doctorat de l'Université d'Oxford et est professeur de sciences cognitives et d'intelligence artificielle à l'Université du Sussex. De 2019 à 2020, il a été chercheur invité à l’Institute for Human-Centered AI de Stanford.

Unite.AI