Suivez nous sur

Agents vocaux basĂ©s sur l'IA pour les entreprises : deux dĂ©fis clĂ©s

Des leaders d'opinion

Agents vocaux basĂ©s sur l'IA pour les entreprises : deux dĂ©fis clĂ©s

mm mm

Aujourd’hui plus que jamais, l’heure est aux systèmes vocaux basĂ©s sur l’IA. Pensez Ă  appeler le service client. BientĂ´t, toute la fragilitĂ© et la rigiditĂ© auront disparu – les voix robotiques raides, les menus contraignants du style « appuyez sur un pour les ventes Â», les expĂ©riences ennuyeuses qui nous ont tous amenĂ©s Ă  appuyer frĂ©nĂ©tiquement sur zĂ©ro dans l'espoir de parler Ă  la place avec un agent humain. (Ou, Ă©tant donnĂ© les longs dĂ©lais d'attente que peut entraĂ®ner le transfert vers un agent humain, nous avons complètement abandonnĂ© l'appel.)

Pas plus. Des progrès non seulement dans le domaine des transformateurs grands modèles de langage (LLM) mais en automatique reconnaissance de la parole (ASR) et texte pour parler Les systèmes TTS signifient que les agents vocaux de « nouvelle génération » sont là – si vous savez comment les créer.

Aujourd’hui, nous examinons les défis auxquels est confronté quiconque espère créer un agent conversationnel vocal de pointe.

Pourquoi la voix ?

Avant de nous lancer, jetons un coup d'Ĺ“il rapide aux attraits gĂ©nĂ©raux et Ă  la pertinence des agents vocaux (par opposition aux interactions textuelles). Il existe de nombreuses raisons pour lesquelles une interaction vocale peut ĂŞtre plus appropriĂ©e qu’une interaction textuelle – celles-ci peuvent inclure, par ordre croissant de gravitĂ© :

  • PrĂ©fĂ©rence ou habitude – parler est antĂ©rieur Ă  l’écriture sur le plan du dĂ©veloppement et de l’histoire

  • Saisie de texte lente – beaucoup peuvent parler plus vite qu’ils ne peuvent envoyer des SMS

  • Situations mains libres – comme conduire, s'entraĂ®ner ou faire la vaisselle

  • AnalphabĂ©tisme – au moins dans la ou les langues que l'agent comprend

  • Handicaps – tels que la cĂ©citĂ© ou le manque de contrĂ´le moteur non vocal

À une époque apparemment dominée par les transactions via les sites Web, la voix reste un puissant canal de commerce. Par exemple, une étude récente de JD Power sur la satisfaction des clients dans l'industrie hôtelière a révélé que les clients qui réservaient leur chambre par téléphone étaient plus satisfaits de leur séjour que ceux qui réservaient via une agence de voyages en ligne (OTA) ou directement via le site Web de l'hôtel. .

Mais les rĂ©ponses vocales interactives, ou IVR en abrĂ©gĂ©, ne suffisent pas. Une Ă©tude 2023 de Zippia a constatĂ© que 88 % des clients prĂ©fèrent les appels vocaux avec un agent en direct plutĂ´t que de naviguer dans un menu tĂ©lĂ©phonique automatisĂ©. L'Ă©tude a Ă©galement rĂ©vĂ©lĂ© que les principales choses qui agacent le plus les gens dans les menus tĂ©lĂ©phoniques incluent l'Ă©coute d'options non pertinentes (69 %), l'incapacitĂ© de dĂ©crire complètement le problème (67 %), un service inefficace (33 %) et des options confuses (15 %. ).

Et il existe une ouverture à l’utilisation d’assistants vocaux. Selon une étude d'Accenture, environ 47 % des consommateurs sont déjà à l'aise avec l'utilisation d'assistants vocaux pour interagir avec des entreprises et environ 31 % des consommateurs ont déjà utilisé un assistant vocal pour interagir avec une entreprise.

Quelle que soit la raison, pour beaucoup, il existe une préférence et une demande pour l’interaction orale – à condition qu’elle soit naturelle et confortable.

Qu’est-ce qui fait un bon agent vocal ?

En gros, un bon agent vocal doit rĂ©pondre Ă  l’utilisateur d’une manière :

  • Pertinent : basĂ© sur une comprĂ©hension correcte de ce que l'utilisateur a dit/voulu. Notez que dans certains cas, la rĂ©ponse de l'agent ne sera pas simplement une rĂ©ponse orale, mais une certaine forme d'action via l'intĂ©gration avec un backend (par exemple, provoquer la rĂ©servation d'une chambre d'hĂ´tel lorsque l'appelant dit « Allez-y et rĂ©servez-la »). .

  • PrĂ©cis : basĂ© sur des faits (par exemple, disons seulement qu'il y a une chambre disponible Ă  l'hĂ´tel le 19 janvier s'il y en a)

  • Claire : la rĂ©ponse doit ĂŞtre comprĂ©hensible

  • Opportun : avec le type de latence que l'on pourrait attendre d'un ĂŞtre humain

  • SĂ»r : pas de langage offensant ou inappropriĂ©, de rĂ©vĂ©lation d'informations protĂ©gĂ©es, etc.

Le problème

Les systèmes automatisés vocaux actuels tentent de répondre aux critères ci-dessus au prix a) d'être a) très limités et b) très frustrants à utiliser. Cela s'explique en partie par les attentes élevées qu'engendre un contexte conversationnel basé sur la voix, ces attentes ne faisant qu'augmenter à mesure que la qualité de la voix dans les systèmes TTS devient impossible à distinguer des voix humaines. Mais ces attentes sont déçues dans les systèmes qui sont actuellement largement déployés. Pourquoi?

En un mot – inflexibilité :

  • Discours limitĂ© – l’utilisateur est gĂ©nĂ©ralement obligĂ© de dire les choses de manière anormale : avec des phrases courtes, dans un ordre particulier, sans informations parasites, etc. Cela n’offre que peu ou pas d’avancĂ©e par rapport au système de menus basĂ© sur des numĂ©ros de l’ancienne Ă©cole.

  • Notion Ă©troite et non inclusive de discours « acceptable » – faible tolĂ©rance pour l’argot, les uhms et les ahs, etc.

  • Pas de retour en arrière : si quelque chose ne va pas, il peut y avoir peu de chances de « rĂ©parer Â» ou de corriger l'information problĂ©matique, mais plutĂ´t de devoir recommencer ou attendre un transfert vers un humain.

  • Tour de rĂ´le strict – aucune possibilitĂ© d’interrompre ou de parler Ă  un agent

Il va sans dire que les gens trouvent ces contraintes ennuyeuses ou frustrantes.

La solution:

La bonne nouvelle est que les systèmes d’IA modernes sont suffisamment puissants et rapides pour amĂ©liorer considĂ©rablement les types d’expĂ©riences ci-dessus, au lieu d’approcher (ou de dĂ©passer !) les normes de service client basĂ©es sur l’humain. Cela est dĂ» Ă  divers facteurs :

  • MatĂ©riel plus rapide et plus puissant

  • AmĂ©liorations de l'ASR (plus grande prĂ©cision, suppression du bruit, des accents, etc.)

  • AmĂ©liorations du TTS (voix au son naturel ou mĂŞme clonĂ©es)

  • L’arrivĂ©e des LLM gĂ©nĂ©ratifs (conversations Ă  consonance naturelle)

Ce dernier point change la donne. L’idée clé était qu’un bon modèle prédictif peut servir de bon modèle génératif. Un agent artificiel peut se rapprocher des performances conversationnelles de niveau humain s'il dit ce qu'un LLM suffisamment bon prédit comme étant la chose la plus probable qu'un bon agent du service client humain dirait dans le contexte conversationnel donné.

C'est le cas de l'arrivée de dizaines de startups d'IA espérant résoudre le problème des agents conversationnels vocaux simplement en sélectionnant, puis en connectant des modules ASR et TTS disponibles dans le commerce à un noyau LLM. De ce point de vue, la solution consiste simplement à sélectionner une combinaison qui minimise la latence et les coûts. Et bien sûr, c'est important. Mais est-ce suffisant ?

Pas si vite

Il existe plusieurs raisons spĂ©cifiques pour lesquelles cette approche simple ne fonctionnera pas, mais elles dĂ©coulent de deux points gĂ©nĂ©raux :

  1. En réalité, les LLM ne peuvent pas, à eux seuls, fournir de bonnes conversations textuelles basées sur des faits, du type requis pour les applications d'entreprise telles que le service client. Ils ne peuvent donc pas non plus le faire eux-mêmes pour les conversations vocales. Il faut autre chose.

  2. Même si vous complétez les LLM avec ce qui est nécessaire pour créer un bon agent conversationnel basé sur du texte, le transformer en un bon agent conversationnel vocal nécessite plus que simplement le connecter aux meilleurs modules ASR et TTS que vous pouvez vous permettre.

Examinons un exemple spécifique de chacun de ces défis.

DĂ©fi 1 : Garder la rĂ©alitĂ©

Comme on le sait dĂ©sormais, les LLM produisent parfois des informations inexactes ou « hallucinĂ©es Â». Ceci est dĂ©sastreux pour de nombreuses applications commerciales, mĂŞme si cela pourrait constituer une bonne application de divertissement oĂą la prĂ©cision n'est pas forcĂ©ment un critère essentiel.

Il faut s’attendre, après réflexion, à ce que les LLM aient parfois des hallucinations. C'est une conséquence directe de l'utilisation de modèles formés sur des données datant d'il y a un an (ou plus) pour générer des réponses à des questions sur des faits qui ne font pas partie ou ne sont pas impliqués par un ensemble de données (aussi énorme soit-il) qui pourrait durer un an ou plus. vieux. Lorsque l'appelant demande « Quel est mon numéro de membre ? », un simple LLM pré-formé ne peut générer qu'une réponse plausible, pas précise.

Les moyens les plus courants de rĂ©soudre ce problème sont les suivants :

  • Mise au point : formez davantage le LLM prĂ©-entraĂ®nĂ©, cette fois sur toutes les donnĂ©es spĂ©cifiques au domaine auxquelles vous souhaitez qu'il puisse rĂ©pondre correctement.

  • IngĂ©nierie rapide : ajoutez les donnĂ©es/instructions supplĂ©mentaires en tant qu'entrĂ©e au LLM, en plus de l'historique des conversations.

  • GĂ©nĂ©ration augmentĂ©e de rĂ©cupĂ©ration (RAG) : comme l'ingĂ©nierie d'invite, sauf que les donnĂ©es ajoutĂ©es Ă  l'invite sont dĂ©terminĂ©es Ă  la volĂ©e en faisant correspondre le contexte conversationnel actuel (par exemple, le client a demandĂ© « Votre hĂ´tel dispose-t-il d'une piscine ? ») Ă  une intĂ©gration codĂ©e. index des donnĂ©es spĂ©cifiques Ă  votre domaine (qui comprend, par exemple, un fichier indiquant : « Voici les installations disponibles Ă  l'hĂ´tel : piscine, sauna, borne de recharge pour vĂ©hicules Ă©lectriques. »).

  • ContrĂ´le basĂ© sur des règles : comme RAG, mais ce qui doit ĂŞtre ajoutĂ© (ou soustrait) Ă  l'invite n'est pas rĂ©cupĂ©rĂ© en faisant correspondre une mĂ©moire neuronale mais est dĂ©terminĂ© par des règles codĂ©es en dur (et codĂ©es Ă  la main).

Notez qu’une taille unique ne convient pas Ă  tous. Laquelle de ces mĂ©thodes sera appropriĂ©e dĂ©pendra, par exemple, des donnĂ©es spĂ©cifiques au domaine qui Ă©clairent la rĂ©ponse de l'agent. En particulier, cela dĂ©pendra si ces donnĂ©es changent frĂ©quemment (d'un appel Ă  l'autre, par exemple – par exemple le nom du client) ou rarement (par exemple, le message d'accueil initial : « Bonjour, merci d'avoir appelĂ© l'hĂ´tel Budapest. Comment puis-je vous aider aujourd'hui ? ?"). Un rĂ©glage fin ne serait pas appropriĂ© pour le premier, et RAG serait une solution maladroite pour le second. Ainsi, tout système fonctionnel devra utiliser une variĂ©tĂ© de ces mĂ©thodes.

De plus, l'intégration de ces méthodes avec le LLM et entre elles de manière à minimiser la latence et les coûts nécessite une ingénierie minutieuse. Par exemple, les performances RAG de votre modèle peuvent s'améliorer si vous l'ajustez pour faciliter cette méthode.

Il n’est peut-être pas surprenant que chacune de ces méthodes présente à son tour ses propres défis. Par exemple, prenons le réglage fin. Affiner votre LLM pré-entraîné sur les données spécifiques à votre domaine améliorera ses performances sur ces données, oui. Mais le réglage fin modifie les paramètres (poids) qui sont à la base des performances générales (vraisemblablement assez bonnes) du modèle pré-entraîné. Cette modification provoque donc un désapprentissage (ou « oubli catastrophique ») de certaines connaissances antérieures du modèle. Cela peut amener le modèle à donner des réponses incorrectes ou inappropriées (voire dangereuses). Si vous souhaitez que votre agent continue à répondre avec précision et en toute sécurité, vous avez besoin d’une méthode de réglage fin qui atténue les oublis catastrophiques.

DĂ©fi 2 : Point final

Déterminer quand un client a fini de parler est essentiel pour un déroulement naturel de la conversation. De même, le système doit gérer les interruptions avec élégance, garantissant que la conversation reste cohérente et adaptée aux besoins du client. Atteindre cet objectif à un niveau comparable à l’interaction humaine est une tâche complexe mais essentielle pour créer des expériences conversationnelles naturelles et agréables.

Une solution qui fonctionne nĂ©cessite que les concepteurs rĂ©flĂ©chissent Ă  des questions telles que celles-ci :

  • Combien de temps après que le client a cessĂ© de parler, l'agent doit-il attendre avant de dĂ©cider que le client a cessĂ© de parler ?

  • Est-ce que ce qui prĂ©cède dĂ©pend du fait que le client ait terminĂ© ou non une phrase complète ?

  • Que faire si le client interrompt l'agent ?

  • En particulier, l’agent doit-il supposer que ce qu’il dit n’a pas Ă©tĂ© entendu par le client ?

Ces problèmes, liés en grande partie au timing, nécessitent une ingénierie minutieuse au-delà de celle nécessaire pour qu'un LLM donne une réponse correcte.

Conclusion

L’évolution des systèmes vocaux basés sur l’IA promet un changement révolutionnaire dans la dynamique du service client, en remplaçant les systèmes téléphoniques obsolètes par des technologies avancées LLM, ASR et TTS. Cependant, surmonter les défis liés aux informations hallucinées et à la fluidité des points de terminaison sera essentiel pour offrir des interactions vocales naturelles et efficaces.

L’automatisation du service client a le pouvoir de changer véritablement la donne pour les entreprises, mais seulement si elle est effectuée correctement. En 2024, notamment grâce à toutes ces nouvelles technologies, nous pourrons enfin construire des systèmes qui semblent naturels et fluides et qui nous comprennent de manière robuste. L’effet net réduira les temps d’attente et améliorera l’expérience actuelle que nous avons avec les robots vocaux, marquant ainsi une ère de transformation en matière d’engagement client et de qualité de service.

Dr Itamar Arel, actuellement PDG de Tenyx, allie sa formation universitaire en tant qu'ancien professeur à l'Université du Tennessee et au laboratoire d'IA de l'Université de Stanford avec une réussite entrepreneuriale, en cofondant les sociétés pionnières Binatix, Apprente (acquise par McDonald's et IBM) et Tenyx. Itamar a récemment occupé le poste de vice-président d'entreprise et de responsable de McD Tech Labs chez McDonald's Corporation et de responsable de l'IA conversationnelle chez IBM Watson Orders.

Le Dr Ron Chrisley est actuellement conseiller scientifique en chef à Tenyx, qu'il a cofondé en 2021. Il est titulaire d'un BS en systèmes symboliques de Stanford, est titulaire d'un doctorat de l'Université d'Oxford et est professeur de sciences cognitives et d'intelligence artificielle à l'Université du Sussex. De 2019 à 2020, il a été chercheur invité à l’Institute for Human-Centered AI de Stanford.