Líderes de pensamento

Agentes baseados em voz baseados em IA para empresas: dois desafios principais

Publicado 31 de janeiro de 2024

Atualização do 1 de fevereiro de 2024

Dr. Itamar Arel e Dr. Ron Chrisley

Agora, mais do que nunca, é hora de sistemas baseados em voz alimentados por IA. Considere uma chamada para o atendimento ao cliente. Em breve toda a fragilidade e inflexibilidade desaparecerão – as vozes robóticas rígidas, os menus restritivos do tipo “pressione um para vendas”, as experiências irritantes que nos fizeram pressionar zero freneticamente na esperança de falar com um agente humano. (Ou, dados os longos tempos de espera que a transferência para um agente humano pode acarretar, nos fez desistir completamente da ligação.)

Não mais. Avanços não apenas em transformadores grandes modelos de linguagem (LLMs), mas em automático reconhecimento de fala (ASR) e Texto-a-fala (TTS) significam que os agentes baseados em voz da “próxima geração” estão aqui – se você souber como construí-los.

Hoje daremos uma olhada nos desafios enfrentados por qualquer pessoa que deseje construir um agente de conversação baseado em voz de última geração.

Por que voz?

Antes de começarmos, vamos dar uma rápida olhada nas atrações gerais e na relevância dos agentes baseados em voz (em oposição às interações baseadas em texto). Há muitas razões pelas quais uma interação por voz pode ser mais apropriada do que uma baseada em texto – estas podem incluir, em ordem crescente de gravidade:

Preferência ou hábito – falar é anterior à escrita em termos de desenvolvimento e historicamente
Entrada de texto lenta – muitos conseguem falar mais rápido do que enviar mensagens de texto
Situações de mãos livres – como dirigir, malhar ou lavar a louça
Analfabetismo – pelo menos na(s) língua(s) que o agente entende
Deficiências – como cegueira ou falta de controle motor não vocal

Numa época aparentemente dominada por transações mediadas por websites, a voz continua a ser um canal poderoso para o comércio. Por exemplo, um estudo recente realizado pela JD Power sobre a satisfação do cliente na indústria hoteleira descobriu que os hóspedes que reservaram o seu quarto por telefone ficaram mais satisfeitos com a sua estadia do que aqueles que reservaram através de uma agência de viagens online (OTA) ou diretamente através do website do hotel. .

Mas as respostas de voz interativas, ou IVRs, para abreviar, não são suficientes. Um estudo de 2023 da Zippia descobriram que 88% dos clientes preferem chamadas de voz com um agente ao vivo em vez de navegar em um menu telefônico automatizado. O estudo também descobriu que as principais coisas que mais incomodam as pessoas nos menus do telefone incluem ouvir opções irrelevantes (69%), incapacidade de descrever completamente o problema (67%), serviço ineficiente (33%) e opções confusas (15% ).

E há abertura para o uso de assistentes baseados em voz. De acordo com um estudo da Accenture, cerca de 47% dos consumidores já se sentem confortáveis em utilizar assistentes de voz para interagir com empresas e cerca de 31% dos consumidores já utilizaram um assistente de voz para interagir com uma empresa.

Seja qual for o motivo, para muitos existe uma preferência e uma procura pela interação falada – desde que seja natural e confortável.

O que torna um bom agente baseado em voz?

Grosso modo, um bom agente baseado em voz deve responder ao usuário de uma forma que seja:

Relevante: Baseado no entendimento correto do que o usuário disse/queria. Observe que, em alguns casos, a resposta do agente não será apenas uma resposta falada, mas alguma forma de ação por meio da integração com um back-end (por exemplo, fazer com que um quarto de hotel seja reservado quando o chamador disser “Vá em frente e reserve”). .
Preciso: baseado em fatos (por exemplo, diga apenas que há um quarto disponível no hotel no dia 19 de janeiro, se houver)
Claro: a resposta deve ser compreensível
Oportuno: Com o tipo de latência que se esperaria de um ser humano
Seguro: Nenhuma linguagem ofensiva ou inadequada, revelação de informações protegidas, etc.

O problema

Os actuais sistemas automatizados baseados em voz tentam satisfazer os critérios acima à custa de a) serem a) muito limitados eb) muito frustrantes de utilizar. Parte disso é resultado das altas expectativas que um contexto de conversação baseado em voz estabelece, e tais expectativas só aumentam à medida que a qualidade da voz nos sistemas TTS se torna indistinguível das vozes humanas. Mas estas expectativas são frustradas nos sistemas que estão amplamente implantados neste momento. Por que?

Em uma palavra – inflexibilidade:

Discurso limitado – o usuário normalmente é forçado a dizer coisas de maneira não natural: em frases curtas, em uma ordem específica, sem informações falsas, etc. Isso oferece pouco ou nenhum avanço em relação ao antigo sistema de menu baseado em números.
Noção restrita e não inclusiva de discurso “aceitável” – baixa tolerância a gírias, uhms e ahs, etc.
Sem retrocesso: se algo der errado, pode haver pouca chance de “consertar” ou corrigir a informação problemática, mas em vez disso ter que começar de novo ou esperar por uma transferência para um ser humano.
Assunção de turnos estrita – sem capacidade de interromper ou falar com um agente

Nem é preciso dizer que as pessoas consideram essas restrições irritantes ou frustrantes.

A solução:

A boa notícia é que os sistemas modernos de IA são poderosos e rápidos o suficiente para melhorar enormemente os tipos de experiências acima, em vez de se aproximarem (ou excederem!) dos padrões de atendimento ao cliente baseados em humanos. Isto se deve a uma variedade de fatores:

Hardware mais rápido e poderoso
Melhorias no ASR (maior precisão, superação de ruídos, sotaques, etc.)
Melhorias no TTS (vozes com som natural ou até mesmo clonadas)
A chegada de LLMs generativos (conversas com som natural)

Esse último ponto é uma virada de jogo. A principal conclusão foi que um bom modelo preditivo pode servir como um bom modelo generativo. Um agente artificial pode chegar perto do desempenho conversacional de nível humano se disser qualquer coisa que um LLM suficientemente bom preveja ser a coisa mais provável que um bom agente humano de atendimento ao cliente diria em um determinado contexto conversacional.

Indique a chegada de dezenas de startups de IA na esperança de resolver o problema do agente conversacional baseado em voz simplesmente selecionando e conectando módulos ASR e TTS prontos para uso a um núcleo LLM. Nesta visão, a solução é apenas uma questão de selecionar uma combinação que minimize a latência e o custo. E claro, isso é importante. Mas isso é suficiente?

Não tão rápido

Existem vários motivos específicos pelos quais essa abordagem simples não funciona, mas derivam de dois pontos gerais:

Na verdade, os LLMs não conseguem, por si só, fornecer boas conversas de texto baseadas em fatos, do tipo necessário para aplicações empresariais, como atendimento ao cliente. Portanto, eles também não podem fazer isso sozinhos em conversas baseadas em voz. Algo mais é necessário.
Mesmo que você complemente os LLMs com o que é necessário para criar um bom agente conversacional baseado em texto, transformá-lo em um bom agente conversacional baseado em voz requer mais do que apenas conectá-lo aos melhores módulos ASR e TTS que você pode pagar.

Vejamos um exemplo específico de cada um desses desafios.

Desafio 1: Mantendo a Realidade

Como é amplamente sabido, os LLMs às vezes produzem informações imprecisas ou "alucinadas". Isso é desastroso no contexto de muitas aplicações comerciais, mesmo que possa ser uma boa aplicação de entretenimento onde a precisão pode não ser o objetivo.

Que os LLMs às vezes tenham alucinações é de se esperar, refletindo. É uma consequência direta do uso de modelos treinados em dados de um ano (ou mais) atrás para gerar respostas a perguntas sobre fatos que não fazem parte ou são decorrentes de um conjunto de dados (por maior que seja) que pode durar um ano ou mais. velho. Quando o chamador pergunta “Qual é o meu número de membro?”, um simples LLM pré-treinado só pode gerar uma resposta que pareça plausível, e não precisa.

As formas mais comuns de lidar com esse problema são:

Ajuste fino: treine ainda mais o LLM pré-treinado, desta vez em todos os dados específicos do domínio que você deseja que ele seja capaz de responder corretamente.
Engenharia de prompt: adicione dados/instruções extras como uma entrada para o LLM, além do histórico de conversação
Geração Aumentada de Recuperação (RAG): como a engenharia de prompt, exceto que os dados adicionados ao prompt são determinados dinamicamente pela correspondência do contexto de conversação atual (por exemplo, o cliente perguntou “Seu hotel tem piscina?”) a um código de incorporação índice dos dados específicos do seu domínio (que inclui, por exemplo, um arquivo que diz: “Aqui estão as instalações disponíveis no hotel: piscina, sauna, estação de carregamento de veículos elétricos.”).
Controle baseado em regras: como o RAG, mas o que deve ser adicionado (ou subtraído) do prompt não é recuperado pela correspondência de uma memória neural, mas é determinado por meio de regras codificadas (e codificadas manualmente).

Observe que um tamanho não serve para todos. Qual desses métodos será apropriado dependerá, por exemplo, dos dados específicos do domínio que informam a resposta do agente. Em particular, dependerá se esses dados mudam com frequência (chamada a chamada, por exemplo - por exemplo, nome do cliente) ou quase nunca (por exemplo, a saudação inicial: “Olá, obrigado por ligar para o Hotel Budapeste. Como posso ajudá-lo hoje? ?”). O ajuste fino não seria apropriado para o primeiro caso, e o RAG seria uma solução desajeitada para o segundo. Portanto, qualquer sistema funcional terá que usar uma variedade desses métodos.

Além do mais, a integração desses métodos com o LLM e entre si de uma forma que minimize a latência e o custo requer uma engenharia cuidadosa. Por exemplo, o desempenho do RAG do seu modelo pode melhorar se você ajustá-lo para facilitar esse método.

Pode não ser surpresa que cada um destes métodos, por sua vez, apresente os seus próprios desafios. Por exemplo, faça o ajuste fino. Ajustar seu LLM pré-treinado com base nos dados específicos do domínio melhorará seu desempenho nesses dados, sim. Mas o ajuste fino modifica os parâmetros (pesos) que são a base do desempenho geral (presumivelmente bastante bom) do modelo pré-treinado. Esta modificação provoca, portanto, um desaprendizado (ou “esquecimento catastrófico”) de alguns conhecimentos prévios do modelo. Isso pode fazer com que o modelo forneça respostas incorretas ou inadequadas (até mesmo inseguras). Se quiser que seu agente continue respondendo com precisão e segurança, você precisa de um método de ajuste fino que mitigue o esquecimento catastrófico.

Desafio 2: Ponto final

Determinar quando um cliente termina de falar é fundamental para o fluxo natural da conversa. Da mesma forma, o sistema deve lidar com as interrupções com elegância, garantindo que a conversa permaneça coerente e responda às necessidades do cliente. Alcançar isso em um padrão comparável à interação humana é uma tarefa complexa, mas é essencial para criar experiências de conversação naturais e agradáveis.

Uma solução que funcione exige que os designers considerem questões como estas:

Quanto tempo após o cliente parar de falar o agente deve esperar antes de decidir que o cliente parou de falar?
O que foi dito acima depende se o cliente completou uma frase completa?
O que deve ser feito se o cliente interromper o agente?
Em particular, o agente deveria presumir que o que estava dizendo não foi ouvido pelo cliente?

Estas questões, tendo em grande parte a ver com o tempo, requerem uma engenharia cuidadosa, acima e além daquela envolvida na obtenção de um LLM para dar uma resposta correta.

Conclusão

A evolução dos sistemas baseados em voz alimentados por IA promete uma mudança revolucionária na dinâmica de atendimento ao cliente, substituindo sistemas telefônicos antiquados por tecnologias avançadas LLMs, ASR e TTS. No entanto, superar os desafios em informações alucinadas e endpoints contínuos será fundamental para fornecer interações de voz naturais e eficientes.

A automação do atendimento ao cliente tem o poder de se tornar uma verdadeira virada de jogo para as empresas, mas somente se for feita corretamente. Em 2024, especialmente com todas estas novas tecnologias, poderemos finalmente construir sistemas que possam parecer naturais e fluidos e que nos compreendam de forma robusta. O efeito líquido reduzirá os tempos de espera e melhorará a experiência atual que temos com os bots de voz, marcando uma era transformadora no envolvimento do cliente e na qualidade do serviço.

Tópicos relacionados:líderes do pensamento IA baseada em voz

Dr. Itamar Arel

Dr. Itamar Arel, atual CEO da Tenyx, combina sua formação acadêmica como ex-professor da Universidade do Tennessee e do laboratório de IA da Universidade de Stanford com sucesso empresarial, co-fundando as empresas pioneiras Binatix, Apprente (adquirida pelo McDonald's e IBM) e Tenyx. Itamar ocupou recentemente o cargo de vice-presidente corporativo e chefe do McD Tech Labs na McDonald's Corporation e chefe de IA conversacional na IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley é atualmente Conselheiro Científico Chefe da Tenyx, que ele cofundou em 2021. Ele recebeu bacharelado em Sistemas Simbólicos pela Stanford, possui doutorado pela Universidade de Oxford e é professor de Ciência Cognitiva e Inteligência Artificial na Universidade de Sussex. De 2019 a 2020, foi Visiting Scholar no Stanford's Institute for Human-Centered AI.

Unir-se.AI