Líderes de pensamento

Agentes de voz baseados em IA para empresas: Dois desafios principais

Published January 31, 2024

Updated April 27, 2026

Dr. Itamar Arel and Dr. Ron Chrisley

Agora, mais do que nunca, é a hora para sistemas de voz baseados em IA. Considere uma ligação para o serviço de atendimento ao cliente. Em breve, toda a rigidez e inflexibilidade serão eliminadas – as vozes robóticas rígidas, os menus de estilo “pressione um para vendas”, as experiências irritantes que nos fizeram pressionar freneticamente o zero na esperança de falar com um agente humano. (Ou, dado os longos tempos de espera que podem ser necessários para ser transferido para um agente humano, desistir da ligação completamente.)

Não mais. Avanços não apenas em modelos de linguagem grandes baseados em transformadores (LLMs) mas em reconhecimento automático de fala (ASR) e sistemas de texto-para-fala (TTS) significam que os agentes de voz de “próxima geração” estão aqui – se você souber como construí-los.

Hoje, vamos dar uma olhada nos desafios que confrontam qualquer um que esperar construir um agente de voz conversacional de ponta.

Por que voz?

Antes de mergulhar, vamos dar uma olhada rápida nas atrações gerais e relevância dos agentes de voz (em oposição às interações baseadas em texto). Há muitos motivos pelos quais uma interação de voz pode ser mais apropriada do que uma baseada em texto – esses podem incluir, em ordem crescente de gravidade:

Preferência ou hábito – falar precede o desenvolvimento da escrita historicamente
Entrada de texto lenta – muitos podem falar mais rápido do que podem digitar
Situções sem mãos – como dirigir, fazer exercícios ou lavar louça
Analfabetismo – pelo menos na(s) língua(s) que o agente entende
Deficiências – como cegueira ou falta de controle motor não vocal

Em uma era aparentemente dominada por transações mediadas por sites, a voz permanece um canal poderoso para o comércio. Por exemplo, um estudo recente da JD Power sobre satisfação do cliente na indústria hoteleira descobriu que os hóspedes que reservaram seu quarto por telefone estavam mais satisfeitos com sua estadia do que aqueles que reservaram por meio de uma agência de viagens online (OTA) ou diretamente pelo site do hotel.

Mas as respostas interativas de voz, ou IVRs para abreviar, não são suficientes. Um estudo de 2023 da Zippia descobriu que 88% dos clientes preferem ligações de voz com um agente ao vivo em vez de navegar em um menu de telefone automatizado. O estudo também descobriu que as principais coisas que mais irritam as pessoas sobre os menus de telefone incluem ouvir opções irrelevantes (69%), incapacidade de descrever completamente o problema (67%), serviço ineficiente (33%) e opções confusas (15%).

E há uma abertura para usar assistentes de voz. De acordo com um estudo da Accenture, cerca de 47% dos consumidores já estão confortáveis usando assistentes de voz para interagir com empresas e cerca de 31% dos consumidores já usaram um assistente de voz para interagir com uma empresa.

Qualquer que seja o motivo, para muitos, há uma preferência e demanda por interação falada – desde que seja natural e confortável.

O que torna um bom agente de voz?

Roughly speaking, um bom agente de voz deve responder ao usuário de uma maneira que seja:

Relevante: Com base em uma compreensão correta do que o usuário disse/quis. Note que, em alguns casos, a resposta do agente não será apenas uma resposta falada, mas alguma forma de ação por meio da integração com um backend (por exemplo, realmente causar a reserva de um quarto de hotel quando o chamador diz “Vá em frente e reserve”).
Preciso: Com base nos fatos (por exemplo, apenas diga que há um quarto disponível no hotel em 19 de janeiro se houver)
Claro: A resposta deve ser compreensível
Oportuno: Com o tipo de latência que se esperaria de um humano
Seguro: Nenhuma linguagem ofensiva ou inapropriada, revelação de informações protegidas, etc.

O problema

Os sistemas automatizados de voz atuais tentam atender aos critérios acima à custa de a) ser a) muito limitados e b) muito frustrantes para usar. Parte disso é resultado das altas expectativas que um contexto conversacional de voz estabelece, com essas expectativas apenas aumentando à medida que a qualidade de voz nos sistemas TTS se torna indistinguível das vozes humanas. Mas essas expectativas são desfeitas nos sistemas que estão amplamente implantados no momento. Por quê?

Em uma palavra – inflexibilidade:

Fala limitada – o usuário é tipicamente forçado a dizer coisas de forma não natural: em frases curtas, em uma ordem específica, sem informações espúrias, etc. Isso oferece pouca ou nenhuma melhoria em relação ao velho sistema de menu baseado em números
Noção estreita e não inclusiva de “fala aceitável” – baixa tolerância a gírias, uhms e ahs, etc.
Nenhum retorno: Se algo der errado, pode haver pouca chance de “reparar” ou corrigir a informação problemática, mas em vez disso, começar novamente, ou esperar por uma transferência para um humano.
Troca estrita de turnos – nenhuma capacidade de interromper ou falar com um agente

Não é surpreendente que as pessoas encontrem essas restrições irritantes ou frustrantes.

A solução:

A boa notícia é que os sistemas de IA modernos são poderosos e rápidos o suficiente para melhorar significativamente as experiências acima. Isso é devido a uma variedade de fatores:

Hardware mais rápido e poderoso
Melhorias no ASR (maior precisão, superando ruídos, sotaques, etc.)
Melhorias no TTS (vozes naturais ou até mesmo clonadas)
A chegada de LLMs gerativas (conversas naturais)

Esse último ponto é um divisor de águas. A principal percepção foi que um bom modelo preditivo pode servir como um bom modelo gerativo. Um agente artificial pode se aproximar do desempenho conversacional humano se disser o que um LLM suficientemente bom prevê ser a coisa mais provável que um bom agente de atendimento ao cliente humano diria no contexto conversacional dado.

Chamem a chegada de dezenas de startups de IA que esperam resolver o problema do agente conversacional de voz simplesmente selecionando e, em seguida, conectando módulos ASR e TTS prontos para uso a um núcleo LLM. Nessa visão, a solução é apenas uma questão de selecionar uma combinação que minimize a latência e o custo. E, claro, isso é importante. Mas é suficiente?

Não tão rápido

Há várias razões específicas pelas quais essa abordagem simples não funcionará, mas elas derivam de dois pontos gerais:

Os LLMs, por si só, não podem fornecer boas conversas de texto baseadas em fatos do tipo necessário para aplicações empresariais como atendimento ao cliente. Portanto, eles não podem, por si só, fazer isso para conversas baseadas em voz.
Mesmo que você suplemente os LLMs com o que é necessário para fazer um bom agente conversacional baseado em texto, transformar isso em um bom agente conversacional baseado em voz requer mais do que apenas conectá-lo aos melhores módulos ASR e TTS que você pode pagar.

Vamos dar uma olhada em um exemplo específico de cada um desses desafios.

Desafio 1: Manter a realidade

Como é amplamente conhecido, os LLMs às vezes produzem informações imprecisas ou “alucinadas”. Isso é desastroso no contexto de muitas aplicações comerciais, mesmo que possa ser adequado para uma aplicação de entretenimento onde a precisão pode não ser o ponto.

Que os LLMs às vezes alucinem é apenas o que se espera, por reflexão. É uma consequência direta de usar modelos treinados com dados de um ano (ou mais) atrás para gerar respostas a perguntas sobre fatos que não fazem parte, ou não são inferidos por, um conjunto de dados (por mais grande que seja) que pode ter um ano ou mais de idade. Quando o chamador pergunta “Qual é o meu número de associação?”, um LLM pré-treinado simples pode gerar apenas uma resposta plausível, não precisa.

As maneiras mais comuns de lidar com esse problema são:

Ajuste fino: Treine o LLM pré-treinado ainda mais, desta vez nos dados específicos do domínio que você deseja que ele possa responder corretamente.
Engenharia de prompt: Adicione os dados/instruções extras como uma entrada para o LLM, além da história conversacional
Geração Aumentada de Recuperação (RAG): Semelhante à engenharia de prompt, exceto que os dados adicionados ao prompt são determinados em tempo de execução, combinando o contexto conversacional atual (por exemplo, o cliente perguntou “O seu hotel tem piscina?”) com um índice de codificação de incorporação de dados específicos do domínio (que inclui, por exemplo, um arquivo que diz: “Aqui estão as instalações disponíveis no hotel: piscina, sauna, estação de carregamento de veículos elétricos”).
Controle baseado em regras: Semelhante ao RAG, mas o que deve ser adicionado (ou subtraído) do prompt não é recuperado por meio de uma memória neural, mas é determinado por meio de regras codificadas em duro (e codificadas à mão).

Observe que um tamanho não se ajusta a todos. Qual desses métodos será apropriado dependerá, por exemplo, dos dados específicos do domínio que estão informando a resposta do agente. Em particular, dependerá de se os dados mudam com frequência (de ligação para ligação, digamos – por exemplo, nome do cliente) ou quase nunca (por exemplo, a saudação inicial: “Olá, obrigado por ligar para o Hotel Budapeste. Como posso ajudá-lo hoje?”). O ajuste fino não seria apropriado para o primeiro, e o RAG seria uma solução desajeitada para o segundo. Portanto, qualquer sistema de trabalho terá que usar uma variedade desses métodos.

O que é mais, integrar esses métodos com o LLM e entre si de uma maneira que minimize a latência e o custo requer engenharia cuidadosa. Por exemplo, o desempenho do RAG do seu modelo pode melhorar se você ajustar o treinamento para facilitar esse método.

Pode não ser surpreendente que cada um desses métodos, por sua vez, introduza seus próprios desafios. Por exemplo, pegue o ajuste fino. Ajustar o treinamento do seu LLM pré-treinado nos seus dados específicos do domínio melhorará seu desempenho nesses dados, sim. Mas o ajuste fino modifica os parâmetros (pesos) que são a base do desempenho geral do modelo pré-treinado (presumivelmente bastante bom). Essa modificação, portanto, causa um desaprendizado (ou “esquecimento catastrófico”) de parte do conhecimento anterior do modelo. Isso pode resultar no modelo fornecer respostas incorretas ou inapropriadas (até perigosas). Se você quiser que seu agente continue a responder com precisão e segurança, você precisa de um método de ajuste fino que mitigue o esquecimento catastrófico.

Desafio 2: Endpointing

Determinar quando um cliente terminou de falar é crítico para o fluxo de conversa natural. Da mesma forma, o sistema deve lidar com interrupções de forma elegante, garantindo que a conversa permaneça coerente e responsiva às necessidades do cliente. Alcançar isso para um padrão comparável à interação humana é uma tarefa complexa, mas é essencial para criar experiências conversacionais naturais e agradáveis.

Uma solução que funciona exige que os designers considerem perguntas como:

Quanto tempo após o cliente parar de falar o agente deve esperar antes de decidir que o cliente parou de falar?
Isso depende de o cliente ter completado uma frase completa?
O que deve ser feito se o cliente interromper o agente?
Em particular, o agente deve supor que o que estava dizendo não foi ouvido pelo cliente?

Essas questões, tendo principalmente a ver com tempo, exigem uma engenharia cuidadosa acima e além daquela envolvida em obter um LLM para fornecer uma resposta correta.

Conclusão

A evolução dos sistemas de voz baseados em IA promete uma mudança revolucionária na dinâmica do atendimento ao cliente, substituindo sistemas de telefone antiquados por LLMs, ASR e TTS avançados. No entanto, superar os desafios de informações alucinadas e endpointing sem esforço será fundamental para fornecer interações de voz naturais e eficientes.

Automatizar o atendimento ao cliente tem o poder de se tornar um verdadeiro divisor de águas para as empresas, mas apenas se feito corretamente. Em 2024, particularmente com todas essas novas tecnologias, finalmente podemos construir sistemas que possam parecer naturais e fluentes e entender-nos robustamente. O efeito líquido reduzirá os tempos de espera e melhorará a experiência atual que temos com robôs de voz, marcando uma era transformadora no engajamento e qualidade do atendimento ao cliente.

Dr. Itamar Arel

Dr. Itamar Arel, atualmente o CEO da Tenyx, combina sua formação acadêmica como ex-professor da Universidade do Tennessee e do laboratório de IA da Universidade de Stanford com sucesso empresarial, co-fundando empresas pioneiras Binatix, Apprentice (adquirida pela McDonald's e IBM) e Tenyx. Itamar recentemente ocupou o cargo de vice-presidente corporativo e chefe do McD Tech Labs na McDonald's Corporation e chefe de IA conversacional na IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI