Entrevistas
Sharone Ben-Levi, VP de Vendas e Desenvolvimento de Negócios Globais, Contact Center, AudioCodes – Série de Entrevistas

Sharone Ben-Levi, VP de Vendas e Desenvolvimento de Negócios Globais, Contact Center, AudioCodes, é um executivo de tecnologia de comunicações experiente com mais de 25 anos de experiência em vendas, marketing, desenvolvimento de negócios e inovação de contact center. Ao longo de sua carreira, que inclui mais de duas décadas na AudioCodes, ele ocupou uma série de posições de liderança sênior focadas em impulsionar o crescimento em comunicações empresariais, soluções de experiência do cliente e tecnologias de contact center impulsionadas por IA. Antes de ingressar na AudioCodes, ele trabalhou na NICE Systems, onde adquiriu experiência valiosa em engajamento do cliente e software empresarial. Ao longo de sua carreira, Ben-Levi se concentrou em ajudar as organizações a modernizar as interações do cliente por meio de comunicações em nuvem, automação e IA conversacional, tornando-se uma voz reconhecida na evolução da tecnologia de contact center.
AudioCodes é uma empresa de tecnologia de comunicações especializada em voz empresarial, contact center e soluções de experiência do cliente impulsionadas por IA. Fundada em 1993, a empresa evoluiu de um provedor de infraestrutura de voz e VoIP para um líder em comunicações de voz inteligentes, ajudando as organizações a modernizar as interações do cliente e do funcionário em ambientes em nuvem, híbridos e locais. Seu portfólio inclui plataformas de IA de voz, soluções de IA conversacional, controladores de fronteira de sessão, integrações de voz do Microsoft Teams, ofertas de CPaaS e ferramentas de modernização de contact center. Por meio de plataformas como VoiceAI Connect e Live Hub, a AudioCodes permite que as empresas implantem bots de voz, agentes de IA, capacidades de assistência de agente, soluções de IVR conversacional e serviços de comunicação em tempo real, integrando-se com a infraestrutura de telefonia e contact center existente. Suas tecnologias são usadas por empresas e provedores de serviços em todo o mundo para melhorar as experiências do cliente, automatizar fluxos de trabalho e apoiar iniciativas de transformação digital.
Você passou mais de duas décadas na AudioCodes, evoluindo de engenharia de sistemas embarcados para aplicações de produtividade. Como essa jornada moldou sua perspectiva sobre o que é necessário para tornar a IA de voz confiável em ambientes empresariais?
Eu vi as comunicações empresariais de múltiplas perspectivas, e essa jornada reforçou uma lição fundamental: a confiabilidade deve ser construída em cada camada do sistema desde o início.
Trabalhar em sistemas embarcados me ensinou que o diabo está nos detalhes, pequenas decisões técnicas têm um impacto desproporcional em ambientes de produção. Latência, qualidade de áudio, precisão de transcrição, tomada de turno natural e todos os outros elementos devem ser projetados com confiabilidade em mente, porque se algum deles falhar, o sistema inteiro falhará. Você não pode afirmar que um sistema de IA de voz funciona se ele só funciona em condições ideais.
Passar para uma posição de liderança tornou isso ainda mais claro. As empresas estão apoiando milhares de usuários em infraestruturas complexas com requisitos rigorosos de tempo de atividade. Um sistema que se sai bem em um piloto, mas degrada sob carga real, não resolveu o problema.
Isso é basicamente o que minha carreira me ensinou: a barra para a IA de voz nas empresas é a confiança. E a confiança só é construída quando as organizações podem depender do sistema para realizar com confiabilidade suficiente para se tornar parte de seus processos de negócios críticos.
Muitas organizações experimentaram chatbots, mas a voz introduz uma camada diferente de complexidade. Quais são os principais desafios técnicos ao migrar de sistemas de IA baseados em texto para sistemas de voz completamente conversacionais?
O maior desafio é a complexidade dos ambientes de voz empresariais, que são frequentemente fragmentados em “ilhas” separadas que exigem mediação entre os protocolos de telefonia baseados em SIP e as APIs baseadas em HTTP/SSE da IA. Isso chega a ser uma questão de pessoas. Muito poucos engenheiros conhecem tanto SIP quanto HTTP/SSE. Além disso, ao contrário dos sistemas baseados em texto, a voz exige processamento e orquestração em tempo real, incluindo a conversão entre diferentes protocolos para que esses sistemas possam se comunicar de forma transparente. Essa urgência e interoperabilidade tornam a entrega de uma experiência conversacional suave significativamente mais desafiadora do ponto de vista tecnológico. Latência, ruído de fundo, sotaque e fala cruzada agora são adicionados à mistura. Essas variáveis não existiam com texto apenas.
A AudioCodes se concentra em conectar sistemas de telefonia tradicionais com plataformas de IA modernas. Você pode explicar como soluções como o VoiceAI Connect integram a infraestrutura legada com modelos de IA avançados?
VoiceAI Connect é a ponte que liga os pontos de contato de cliente tradicionais (números de telefone, troncos SIP e telefonia de contact center) diretamente a plataformas de IA conversacional de terceiros, como o Google CX Agent Studio, Amazon Lex, Microsoft Copilot e mais de 30 outros. Ele lida com a orquestração de voz em tempo real complexa, incluindo fala-para-texto e texto-para-fala e roteamento de framework de bot, permitindo que as empresas misturem e combinem facilmente os bots de IA de sua escolha sem abandonar os sistemas de telefonia legados. Os sistemas legados geralmente carecem de integrações de API de seus servidores de mídia para as novas ofertas de IA de voz. Nós contornamos isso conectando-nos a eles por meio de interfaces de telefonia SIP e conectando-nos a interfaces de IA modernas.
As empresas frequentemente lutam para ir além de projetos-piloto. Quais são as principais barreiras arquiteturais ou operacionais que impedem a IA de voz de escalar em toda a organização?
A IA de voz ainda está se transformando. No momento em que uma empresa pilota uma tecnologia de IA, uma nova e melhor surge. Como a AudioCodes integra constantemente às novas soluções de IA de voz, isso permite que a empresa misture e combine e proteja seu ambiente para o futuro. A orquestração da AudioCodes permite que elas experimentem diferentes bots para diferentes propósitos, considerando desempenho, custo, idioma e conformidade. Isso aumenta as chances de uma transição bem-sucedida para a produção.
Outras considerações de orquestração de produção estão relacionadas à escalabilidade, continuidade dos negócios e conexão com vários ambientes de contact center em todo o mundo.
Em implantações do mundo real, como é uma experiência de chamada impulsionada por IA bem-sucedida do ponto de vista do usuário final, e quão perto estamos de alcançar interações humanas em escala?
Temos vários clientes muito grandes que começaram conosco em torno de 2020 e 2021. Eles são a prova de que interações humanas em escala já estão funcionando bem. Casos de uso do mundo real incluem tarefas orientadas ao cliente, como direcionamento de chamadas, agendamento de compromissos e transferências de dinheiro, bem como ferramentas orientadas ao agente, como resumo de chamadas de IA, orientação de conhecimento em tempo real e tradução de voz ao vivo.
Para o usuário final, uma experiência de chamada impulsionada por IA parece sem atrito. Em vez de navegar por menus rígidos (pressione 1 para isso, pressione 2 para aquilo), os chamadores podem falar naturalmente em suas próprias palavras por meio de sistemas de IVR (Resposta de Voz Interativa) conversacional que entendem a intenção e respondem apropriadamente. Isso cria uma interação mais intuitiva e eficiente desde o primeiro ponto de contato.
Embora a indústria ainda não esteja em interações complexas humanas em escala, essas capacidades estão trazendo as empresas significativamente mais perto. Ao combinar IA e automação com suporte humano, as empresas podem entregar experiências mais precisas e personalizadas.
A IA de voz depende do reconhecimento de fala, compreensão de linguagem natural e processamento em tempo real. Onde você vê os principais gargalos hoje, e como eles estão sendo abordados?
Um grande gargalo empresarial na adoção da IA de voz remonta à integração. De acordo com um relatório recente da Opus Research, apenas 38% das empresas dizem que o custo é uma barreira para a adoção da IA de voz. No entanto, 65% dizem que a integração dentro dos sistemas existentes e 60% dizem que a complexidade da integração.
Os fornecedores de CCaaS estão cada vez mais erguendo barreiras para um modelo de traga-seu-próprio-bot, bloqueando integrações ou tornando-as financeiramente inviáveis. Os sistemas mais antigos simplesmente não têm integrações de API atualizadas. Soluções como o Voice AI Connect da AudioCodes se conectam a ambientes de contact center existentes sobre SIP padrão e têm integrações de API para mais de 30 frameworks de bot de IA de voz e mais de 20 motores de fala-para-texto (STT) e texto-para-fala (TTS), eliminando a necessidade de escrever essas APIs manualmente.
O mesmo relatório destaca a qualidade geral de desempenho (qualidade de voz, fluxo de conversa, etc.) como a principal razão (72%) que desacelera a adoção. O que o Voice AI Connect permite é a combinação de frameworks de bot, STTs e TTSs para otimizar as implementações, pois nem todos os bots de IA se encaixam em todos os casos de uso e variações também são necessárias para jargão e idiomas. Além disso, a indústria de IA está evoluindo rapidamente, exigindo a capacidade de mudar facilmente para um novo fornecedor de IA à medida que a tecnologia melhora.
A integração deve ser de baixa latência, acessível e fácil de implantar. Ela também deve melhorar a segurança e o depuração, garantir a continuidade dos negócios e oferecer uma opção de implantação local.
A AudioCodes promove uma abordagem flexível que conecta vários fornecedores de IA e fala. Quão importante é a flexibilidade do fornecedor ao construir sistemas de IA de voz resilientes e prontos para o futuro?
A flexibilidade do fornecedor é crítica porque as empresas raramente operam em um ambiente de fornecedor único, e há muitas soluções de IA, fala, telefonia e comunicações diferentes no mercado. Para criar uma estratégia de IA de voz verdadeiramente unificada, as organizações precisam ser capazes de reunir essas diferentes soluções e garantir a interoperabilidade entre todas elas, otimizando custo, latência, desempenho de caso de uso, suporte a idiomas e jargão.
Uma abordagem flexível permite que as empresas integrem vários fornecedores, escolham as tecnologias certas para diferentes casos de uso e adaptem-se à medida que o mercado evolui.
Em setores regulamentados, como finanças ou saúde, como a coleta e análise de dados de interação de voz diferem dos fluxos de trabalho de IA baseados em nuvem típicos?
O tratamento de dados de voz é regido por requisitos estritos de privacidade e conformidade que limitam significativamente o uso de ferramentas de IA baseadas em nuvem. Para gerenciar isso, muitas organizações regulamentadas adotam implantações locais para garantir que dados sensíveis permaneçam dentro de ambientes controlados e nunca deixem sua infraestrutura.
Os padrões de conformidade também exigem que as interações de voz sejam gravadas e armazenadas em formatos específicos por anos, com transcrições verbatim altamente precisas estruturadas para auditoria. Por exemplo, no setor financeiro, uma empresa de corretagem deve armazenar cada chamada gravada e transcrição exatamente como falada para auditorias regulamentares – os dados não podem ser alterados ou resumidos. Na saúde, um provedor que lida com chamadas de pacientes deve manter gravações e transcrições totalmente seguras e em conformidade com o HIPAA. Em todo o quadro, os dados frequentemente precisam ser processados localmente para evitar que informações protegidas sejam expostas a serviços de nuvem externos.
À medida que as empresas começam a implantar agentes de IA que podem tomar ações em vez de apenas responder, como isso muda o papel das interfaces de voz no atendimento ao cliente e nas operações internas?
As interfaces de voz estão evoluindo de ferramentas passivas para sistemas inteligentes e proativos que podem analisar e agir em tempo real. Em vez de apenas gravar ou encaminhar conversas, os sistemas de voz impulsionados por IA agora podem entender a intenção e tomar ação imediata, como resolver problemas do cliente, acionar processos de backend ou ajudar um funcionário a resolver um problema de TI. Essa mudança é especialmente poderosa porque a voz é frequentemente o primeiro e mais natural ponto de contato.
Os agentes de IA agora podem se comunicar proativamente com um supervisor humano – por exemplo, para aprovar um desconto para um cliente. Eles também podem tomar ações diretas, como adicionar itens ao carrinho de compras de um cliente. Eles podem colaborar com outros bots que têm habilidades especializadas, como analisar fotos compartilhadas pelos clientes para melhor entender o contexto. Cada um desses representa um nível de sofisticação que simplesmente não existia antes.
Olhando para o futuro, você vê a voz se tornando a interface principal para os sistemas de IA empresariais, ou ela permanecerá parte de uma experiência multimodal mais ampla?
Deixe-me usar um exemplo pessoal para ilustrar meu ponto. Tenho dois filhos adolescentes. Eles prefeririam não interagir com um representante de atendimento ao cliente humano, se possível. No entanto, eles prefeririam falar com um bot do que trocar mensagens de texto com ele. A voz foi o meio natural de comunicação para os humanos por milhões de anos. É preferida sobre um teclado ou um mouse, pelo menos até que a leitura da mente se torne realidade.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar AudioCodes.












