Entrevistas
Alexey Aylarov, Co-Fundador e CEO da Voximplant – Série de Entrevistas

Alexey Aylarov co-fundou a Voximplant após uma década construindo ferramentas de comunicação do zero. Seu trabalho inicial incluiu o desenvolvimento de IP PBX e a gestão de sua própria empresa de software de telecomunicações muito antes de a telefonia em nuvem se tornar mainstream. Zingaya veio em seguida, trazendo chamadas por clique dentro do navegador. A Voximplant seguiu, crescendo em uma plataforma sem servidor que os desenvolvedores confiam para voz e vídeo em tempo real. Alexey escreve sobre o lado prático da Voice AI, especialmente onde os grandes modelos de linguagem colidem com as realidades complicadas da telefonia global.
Você começou sua carreira como engenheiro de VoIP no meio dos anos 2000, muito antes de a IA entrar nas comunicações em tempo real. Quais foram as principais lacunas que você viu naquela época que eventualmente o levaram a fundar a Voximplant?
Estou envolvido com sistemas VoIP desde 2005. Naquela época, construir comunicações confiáveis era lento e complexo. Notei que muitos desenvolvedores compartilhavam minha frustração – equipes estavam tentando ligar componentes de telecomunicações em vez de se concentrar na experiência do produto que realmente queriam entregar. Isso me impulsionou a mudar para a ideia de comunicações programáveis para desenvolvedores. Queríamos criar um produto que permitisse que todos construíssem produtos sem precisar ser especialistas em telecomunicações.
Antes da Voximplant, co-fundei serviços de chamada baseados em SIP, como Flashphone e Zingaya, que ofereciam produtos de chamada por clique precoces. A demanda provou mais uma vez que as equipes queriam comunicação programável, mas as ferramentas não estavam lá ainda. Tudo isso levou à criação da Voximplant em 2013.
Hoje, estamos vendo uma lacuna semelhante, mas em uma escala maior. A Voice AI está entrando nos fluxos de produção, os LLMs continuam a evoluir todos os meses, mas a rede de telefonia global permanece fragmentada. Nenhum fornecedor único pode resolver tudo de ponta a ponta. É por isso que a Voximplant atua como uma camada de orquestração, oferecendo aos desenvolvedores uma maneira rápida e econômica de experimentar com as ferramentas mais avançadas e implantar Agentes de Voz em chamadas reais, sem se preocupar com a infraestrutura de telefonia ou complexidade de transmissão.
A Voximplant se posiciona como uma camada de orquestração, e não como um fornecedor único de IA ou telefonia. Por que você acreditou que a orquestração era a camada de abstração certa para construir para o futuro da Voice AI?
Foi importante para nós desde o início sermos globais, e você não pode fornecer uma plataforma de telefonia global sem fazer alguma orquestração de telefonia. Os requisitos técnicos e a infraestrutura variam por país, e oferecemos números de telefone em mais de 190 países, então isso significa que fazemos muita mediação técnica.
Além disso, os padrões de telefonia, como o SIP, evoluíram para muitos sabores entre os fornecedores. Conectar diferentes operadoras de telefonia e infraestruturas de comunicação do cliente requer sistemas flexíveis que possam se adaptar rapidamente. Novas redes de telefonia, como o WhatsApp, continuam a impulsionar as necessidades aqui – e isso é antes de adicionar a lógica de controle de comunicação em cima que realmente executa a lógica de aplicação única dos nossos clientes.
No lado da IA, o mercado é muito intenso e evolui rapidamente. O “melhor” fornecedor de hoje provavelmente estará em segundo ou terceiro lugar na semana que vem. Nossa abordagem é apoiar tantos fornecedores líderes quanto possível. Queremos que nossos clientes sempre tenham um conjunto completo de opções de ponta para escolher. Eles podem escolher os fornecedores de IA certos para sua aplicação específica – ou até mesclar e combinar. Nossa plataforma de orquestração também visa tornar mais fácil a troca entre os fornecedores – ao mesmo tempo em que expõe todas as suas capacidades, para que os desenvolvedores não fiquem presos em um conjunto de recursos de menor denominação comum.
Muitas equipes subestimam o quão difícil é para um agente de Voice AI fazer e gerenciar chamadas telefônicas reais. Do seu ponto de vista, o que torna a telefonia do mundo real tão desafiadora em comparação com interações de IA puramente digitais?
A rede de telefonia ainda é altamente fragmentada e inconsistente em diferentes regiões, tornando-a ainda mais imprevisível. Em alguns países, certos protocolos podem ser restritos ou bloqueados, as operadoras experimentam falhas como parte das operações normais, e os padrões de roteamento de chamadas podem mudar ao longo do dia. Há também regiões onde a telefonia em nuvem pode ser legalmente complicada.
Também vimos casos em que a própria infraestrutura se torna um gargalo. Por exemplo, um startup de saúde australiano que construiu um chamador de IA para verificar idosos que falam cantonês enfrentou alta latência para fornecedores de IA baseados nos EUA (como OpenAI ou ElevenLabs), e a disponibilidade limitada de TTS de alta qualidade em cantonês fez com que as conversas parecessem lentas e não naturais.
Além da confiabilidade, há a camada de conformidade. Os requisitos variam amplamente de país para país e frequentemente se sobrepõem a quadros como HIPAA, PCI DSS e GDPR.
O desempenho da fala em si não é universal. Nenhum único motor de STT ou TTS funciona melhor em todos os ambientes. Acentos, ruído de fundo, flutuações na qualidade da chamada ou até mesmo a degradação do fornecedor podem causar quedas súbitas na precisão e na experiência do usuário.
Alguns sistemas de Voice AI hoje dependem de vários fornecedores para LLMs, speech-to-text, text-to-speech e roteamento. Por que essa fragmentação é inevitável, e por que trocar fornecedores de IA ou fala deve ser uma alteração rápida de código em vez de um grande projeto de engenharia?
No início da Voice AI, não havia uma opção real de fala-para-fala, então você tinha que montar speech-to-text, LLM e text-to-speech. Hoje, vários fornecedores de LLM integram fala diretamente (com algum nível de suporte a barganha), removendo a necessidade de construir um pipeline completo. Esses sistemas são mais rápidos e altamente interativos, mas ainda têm limitações em aspectos como chamadas funcionais e oferecem menos opções para melhorar a transcrição e as vozes. Esperamos que os LLMs baseados em fala sejam comparáveis aos modelos de texto em breve. Mesmo assim, os clientes podem ainda querer usar fornecedores de fala diferentes para seus requisitos específicos. Alguma separação de pipeline também adiciona escolhas para redundância.
Trocar fornecedores de IA e fala em nossa plataforma não é um esforço de engenharia significativo, mas é mais do que uma alteração de uma linha de código. Os fornecedores de fala estão constantemente lutando contra a commoditização, introduzindo recursos únicos. Mantemos nossos conectores o mais consistentes possível, enquanto expomos as capacidades de cada fornecedor, então tirar proveito desses recursos únicos, trocar fornecedores frequentemente significa alterar algumas linhas de código.
Como os agentes de Voice AI estão começando a mudar a economia do suporte ao cliente, vendas e outras operações B2C em comparação com os modelos tradicionais de call center?
Pode ser cedo para falar sobre uma mudança significativa na economia do suporte ao cliente, mas definitivamente está vindo. Hoje, há regiões onde os representantes de suporte ao cliente custam menos do que os serviços impulsionados por LLM, mas esse modelo vem com desafios conhecidos em torno de escalabilidade, queima, gerenciamento e operações. Acredito que a economia mudará significativamente à medida que a otimização dos LLMs continuar a melhorar, embora ainda leve algum tempo.
Quais sinais indicam que a Voice AI está se movendo da experimentação para a infraestrutura crítica para as empresas?
O sinal mais forte aqui é o investimento na infraestrutura de Voice AI, que está crescendo rapidamente. Há maneiras de acompanhar chamadas ou minutos de Voice AI habilitados em escala global, se não exatamente, por meio de estimativas. Embora eu possa acompanhar isso diretamente apenas para a Voximplant, claramente vemos um crescimento forte.
Como você acha que as expectativas dos desenvolvedores em torno de flexibilidade e controle mudaram à medida que os modelos de IA e as tecnologias de voz iteram mais rapidamente?
Essa é uma pergunta interessante. Quando se trata da velocidade de mudança, a IA é inigualável por qualquer coisa que já vimos na história. Controle e flexibilidade são menos diretos, dependendo do que queremos dizer com esses termos. Quando se trata de controle, há muitos desafios conhecidos, e superá-los não é fácil. A maioria das empresas de IA gasta esforços significativos em guardrails de modelo, mas fazer isso bem exige expertise profunda, e diferentes empresas claramente têm objetivos diferentes.
Quais são os erros mais comuns que as empresas cometem ao tentar implantar agentes de Voice AI diretamente em cima de sistemas de telefonia tradicionais?
Os sistemas de telefonia tradicionais não são compatíveis diretamente com os serviços de Voice AI, então geralmente exigem integração adicional, geralmente via protocolo SIP ou WebSockets. Erros comuns incluem gerenciamento de failover insuficiente, problemas de latência (que podem ser causados por vários fatores) e desafios de escalabilidade.
A telefonia em si escala bastante bem, especialmente com VoIP. Os serviços de Voice AI são mais difíceis de escalar devido aos requisitos de hardware necessários para executar LLMs, e até mesmo grandes jogadores de infraestrutura, como a Amazon, podem enfrentar limitações de capacidade quando se trata de hardware de inferência.
Olhando para o futuro, quais capacidades você acredita que as plataformas de Voice AI devem suportar para permanecer relevantes à medida que a IA em tempo real se torna mais autônoma?
Acredito que as plataformas de Voice AI precisam se concentrar em SLA, pois ainda pode ser um problema às vezes, e em ferramentas adicionais para testes e observabilidade.
Eventualmente, as plataformas mais avançadas oferecerão tudo o que é necessário, mas hoje estamos aprendendo novas lições todos os dias, muitas das quais devem se tornar parte do conjunto de ferramentas principais. Se você trabalha com grandes empresas ou em ambientes regulamentados, ter uma versão local do seu produto pode ser crítico.
Quando você reflete sobre sua jornada desde a infraestrutura de VoIP inicial até liderar uma plataforma de Voice AI hoje, o que mais o surpreendeu sobre como a indústria evoluiu?
Muitas coisas me surpreenderam, mas uma delas é que as mudanças na infraestrutura de VoIP levam anos para acontecer. Um bom exemplo é que a telefonia ainda depende de codecs de áudio de banda estreita (G.711, G.729), enquanto as pessoas já estão acostumadas com áudio de banda larga em serviços de comunicação online, como Zoom, Google Meet, WhatsApp, etc.
A maioria dos modelos de IA é treinada com dados de áudio de banda larga. Todos os telefones celulares modernos têm codecs de áudio de banda larga embutidos, mas ainda há desafios significativos de interoperabilidade no nível do operador que impedem o uso de áudio de banda larga em chamadas telefônicas tradicionais. Não é como se não houvesse progresso algum, mas, na minha opinião, foi muito modesto.












