Entrevistas
Alexey Aylarov, Co-Fundador y CEO de Voximplant – Serie de Entrevistas

Alexey Aylarov co-fundó Voximplant después de una década dedicada a construir herramientas de comunicación desde cero. Su trabajo temprano incluyó el desarrollo de IP PBX y la dirección de su propia empresa de software de telecomunicaciones mucho antes de que la telefonía en la nube se convirtiera en mainstream. Luego vino Zingaya, que trajo el click-to-call dentro del navegador. Voximplant siguió, creciendo hasta convertirse en una plataforma sin servidor que los desarrolladores confían en ella para la voz y el video en tiempo real. Alexey escribe sobre el lado práctico de la Inteligencia Artificial de Voz, especialmente donde los grandes modelos de lenguaje chocan con las realidades desordenadas de la telefonía global.
Comenzaste tu carrera como ingeniero de VoIP en la mitad de la década de 2000, mucho antes de que la IA entrara en las comunicaciones en tiempo real. ¿Cuáles fueron las brechas más grandes que viste en ese momento que finalmente te llevaron a fundar Voximplant?
He estado involucrado con los sistemas VoIP desde 2005. En ese momento, construir comunicaciones confiables era lento y complejo. Me di cuenta de que muchos desarrolladores compartían mi frustración – los equipos estaban tratando de cablear componentes de telecomunicaciones en lugar de centrarse en la experiencia del producto que realmente querían entregar. Esto me empujó a moverme hacia la idea de comunicaciones programables para desarrolladores. Queríamos crear un producto que permitiera a todos construir productos sin necesidad de ser expertos en telecomunicaciones.
Antes de Voximplant, co-fundé servicios de llamadas basados en SIP como Flashphone y Zingaya, que ofrecieron productos de click-to-call tempranos. La demanda demostró una vez más que los equipos querían comunicaciones programables, pero la herramienta no estaba allí todavía. Todo eso llevó a la creación de Voximplant en 2013.
Hoy en día, estamos viendo una brecha similar, pero a una escala mayor. La Inteligencia Artificial de Voz está entrando en los flujos de producción, los LLM siguen evolucionando cada mes, pero la red telefónica global sigue siendo fragmentada. Ningún proveedor puede resolver todo de principio a fin. Es por eso que Voximplant actúa como una capa de orquestación, ofreciendo a los desarrolladores una forma rápida y rentable de experimentar con las herramientas y los agentes de voz más avanzados y desplegar Agentes de Voz en llamadas reales, sin preocuparse por la infraestructura de telecomunicaciones o la complejidad de transmisión.
Voximplant se posiciona como una capa de orquestación en lugar de un proveedor único de IA o telecomunicaciones. ¿Por qué creíste que la orquestación era la capa de abstracción correcta para construir para el futuro de la Inteligencia Artificial de Voz?
Fue importante para nosotros desde el principio ser globales, y no puedes proporcionar una plataforma de telecomunicaciones global sin hacer algo de orquestación de telecomunicaciones. Los requisitos técnicos y la infraestructura varían por país, y ofrecemos números de teléfono en más de 190 países, así que esto significa que hacemos mucha mediación técnica.
Además, los estándares de telecomunicaciones como SIP han evolucionado hacia muchos sabores a través de los proveedores. Conectar diferentes operadores de telecomunicaciones y diversas infraestructuras de comunicaciones del cliente requiere sistemas flexibles que puedan adaptarse rápidamente. Las redes de teléfono más nuevas, como WhatsApp, siguen impulsando necesidades aquí – y esto es antes de agregar la lógica de control de comunicaciones en la parte superior que realmente ejecuta la lógica de aplicación única de nuestros clientes.
En el lado de la IA, el mercado es muy intenso y evoluciona rápidamente. El proveedor “mejor” de hoy probablemente será el segundo o tercero la próxima semana. Nuestro enfoque es apoyar a tantos proveedores líderes como sea posible. Queremos que nuestros clientes siempre tengan un conjunto completo de opciones de vanguardia para elegir. Pueden elegir los proveedores de IA adecuados para su aplicación determinada – o incluso mezclar y combinar. Nuestra plataforma de orquestación también tiene como objetivo hacer que cambiar entre proveedores sea más sencillo – mientras aún expone todas sus capacidades para que los desarrolladores no se queden con un conjunto de características de denominador común más bajo.
Muchos equipos subestiman lo difícil que es para un agente de Inteligencia Artificial de Voz realizar y gestionar llamadas telefónicas reales. Desde tu perspectiva, ¿qué hace que la telefonía del mundo real sea tan desafiante en comparación con las interacciones de IA puramente digitales?
La red telefónica sigue siendo altamente fragmentada e inconsistente en diferentes regiones, lo que la hace aún más impredecible. En algunos países, ciertos protocolos pueden estar restringidos o bloqueados, los operadores experimentan cortes como parte de las operaciones normales, y los patrones de enrutamiento de llamadas pueden cambiar a lo largo del día. También hay regiones donde la telefonía en la nube puede ser legalmente complicada.
También hemos visto casos en los que la infraestructura en sí se convierte en el cuello de botella. Por ejemplo, un startup de atención médica australiano que construyó un llamador de IA para verificar a pacientes ancianos que hablan cantonés luchó con una alta latencia hacia los proveedores de IA de EE. UU. (como OpenAI o ElevenLabs), y la disponibilidad limitada de TTS de alta calidad en cantonés hizo que las conversaciones se sintieran lentas y poco naturales.
Además de la confiabilidad, hay una capa de cumplimiento. Los requisitos varían ampliamente de país a país y a menudo se superponen con marcos como HIPAA, PCI DSS y GDPR.
El rendimiento del habla en sí no es universal. Ningún motor de STT o TTS funciona mejor en todos los entornos. Acentos, ruido de fondo, fluctuaciones en la calidad de la llamada o incluso la degradación del proveedor pueden causar caídas repentinas en la precisión y la experiencia del usuario.
Algunos sistemas de Inteligencia Artificial de Voz dependen de múltiples proveedores para LLM, speech-to-text, text-to-speech y enrutamiento. ¿Por qué esta fragmentación es inevitable, y por qué debería ser un cambio rápido de código en lugar de un proyecto de ingeniería importante cambiar los proveedores de IA o de habla?
Al principio de la Inteligencia Artificial de Voz, no había una verdadera opción de habla a habla, así que tenías que armar speech-to-text, LLM y text-to-speech. Hoy en día, varios proveedores de LLM integran el habla directamente (a menudo con algún nivel de soporte de interrupción), eliminando la necesidad de construir una tubería completa. Estos sistemas son más rápidos y altamente interactivos, pero todavía tienen limitaciones con aspectos como la llamada funcional y ofrecen menos opciones para mejorar la transcripción y las voces. Esperamos que los LLM basados en el habla sean comparables a los modelos de texto pronto. Incluso entonces, los clientes pueden seguir queriendo usar diferentes proveedores de habla para sus requisitos específicos. Algunas separaciones de tubería también agregan opciones de redundancia.
Cambiar los proveedores de IA y de habla en nuestra plataforma no es un esfuerzo de ingeniería importante, pero es más que un cambio de una línea de código. Los proveedores de habla luchan constantemente contra la commodityzación al introducir características únicas. Mantenemos nuestros conectores lo más consistentes posible mientras exponemos las capacidades de cada proveedor, así que aprovechar estas características únicas, cambiar proveedores a menudo significa cambiar unas pocas líneas de código.
¿Cómo están comenzando a cambiar los agentes de Inteligencia Artificial de Voz la economía del soporte al cliente, las ventas y otras operaciones B2C en comparación con los modelos de centro de llamadas tradicionales?
Puede ser demasiado pronto para hablar de un cambio significativo en la economía del soporte al cliente, pero definitivamente está llegando. Hoy en día, hay regiones donde los representantes del soporte al cliente cuestan menos que los servicios impulsados por LLM, sin embargo, este modelo viene con desafíos conocidos alrededor de la escalabilidad, el agotamiento, la gestión y las operaciones. Asumo que la economía cambiará significativamente a medida que la optimización de LLM continúe mejorando, aunque todavía tomará algún tiempo.
¿Qué señales te indican que la Inteligencia Artificial de Voz se está moviendo de la experimentación a la infraestructura de misión crítica para las empresas?
La señal más fuerte aquí es la inversión en la infraestructura de Inteligencia Artificial de Voz, que está creciendo rápidamente. Hay formas de rastrear las llamadas o minutos habilitados por IA a escala global, si no exactamente, a través de estimaciones. Mientras puedo rastrear esto directamente solo para Voximplant, claramente vemos un crecimiento fuerte.
¿Cómo crees que las expectativas de los desarrolladores sobre la flexibilidad y el control han cambiado a medida que los modelos de IA y las tecnologías de voz iteran más rápido?
Esa es una pregunta interesante. Cuando se trata de la velocidad de cambio, la IA es insuperable por cualquier cosa que hayamos visto en la historia. El control y la flexibilidad son menos directos, dependiendo de lo que signifiquen esos términos. Cuando se trata del control, hay muchos desafíos conocidos, y superarlos no es fácil. La mayoría de las empresas de IA dedican esfuerzos significativos a los guardrails de los modelos, pero hacerlo bien requiere una gran experiencia, y diferentes empresas claramente tienen diferentes objetivos.
¿Qué errores cometen las empresas más comúnmente cuando intentan desplegar agentes de Inteligencia Artificial de Voz directamente sobre los sistemas de telefonía tradicionales?
Los sistemas de telefonía tradicionales no son directamente compatibles con los servicios de Inteligencia Artificial de Voz, así que generalmente requieren una integración adicional, generalmente a través del protocolo SIP o WebSockets. Los errores comunes incluyen una gestión de failover insuficiente, problemas de latencia (que pueden ser causados por varios factores) y desafíos de escalabilidad.
La telefonía en sí se escala bastante bien, especialmente con VoIP. Los servicios de Inteligencia Artificial de Voz son más difíciles de escalar debido a los requisitos de hardware necesarios para ejecutar LLM, e incluso jugadores de infraestructura grandes como Amazon pueden enfrentar limitaciones de capacidad cuando se trata de hardware de inferencia.
Mirando hacia adelante, ¿qué capacidades deben admitir las plataformas de Inteligencia Artificial de Voz para seguir siendo relevantes a medida que la IA en tiempo real se vuelve más autónoma?
Creo que las plataformas de Inteligencia Artificial de Voz necesitan centrarse en el SLA, ya que todavía puede ser un problema en ocasiones, y en herramientas adicionales para pruebas y observabilidad.
Eventualmente, las plataformas más avanzadas ofrecerán todo lo necesario, pero hoy en día, todavía estamos aprendiendo nuevas lecciones todos los días, muchas de las cuales deberían convertirse en parte de la pila básica. Si trabajas con grandes empresas o en entornos regulados, tener una versión local de tu producto puede ser crítico.
Al reflexionar sobre tu viaje desde la infraestructura de VoIP temprana hasta liderar una plataforma de Inteligencia Artificial de Voz hoy en día, ¿qué te ha sorprendido más sobre cómo ha evolucionado la industria?
Muchas cosas me han sorprendido, pero una de ellas es que los cambios en la infraestructura de VoIP tardan años en ocurrir. Un buen ejemplo es que la telefonía todavía depende de códigos de audio de banda estrecha (G.711, G.729), mientras que la gente ya está acostumbrada al audio de banda ancha en servicios de comunicación en línea como Zoom, Google Meet, WhatsApp, etc.
La mayoría de los modelos de IA están entrenados en datos de audio de banda ancha. Todos los teléfonos móviles modernos tienen códigos de audio de banda ancha incorporados, pero todavía hay desafíos de interoperabilidad significativos a nivel de los operadores que impiden el uso de audio de banda ancha en llamadas telefónicas tradicionales. No es que no haya progreso en absoluto, pero en mi opinión, ha sido muy modesto.












