Interviews
Alexey Aylarov, Co-Founder og CEO af Voximplant – Interview Serie

Alexey Aylarov co-founded Voximplant efter at have tilbragt et årti med at bygge kommunikationsværktøjer fra bunden. Hans tidlige arbejde inkluderede IP PBX-udvikling og kørsel af sin egen telesoftwarevirksomhed lang tid før cloud-telefoni blev mainstream. Zingaya kom herefter, og bragte click-to-call inden for browseren. Voximplant fulgte herefter og voksede til en serverless platform, som udviklere afhænger af til real-time stemme- og video.
Du startede din karriere som VoIP-ingeniør i midten af 2000’erne, lang tid før AI indgik i real-time kommunikation. Hvad var de største huller, du så dengang, som til sidst fik dig til at stifte Voximplant?
Jeg har været involveret i VoIP-systemer siden 2005. Dengang var det langsomt og komplekst at bygge pålidelige kommunikationsløsninger. Jeg lagde mærke til, at mange udviklere delte min frustration – hold var ved at forsøge at wire telecom-komponenter i stedet for at fokusere på den produktoplevelse, de faktisk ville levere. Dette fik mig til at bevæge mig mod ideen om programmable kommunikation til udviklere. Vi ville skabe en produkt, der ville tillade alle at bygge produkter uden at skulle være eksperter i telekommunikation.
Før Voximplant co-foundede jeg SIP-baserede opkaldstjenester Flashphone og Zingaya, som tilbød tidlige click-to-call-produkter. Efterspørgslen viste endnu en gang, at hold ville have programmable kommunikation, men værktøjerne var ikke der endnu. Alt dette førte til skabelsen af Voximplant i 2013.
I dag ser vi en lignende huller, men på en større skala. Voice AI indgår i produktionsflader, LLM’er udvikler sig hver måned, men det globale telefonnetværk forbliver fragmenteret. Ingen enkelt leverandør kan løse alt fra ende til anden. Derfor fungerer Voximplant som en orkestreringslag, der tilbyder udviklere en hurtig og kosteffektiv måde at eksperimentere med de seneste og mest avancerede værktøjer og at installere Voice-agenter på rigtige opkald, uden at skulle bekymre sig om telekommunikationsinfrastruktur eller streaming-kompleksitet.
Voximplant positionerer sig selv som en orkestreringslag i stedet for en enkelt AI- eller telekommunikationsleverandør. Hvorfor troede du, at orkestrering var den rigtige abstraktionslag at bygge for fremtiden for voice AI?
Det var vigtigt for os fra begyndelsen at være globalt, og du kan ikke levere en global telekommunikationsplatform uden at gøre nogen telekommunikationsorkestrering. Tekniske krav og infrastruktur varierer efter land, og vi tilbyder telefonnumre i mere end 190 lande, så det betyder, at vi gør en masse teknisk formidling.
Derudover er telekommunikationsstandarder som SIP udviklet til mange varianter over leverandører. Forbindelse af forskellige teleselskaber og kundespecifikke kommunikationsinfrastrukturer kræver fleksible systemer, der kan tilpasse sig hurtigt. Nyere telefonnetværk som WhatsApp fortsætter med at drive behov her – og det er før, vi kommer til kommunikationskontrollaget, der faktisk udfører vores kunders unikke applikationslogik.
På AI-siden er markedet meget intensivt og udvikler sig hurtigt. “Den bedste” leverandør i dag er sandsynligvis nummer to eller tre næste uge. Vores tilgang er at støtte så mange af de førende leverandører som muligt. Vi vil have, at vores kunder altid har en fuld sæt af state-of-the-art muligheder at vælge imellem. De kan vælge den rigtige AI-leverandør til deres given applikation – eller endda blande og matche. Vores orkestreringsplatform har også til formål at gøre det lettere at skifte mellem leverandører – samtidig med, at vi stadig eksponerer deres fulde funktioner, så udviklere ikke bliver fanget i en laveste fællesnominator-funktionssæt.
Mange hold undervurderer, hvor svært det er for en voice AI-agent at placere og styre rigtige telefonopkald. Fra din synsvinkel, hvad gør den virkelige telekommunikation så udfordrende i forhold til ren digitale AI-interaktioner?
Telefonnetværket er stadig højt fragmenteret og inkonsistent på tværs af regioner, hvilket gør det endnu mere uforudsigeligt. I nogle lande kan visse protokoller være begrænsede eller blokerede, teleselskaber oplever udfald som en del af normal drift, og opkaldsrutningsmønstre kan skifte på tværs af dagen. Der er også regioner, hvor cloud-telekommunikation kan være juridisk kompliceret.
Vi har også set tilfælde, hvor infrastrukturen selv bliver flaskenhalen. For eksempel havde en australsk sundhedsstartup, der byggede en AI-opringer til at checke ind på ældre kantonesisk-talende patienter, problemer med høj forsinkelse til US-baserede Voice AI-leverandører (som OpenAI eller ElevenLabs), og den begrænsede tilgængelighed af højkvalitets kantonesisk TTS gjorde samtalerne føle langsomme og unaturlige.
Oven i pålidelighed er der et overholdelseslag. Krav varierer bredt fra land til land og overlapper ofte med rammer som HIPAA, PCI DSS og GDPR.
Talepræstationen i sig selv er ikke universal. Ingen enkelt STT- eller TTS-motor fungerer bedst i enhver miljø. Accenter, baggrundsstøj, opkaldskvalitetsfluktuationer eller endda leverandørforringelse kan forårsage pludselige fald i nøjagtighed og brugeroplevelse.
Nogle Voice AI-systemer i dag afhænger af multiple leverandører til LLM’er, tale-til-tekst, tekst-til-tale og routing. Hvorfor er denne fragmentering uundgåelig, og hvorfor skal skifte af AI- eller tale-leverandør være en hurtig kodeændring i stedet for et stort ingeniørprojekt?
Tidligt i Voice AI var der ingen sand tale-til-tale mulighed, så du måtte samle tale-til-tekst, LLM og tekst-til-tale. I dag integrerer flere LLM-leverandører tale direkte (ofte med et vis niveau af barge-in-understøttelse), hvilket fjerner behovet for at bygge en fuld pipeline. Disse systemer er hurtigere og mere interaktive, men har stadig begrænsninger med aspekter som funktionsopkald og tilbyder færre muligheder for at forbedre transskription og stemmer. Vi forventer, at talebaserede LLM’er snart vil være sammenlignelige med tekstmodeller. Selv da kan kunder stadig ønske at bruge forskellige tale-leverandører til deres specifikke krav. Nogen pipeline-separation tilføjer også valgmuligheder for redundans.
At skifte AI- og tale-leverandører på vores platform er ikke et stort ingeniørarbejde, men det er mere end en enkelt linje kodeændring. Tale-leverandører kæmper konstant mod kommodificering ved at introducere unikke funktioner. Vi holder vores connectores så konsistente som muligt, samtidig med at vi eksponerer hver leverandørs funktioner, så kunder kan tage fordel af disse unikke funktioner, og skifte mellem leverandører ofte betyder at ændre få linjer kode.
Hvordan begynder voice AI-agenter at ændre økonomien i kundesupport, salg og andre B2C-operationer i forhold til traditionelle callcenter-modeller?
Det kan være for tidligt at tale om en betydelig ændring i økonomien for kundesupport, men det kommer sandsynligvis. I dag er der regioner, hvor kundesupportrepræsentanter koster mindre end LLM-drevne tjenester, men denne model kommer med velkendte udfordringer omkring skalerbarhed, udbrændthed, ledelse og drift. Jeg antager, at økonomien vil ændre sig betydeligt, efterhånden som LLM-optimering fortsætter med at forbedre, selv om det stadig vil tage noget tid.
Hvilke signaler fortæller dig, at Voice AI bevæger sig fra eksperimenter til mission-kritisk infrastruktur for virksomheder?
Det stærkeste signal her er investeringen i Voice AI-infrastruktur, som vokser hurtigt. Der er måder at spore Voice AI-aktiverede opkald eller minutter på en global skala, hvis ikke præcis, gennem estimater. Mens jeg kun kan spore dette direkte for Voximplant, ser vi tydeligt en stærk vækst.
Hvordan tror du, at udviklerforventninger omkring fleksibilitet og kontrol er ændret, efterhånden som AI-modeller og tale-teknologier itererer hurtigere?
Det er et interessant spørgsmål. Når det kommer til hastighed af ændring, er AI ubeslået af noget, vi har set i historien. Kontrol og fleksibilitet er mindre ligetil, afhængigt af, hvad vi mener med disse begreber. Når det kommer til kontrol, er der mange velkendte udfordringer, og at overvinde dem er ikke let. De fleste AI-virksomheder bruger betydelige anstrengelser på model-guards, men at gøre dette godt kræver dyb ekspertise, og forskellige virksomheder har tydeligt forskellige mål.
Hvilke fejl begår virksomheder oftest, når de forsøger at installere voice AI-agenter direkte på traditionelle telekommunikationssystemer?
Traditionelle telekommunikationssystemer er ikke direkte kompatible med Voice AI-tjenester, så de kræver typisk yderligere integration, ofte via SIP-protokollen eller WebSockets. Almindelige fejl inkluderer utilstrækkelig failover-styring, forsinkelsesproblemer (som kan være forårsaget af forskellige faktorer) og skalerbarhedsudfordringer.
Telekommunikation i sig selv skalerer ret godt, især med VoIP. Voice AI-tjenester er sværere at skale på grund af de hardware-krav, der er nødvendige for at køre LLM’er, og selv ret store infrastruktur-spillere som Amazon kan opleve kapacitetsbegrænsninger, når det kommer til inference-hardware.
Om lidt, hvilke funktioner tror du, at voice AI-platforme må støtte for at forblive relevante, efterhånden som real-time AI bliver mere autonom?
Jeg tror, at Voice AI-platforme skal fokusere på SLA, da det stadig kan være et problem af og til, og på yderligere værktøjer til test og overvågning.
Til sidst vil de mest avancerede platforme tilbyde alt, der er nødvendigt, men i dag er vi stadig i gang med at lære nye lektioner hver dag, mange af hvilke bør blive en del af den grundlæggende stak. Hvis du arbejder med store virksomheder eller i regulerede miljøer, kan det at have en lokal version af dit produkt være kritisk.
Når du ser tilbage på din rejse fra tidlige VoIP-infrastrukturer til at lede en voice AI-platform i dag, hvad har overrasket dig mest om, hvordan industrien er udviklet?
Mange ting har overrasket mig, men en af dem er, at ændringer i VoIP-infrastruktur tager år at ske. Et godt eksempel er, at telekommunikation stadig afhænger af smalbåndslydformater (G.711, G.729), mens folk allerede er vant til bredbåndslyd i online-kommunikationstjenester som Zoom, Google Meet, WhatsApp osv.
De fleste AI-modeller er trænet på bredbåndslyddata også. Alle moderne mobiltelefoner har bredbåndslydformater indbygget, men der er stadig betydelige interoperabilitetsudfordringer på niveauet med leverandørerne, der forhindrer bredbåndslyd i at blive brugt i traditionelle telefonopkald. Det er ikke, som om der ikke er nogen fremgang overhovedet, men i min mening har det været meget beskedent.












