Rozhovory

Alexej Aylarov, spoluzakladatel a CEO Voximplantu – Interview Series

mm

Alexej Aylarov spoluzakládal Voximplant po desetiletí stráveném budováním komunikačních nástrojů od základů. Jeho raná práce zahrnovala vývoj IP PBX a řízení své vlastní softwarové společnosti pro telekomunikace dlouho předtím, než se cloudová telefonie stala mainstreamem. Následovalo Zingaya, které přineslo click-to-call přímo do prohlížeče. Voximplant přišel poté, rostoucí do serverless platformy, na které se vývojáři spoléhají pro real-time hlas a video. Alexej píše o praktické stránce Voice AI, zejména tam, kde se velké jazykové modely střetávají s komplikovanou realitou globální telekomunikace.

Začali jste svou kariéru jako inženýr VoIP v polovině roku 2000, dlouho předtím, než AI vstoupila do real-time komunikací. Jaké byly největší mezery, které jste viděl tehdy, a které vás nakonec vedly ke založení Voximplantu?

Jsem se zapojil do VoIP systémů od roku 2005. V té době bylo budování spolehlivých komunikačních systémů pomalé a složité. Zaznamenal jsem, že mnoho vývojářů sdílelo mou frustraci – týmy se snažily propojit telekomunikační komponenty místo toho, aby se soustředily na produkt, který chtěly dodat. To mě vedlo k myšlence programovatelných komunikačních systémů pro vývojáře. Chtěli jsme vytvořit produkt, který by umožnil každému budovat produkty bez nutnosti být odborníkem na telekomunikace.

Před Voximplantem jsem spoluzakládal SIP-založené služby pro volání Flashphone a Zingaya, které nabízely rané produkty click-to-call. Poptávka opět prokázala, že týmy chtěly programovatelnou komunikaci, ale nástroje pro to nebyly dosud k dispozici. To vše vedlo k vytvoření Voximplantu v roce 2013.

Dnes vidíme podobnou mezeru, ale v mnohem větší škále. Voice AI vstupuje do produkčních toků, LLMs se dále vyvíjí každý měsíc, ale globální telefonní síť zůstává fragmentovaná. Žádný jediný dodavatel nemůže vyřešit všechno od začátku do konce. Proto Voximplant funguje jako orchestrační vrstva, nabízející vývojářům rychlý a nákladově efektivní způsob, jak experimentovat s nejnovějšími a nejrozvinutějšími nástroji a nasazovat Voice Agenty v reálných voláních, aniž by se museli starat o telekomunikační infrastrukturu nebo složitost streamování.

Voximplant se позиcionuje jako orchestrační vrstva spíše než jako jediný AI nebo telekomunikační dodavatel. Proč jste věřil, že orchestrace je správná abstrakční vrstva pro budoucnost voice AI?

Pro nás bylo důležité být globální, a to nelze poskytnout bez nějaké telekomunikační orchestrace. Technické požadavky a infrastruktura se liší podle zemí, a my nabízíme telefonní čísla ve více než 190 zemích, což znamená, že provádíme spoustu technického zprostředkování.

Kromě toho se telekomunikační standardy, jako je SIP, vyvinuly do mnoha verzí napříč dodavateli. Připojování různých telekomunikačních společností a zákaznických komunikačních infrastruktur vyžaduje flexibilní systémy, které mohou rychle přizpůsobit. Novější telefonní sítě, jako je WhatsApp, dále pohánějí potřeby – a to ještě předtím, než přidáme logiku komunikační kontroly, která skutečně vykonává jedinečnou aplikaci logiky našich zákazníků.

Na straně AI je trh velmi intenzivní a rychle se vyvíjí. „Nejlepší“ dodavatel dnes je pravděpodobně druhý nebo třetí příští týden. Naší přístup je podporovat co nejvíce vedoucích dodavatelů. Chceme, aby naši zákazníci vždy měli plnou sadu nejmodernějších možností na výběr. Mohou si vybrat správné AI dodavatele pro svou konkrétní aplikaci – nebo dokonce kombinovat. Naše orchestrační platforma také usnadňuje přepínání mezi dodavateli, zatímco stále vystavuje jejich plné schopnosti, aby vývojáři nebyli uvězněni v sadě funkcí s nejnižším společným jmenovatelem.

Mnohé týmy podceňují, jak obtížné je pro voice AI agenta umístit a spravovat reálná telefonní volání. Z vašeho pohledu, co dělá reálnou telekomunikační komunikaci tak komplikovanou ve srovnání s čistě digitálními interakcemi AI?

Telefonní síť je stále vysoce fragmentovaná a nekonzistentní napříč regiony, což ji činí ještě nepředvídatelnější. V některých zemích mohou být určitá protokola omezena nebo zablokována, operátoři zažívají výpadky jako součást normálních operací, a vzorce směrování hovorů se mohou měnit po celý den. Existují také regiony, kde je cloudová telekomunikační legislativně komplikovaná.

Viděli jsme také případy, kdy se sama infrastruktura stává úzkým místem. Například australská zdravotnická společnost budující AI volajícího pro kontrolu starších kantonsky mluvících pacientů se potýkala s vysokou latencí k americkým poskytovatelům Voice AI (jako OpenAI nebo ElevenLabs), a omezená dostupnost kvalitního kantonského TTS činila konverzace pomalými a nepřirozenými.

Kromě spolehlivosti existuje také vrstva shody. Požadavky se liší široce od země k zemi a často se překrývají s rámci, jako je HIPAA, PCI DSS a GDPR.

Samotný výkon řeči také není univerzální. Žádný jediný STT nebo TTS engine nefunguje nejlépe ve všech prostředích. Akcenty, pozadí, kolísání kvality hovoru nebo dokonce degradace poskytovatele mohou způsobit náhlé poklesy v přesnosti a uživatelském zážitku.

Některé systémy Voice AI dnes spoléhají na více dodavatelů pro LLMs, speech-to-text, text-to-speech a směrování. Proč je tato fragmentace nevyhnutelná, a proč by mělo být přepínání AI nebo speech poskytovatelů rychlou změnou kódu spíše než velkým inženýrským projektem?

Na počátku Voice AI neexistovala skutečná možnost speech-to-speech, takže jste museli sestavit speech-to-text, LLM a text-to-speech. Dnes několik dodavatelů LLM integruje řeč přímo (často s nějakou úrovní barge-in podpory), což odstraňuje potřebu budování plného potrubí. Tyto systémy jsou rychlejší a vysoce interaktivní, ale stále mají omezení, jako je funkční volání, a nabízejí méně možností pro zlepšení přepisu a hlasů. Očekáváme, že speech-založené LLMs budou brzy srovnatelné s textovými modely. I poté mohou zákazníci stále chtít používat různé speech dodavatele pro své specifické požadavky. Některé oddělení potrubí také přidávají volby pro redundanci.

Přepínání AI a speech dodavatelů na naší platformě není velkým inženýrským úsilím, ale je to více než jednoduchá změna kódu. Speech dodavatelé neustále bojují proti komoditizaci zaváděním jedinečných funkcí. Držíme naše konektory co nejvíce konzistentní, zatímco vystavujeme schopnosti každého poskytovatele, takže využívání těchto jedinečných funkcí, přepínání poskytovatelů často znamená změnu několika řádků kódu.

Jak začínají voice AI agenty měnit ekonomiku zákaznické podpory, prodeje a dalších B2C operací ve srovnání s tradičními modely call center?

Může být příliš brzy mluvit o významné změně v ekonomice zákaznické podpory, ale určitě to přijde. Dnes existují regiony, kde zástupci zákaznické podpory stojí méně než služby poháněné LLM, ale tento model přichází s dobře známými výzvami kolem škálovatelnosti, vyhoření, řízení a operací. Předpokládám, že ekonomika se změní významně, jakmile se optimalizace LLM dále zlepší, i když to bude trvat nějakou dobu.

Jaké signály vám říkají, že Voice AI přechází z experimentů do kriticky důležité infrastruktury pro podniky?

Nejsilnějším signálem je investice do infrastruktury Voice AI, která rychle roste. Existují způsoby, jak sledovat Voice AI-povolena hovory nebo minuty v globálním měřítku, pokud ne přesně, prostřednictvím odhadů. Zatímco mohu sledovat pouze to přímo pro Voximplant, jasně vidíme silný růst.

Jak si myslíte, že očekávání vývojářů kolem flexibility a kontroly změnily, jakmile se AI modely a hlasové technologie iterují rychleji?

To je zajímavá otázka. Když se jedná o rychlost změn, AI je nevídaná ve srovnání s čímkoli, co jsme viděli v historii. Kontrola a flexibilita jsou méně přímočaré, v závislosti na tom, co rozumíme pod těmito termíny. Když se jedná o kontrolu, existuje mnoho známých výzev, a překonání jich není snadné. Většina AI společností věnuje značné úsilí modelovým zábranám, ale dělat to dobře vyžaduje hluboké odborné znalosti, a různé společnosti jasně mají různé cíle.

Jaké chyby dělají společnosti nejčastěji, když se snaží nasadit voice AI agenty přímo na tradiční telekomunikační systémy?

Tradiční telekomunikační systémy nejsou přímo kompatibilní s Voice AI službami, takže obvykle vyžadují další integraci, obvykle prostřednictvím protokolu SIP nebo WebSockets. Společné chyby zahrnují nedostatečné řízení selhání, problémy s latencí (které mohou být způsobeny různými faktory) a výzvami škálovatelnosti.

Telekomunikační systémy škálovatelně fungují poměrně dobře, zejména s VoIP. Voice AI služby jsou obtížněji škálovatelné kvůli hardwarovým požadavkům potřebným pro běh LLM, a dokonce i poměrně velké infrastrukturní hráči, jako je Amazon, mohou čelit kapacitním omezením, pokud jde o hardwarové inferencing.

Pohledem do budoucnosti, jaké schopnosti musí voice AI platformy podporovat, aby zůstaly relevantní, jakmile se real-time AI stane více autonomní?

Myslím, že Voice AI platformy potřebují soustředit se na SLA, protože to může být někdy problém, a na další nástroje pro testování a pozorovatelnost.

Nakonec budou nejpokročilejší platformy nabízet vše, co je potřeba, ale dnes se stále učíme nové lekce každý den, z nichž mnohé by se měly stát součástí jádrového balíčku. Pokud pracujete s velkými podniky nebo v regulovaných prostředích, mít verzi produktu on-prem může být kritické.

Když se ohlédnete za svou cestou od rané VoIP infrastruktury k vedení voice AI platformy dnes, co vás nejvíce překvapilo, jak se průmysl vyvinul?

Mnohé věci mě překvapily, ale jedna z nich je, že změny v infrastruktuře VoIP trvají roky. Dobrým příkladem je, že telekomunikační systémy stále spoléhají na úzkopásmové audio kódy (G.711, G.729), zatímco lidé jsou již zvyklí na širokopásmové audio v online komunikačních službách, jako je Zoom, Google Meet, WhatsApp atd.

Většina AI modelů je také trénována na širokopásmových audio datech. Všechny moderní mobilní telefony mají širokopásmové audio kódy vestavěné, ale stále existují významné problémy s interoperabilitou na úrovni operátorů, které brání použití širokopásmového audio v tradičních telefonních hovorech. Není to tak, že by nebyl žádný pokrok, ale podle mého názoru to bylo velmi skromné.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.