Interviste

Alexey Aylarov, Co-Fondatore e CEO di Voximplant – Serie di Interviste

mm

Alexey Aylarov ha co-fondato Voximplant dopo un decennio trascorso a costruire strumenti di comunicazione dalla base. Il suo lavoro iniziale includeva lo sviluppo di IP PBX e la gestione della sua stessa società di software per telecomunicazioni molto prima che la telefonia cloud diventasse mainstream. Zingaya è arrivato dopo, portando la funzione di click-to-call all’interno del browser. Voximplant ha seguito, crescendo in una piattaforma serverless su cui gli sviluppatori si affidano per la voce e il video in tempo reale. Alexey scrive sul lato pratico della Voice AI, in particolare su dove i grandi modelli linguistici si scontrano con le realtà confuse della telefonia globale.

Hai iniziato la tua carriera come ingegnere VoIP a metà degli anni 2000, molto prima che l’AI entrasse nelle comunicazioni in tempo reale. Quali sono stati i più grandi gap che hai visto all’epoca che ti hanno spinto a fondare Voximplant?

Sono stato coinvolto con i sistemi VoIP dal 2005. All’epoca, costruire comunicazioni affidabili era lento e complesso. Ho notato che molti sviluppatori condividevano la mia frustrazione – le squadre stavano cercando di cablare componenti di telecomunicazione invece di concentrarsi sull’esperienza del prodotto che volevano effettivamente offrire. Ciò mi ha spinto a muovermi verso l’idea di comunicazioni programmabili per gli sviluppatori. Volevamo creare un prodotto che permettesse a tutti di costruire prodotti senza dover essere esperti di telecomunicazioni.

Prima di Voximplant, ho co-fondato servizi di chiamata basati su SIP come Flashphone e Zingaya, che offrivano prodotti di click-to-call precoci. La domanda ha dimostrato ancora una volta che le squadre volevano comunicazioni programmabili, ma gli strumenti non c’erano ancora. Tutto ciò ha portato alla creazione di Voximplant nel 2013.

Oggi, stiamo vedendo un gap simile, ma su una scala più grande. La Voice AI sta entrando nei flussi di produzione, i modelli linguistici continuano a evolversi ogni mese, ma la rete telefonica globale rimane frammentata. Nessun fornitore singolo può risolvere tutto dall’inizio alla fine. È per questo che Voximplant agisce come un livello di orchestrazione, offrendo agli sviluppatori un modo rapido e conveniente per sperimentare con gli strumenti e le tecnologie più avanzati e per distribuire gli agenti vocali su chiamate reali, senza preoccuparsi dell’infrastruttura di telefonia o della complessità di streaming.

Voximplant si posiziona come un livello di orchestrazione piuttosto che come un fornitore di AI o di telefonia singolo. Perché hai creduto che l’orchestrazione fosse il livello di astrazione giusto da costruire per il futuro della Voice AI?

È stato importante per noi fin dall’inizio essere globali, e non puoi fornire una piattaforma di telefonia globale senza fare un po’ di orchestrazione di telefonia. I requisiti tecnici e l’infrastruttura variano per paese, e offriamo numeri di telefono in più di 190 paesi, quindi questo significa che facciamo molta mediazione tecnica.

Inoltre, gli standard di telefonia come SIP sono evoluti in molti “sapori” tra i fornitori. Collegare diverse società di telecomunicazioni e varie infrastrutture di comunicazione dei clienti richiede sistemi flessibili che possano adattarsi rapidamente. Le nuove reti telefoniche, come WhatsApp, ad esempio, continuano a spingere le esigenze in questo senso – e questo è prima di aggiungere la logica di controllo delle comunicazioni in cima che esegue effettivamente la logica dell’applicazione unica dei nostri clienti.

Sul lato AI, il mercato è molto intenso e si evolve rapidamente. Il “miglior” fornitore di oggi è probabile che sia al secondo o terzo posto la prossima settimana. Il nostro approccio è quello di supportare quanti più fornitori leader possibile. Vogliamo che i nostri clienti abbiano sempre un set completo di opzioni all’avanguardia da scegliere. Possono scegliere i fornitori di AI giusti per la loro applicazione specifica – o anche mescolarli. La nostra piattaforma di orchestrazione mira anche a semplificare il passaggio tra i fornitori – esponendo ancora le loro capacità complete in modo che gli sviluppatori non si ritrovino con un set di funzionalità del minimo comune denominatore.

Molti team sottovalutano quanto sia difficile per un agente di Voice AI effettuare e gestire chiamate telefoniche reali. Dal tuo punto di vista, cosa rende la telefonia del mondo reale così impegnativa rispetto alle interazioni AI puramente digitali?

La rete telefonica è ancora altamente frammentata e inconsistente tra le regioni, rendendola ancora più imprevedibile. In alcuni paesi, determinati protocolli possono essere limitati o bloccati, i carrier sperimentano interruzioni come parte delle operazioni normali, e i modelli di routing delle chiamate possono cambiare nel corso della giornata. Ci sono anche regioni in cui la telefonia cloud può essere complicata dal punto di vista legale.

Abbiamo anche visto casi in cui l’infrastruttura stessa diventa il collo di bottiglia. Ad esempio, un’azienda australiana di sanità che costruisce un chiamante AI per controllare i pazienti anziani che parlano cantonese ha avuto problemi con l’elevata latenza verso i fornitori di AI basati negli Stati Uniti (come OpenAI o ElevenLabs), e la disponibilità limitata di sintesi vocale di alta qualità in cantonese ha reso le conversazioni lente e innaturali.

Oltre all’affidabilità, c’è il livello di conformità. I requisiti variano ampiamente da paese a paese e spesso si sovrappongono con quadri come HIPAA, PCI DSS e GDPR.

Le prestazioni del discorso non sono universali. Nessun motore STT o TTS funziona al meglio in ogni ambiente. Accenti, rumore di fondo, fluttuazioni della qualità della chiamata o addirittura degrado del fornitore possono causare improvvisi cali di accuratezza e di esperienza utente.

Alcuni sistemi di Voice AI oggi si affidano a più fornitori per LLM, riconoscimento vocale, sintesi vocale e routing. Perché questa frammentazione è inevitabile, e perché sostituire i fornitori di AI o di discorso dovrebbe essere un rapido cambiamento di codice piuttosto che un grande progetto di ingegneria?

All’inizio della Voice AI, non c’era una vera opzione di discorso-discorso, quindi dovevi assemblare il riconoscimento vocale, LLM e sintesi vocale. Oggi, diversi fornitori di LLM integrano il discorso direttamente (spesso con alcuni livelli di supporto per l’interazione), eliminando la necessità di costruire una pipeline completa. Questi sistemi sono più veloci e interattivi, ma hanno ancora limitazioni in aspetti come la funzionalità di chiamata e offrono meno opzioni per migliorare la trascrizione e le voci. Ci aspettiamo che i modelli di discorso basati su LLM siano paragonabili ai modelli di testo presto. Anche allora, i clienti potrebbero comunque voler utilizzare diversi fornitori di discorso per i loro requisiti specifici. La separazione della pipeline aggiunge anche scelte per la ridondanza.

Sostituire i fornitori di AI e di discorso sulla nostra piattaforma non è uno sforzo di ingegneria importante, ma è più di un cambiamento di codice di una riga. I fornitori di discorso lottano costantemente contro la commodificazione introducendo funzionalità uniche. Manteniamo i nostri connettori il più coerenti possibile esponendo le capacità di ogni fornitore, quindi approfittare di queste funzionalità uniche, sostituire i fornitori spesso significa cambiare alcune righe di codice.

Come gli agenti di Voice AI stanno iniziando a cambiare l’economia del supporto clienti, delle vendite e di altre operazioni B2C rispetto ai modelli tradizionali di call center?

Potrebbe essere troppo presto per parlare di un cambiamento significativo nell’economia del supporto clienti, ma sta sicuramente arrivando. Oggi, ci sono regioni in cui i rappresentanti del supporto clienti costano meno dei servizi alimentati da LLM, eppure questo modello viene con sfide ben note intorno alla scalabilità, al burnout, alla gestione e alle operazioni. Suppongo che l’economia cambierà significativamente mentre l’ottimizzazione degli LLM continua a migliorare, anche se ci vorrà del tempo.

Quali segnali ti dicono che la Voice AI sta passando dall’esperimento all’infrastruttura mission-critica per le aziende?

Il segnale più forte qui è l’investimento nell’infrastruttura di Voice AI, che sta crescendo rapidamente. Ci sono modi per tracciare le chiamate o i minuti abilitati da Voice AI a livello globale, se non esattamente, attraverso stime. Mentre posso tracciare solo questo direttamente per Voximplant, vediamo chiaramente una forte crescita.

Come pensi che le aspettative degli sviluppatori sulla flessibilità e il controllo siano cambiate mentre i modelli di AI e le tecnologie vocali iterano più velocemente?

Quella è una domanda interessante. Quando si tratta della velocità di cambiamento, l’AI è senza pari rispetto a tutto ciò che abbiamo visto nella storia. Il controllo e la flessibilità sono meno diretti, a seconda di cosa intendiamo con questi termini. Quando si tratta di controllo, ci sono molte sfide ben note, e superarle non è facile. La maggior parte delle aziende di AI spende grandi sforzi per le barriere dei modelli, ma fare questo bene richiede una profonda competenza, e diverse aziende hanno chiaramente obiettivi diversi.

Quali errori commettono comunemente le aziende quando cercano di distribuire agenti di Voice AI direttamente su sistemi di telefonia tradizionali?

I sistemi di telefonia tradizionali non sono direttamente compatibili con i servizi di Voice AI, quindi richiedono un’integrazione aggiuntiva, di solito tramite il protocollo SIP o WebSockets. Gli errori comuni includono una gestione di failover insufficiente, problemi di latenza (che possono essere causati da vari fattori) e sfide di scalabilità.

La telefonia stessa si scala abbastanza bene, specialmente con VoIP. I servizi di Voice AI sono più difficili da scalare a causa degli hardware necessari per eseguire gli LLM, e anche grandi giocatori di infrastruttura come Amazon possono affrontare vincoli di capacità quando si tratta di hardware di inferenza.

Guardando avanti, quali capacità devono supportare le piattaforme di Voice AI per rimanere rilevanti mentre l’AI in tempo reale diventa più autonoma?

Penso che le piattaforme di Voice AI debbano concentrarsi sugli SLA, poiché possono ancora essere un problema a volte, e su strumenti aggiuntivi per il testing e l’osservabilità.

Alla fine, le piattaforme più avanzate offriranno tutto il necessario, ma oggi stiamo ancora imparando nuove lezioni ogni giorno, molte delle quali dovrebbero diventare parte dello stack di base. Se lavori con grandi aziende o in ambienti regolamentati, avere una versione on-prem del tuo prodotto può essere critico.

Quando rifletti sul tuo percorso dall’infrastruttura VoIP precoce alla guida di una piattaforma di Voice AI oggi, cosa ti ha sorpreso di più su come l’industria è evoluta?

Molte cose mi hanno sorpreso, ma una di queste è che i cambiamenti nell’infrastruttura VoIP richiedono anni per verificarsi. Un buon esempio è che la telefonia ancora si basa su codec audio a banda stretta (G.711, G.729), mentre le persone sono già abituate all’audio a larga banda nei servizi di comunicazione online come Zoom, Google Meet, WhatsApp, ecc.

La maggior parte dei modelli di AI è addestrata sui dati audio a larga banda. Tutti i moderni telefoni cellulari hanno codec audio a larga banda incorporati, ma ci sono ancora significative sfide di interoperabilità a livello di carrier che impediscono l’uso dell’audio a larga banda nelle chiamate telefoniche tradizionali. Non è che non ci sia alcun progresso, ma a mio parere è stato molto modesto.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.