Connect with us

Isaiah N. Granet, Co-Fondatore e Amministratore Delegato di Bland – Serie di Interviste

Interviste

Isaiah N. Granet, Co-Fondatore e Amministratore Delegato di Bland – Serie di Interviste

mm

Isaiah N. Granet, Co-Fondatore e Amministratore Delegato di Bland, è un fondatore di startup e ingegnere la cui formazione combina l’esecuzione tecnica con l’esperienza imprenditoriale e l’impegno sociale a lungo termine. Prima di lanciare la sua attuale impresa, ha partecipato a Z Fellows e Y Combinator, ha acquisito esperienza di ingegneria presso Lantern e ha fondato San Diego Chill, un’organizzazione no-profit che ha raccolto oltre 2,5 milioni di dollari per aiutare i bambini con disabilità dello sviluppo ad accedere agli sport, ottenendo il riconoscimento nazionale e continuando ancora oggi con il suo coinvolgimento a livello di consiglio di amministrazione.

Bland si concentra sulla costruzione di infrastrutture per chiamate telefoniche alimentate da intelligenza artificiale, consentendo alle aziende di distribuire agenti vocali che possono gestire il supporto clienti, le vendite e i flussi di lavoro operativi su larga scala. La piattaforma è progettata per sostituire o integrare i tradizionali call center offrendo interazioni vocali programmabili, risposte in tempo reale e profonde integrazioni con i sistemi aziendali, posizionandosi come un livello fondamentale nel modo in cui le aziende automatizzano la comunicazione con i clienti.

Hai fondato San Diego Chill come teenager per creare un accesso inclusivo agli sport per i bambini con disabilità dello sviluppo, molto prima di entrare in Y Combinator o di lanciare Bland. Come ha influenzato la tua esperienza nella costruzione di un’organizzazione nel mondo reale il modo in cui hai approcciato la fondazione di un’azienda di intelligenza artificiale vocale che ora si trova tra le aziende e i loro clienti?

Molta parte della mia vita e del mio lavoro si è concentrata sulla costruzione. Fin da giovane, ho avuto questo desiderio costante di portare le cose alla vita. Una volta che un’idea o una convinzione sul mondo mi è venuta in mente, è diventato impossibile per me ignorarla. Costruire San Diego Chill non solo mi ha insegnato a creare e gestire un’organizzazione, ma mi ha anche insegnato sull’impatto che le nostre azioni possono avere sugli altri. Essere in grado di dare qualcosa indietro creando un’organizzazione che altrimenti non sarebbe mai esistita è qualcosa di profondamente gratificante. Le lezioni e i valori che ho imparato dal Chill mi accompagnano ogni giorno.

Dopo aver partecipato a YC nel 2023, cosa ti ha convinto che l’infrastruttura vocale aziendale fosse ancora fondamentalmente rotta al punto da giustificare la costruzione di un sistema end-to-end piuttosto che sovrapporre LLM su strumenti IVR legacy?

Pensa all’ultima volta che hai usato un chatbot di una banca. Probabilmente hai aspettato più a lungo del dovuto, hai ottenuto una risposta che non ha affrontato ciò che hai effettivamente chiesto e hai finito per chiamare comunque. Poi una voce robotica ti ha guidato attraverso un menu di opzioni che non desideravi e premendo 0 non ha fatto nulla di utile.

Le banche hanno speso miliardi per rendere possibile quell’esperienza e i chatbot sono ancora classificati all’ultimo posto nella soddisfazione del cliente al 29%. Inferiore alla posta elettronica. Inferiore ai call center, di cui tutti già si lamentano.

Questo è stato il dinamismo per due decenni. Le aziende cercano di tenere lontani i clienti dal loro personale. I clienti continuano a cercare di raggiungere una persona. Nessuna delle due parti sta vincendo.

Il problema non è che le aziende non vogliono risolverlo. Non possono semplicemente permettersi di avere un’esperienza di qualità su larga scala. Un call center che gestisce un milione di chiamate al mese è un’operazione costosa e difficile, e la qualità è quasi per definizione inconsistente.

Cosa è cambiato è che l’intelligenza artificiale rende finalmente possibile risolvere le chiamate invece di semplicemente instradarle o deviarle. Non alberi telefonici. Non musica di attesa. Un agente che capisce cosa sta chiedendo il cliente e lo gestisce.

Ma questo funziona solo se il sistema è costruito per la voce in tempo reale fin dall’inizio. Quando si sovrappongono LLM su strumenti IVR legacy o si cuciano insieme servizi di terze parti, la latenza si insinua e l’affidabilità cala. Le conversazioni si rompono.

È per questo che ci siamo concentrati sulla costruzione dell’infrastruttura end-to-end. La voce funziona solo se sembra immediata e naturale. Se non lo è, il cliente riattacca.

Bland ha preso il passo insolito di costruire e ospitare la propria pila di TTS, inferenza e trascrizione internamente. Quali compromessi hai visto nel fare affidamento a API di terze parti che alla fine ti hanno spinto a possedere il livello di infrastruttura vocale completo?

Ogni livello che si esternalizza aggiunge latenza e aggiunge rischio.

La maggior parte delle piattaforme di intelligenza artificiale vocale sono rivenditori. Acquisiscono trascrizioni di terze parti, aggiungono un modello di terze parti, lo instradano attraverso TTS di terze parti e ti consegnano il risultato. Ciò può funzionare in un demo controllato. Raramente funziona quando il volume di chiamate sale o qualcosa nella catena va storto.

C’è anche un problema di dati. I fornitori di modelli di base, OpenAI ad esempio, hanno utilizzato i dati dei clienti per addestrare i modelli. Dicono che le licenze aziendali sono diverse. Forse lo sono. Ma quell’incertezza è sufficiente per rendere molti team di sicurezza e conformità a disagio.

Quando si auto-ospita l’intera pila — trascrizione, inferenza, TTS, orchestrazione — si controlla ogni millisecondo e ogni aggiornamento del modello. I dati del cliente rimangono all’interno dell’ecosistema del cliente. Non toccano una pipeline di addestramento di terze parti, non passano attraverso infrastrutture che non si possono auditare e non si muovono a meno che il cliente non decida che dovrebbero farlo.

Si può dare a ogni cliente aziendale un’infrastruttura dedicata in modo che un picco da un’altra azienda non tocchi le loro prestazioni. E quando qualcosa si rompe, si può effettivamente ripararlo invece di aspettare che un fornitore di terze parti lo faccia.

Per le industrie regolamentate, alcuni clienti necessitano della pila completa all’interno della loro VPC o on-premises. Ciò è possibile solo se il fornitore possiede effettivamente ciò che sta distribuendo.

La tradizionale automazione dei call center si è concentrata pesantemente sul deviare le chiamate di supporto semplici. Perché hai deciso di dare priorità alle interazioni dei clienti complesse e a lunga coda invece di ottimizzare per l’automazione basata sul volume per prima?

L’automazione tradizionale dei call center si è largamente concentrata sul deviare le chiamate di supporto semplici. Perché hai dato priorità alle interazioni complesse e a lunga coda invece di iniziare con casi d’uso ad alto volume?

Abbiamo preso l’approccio opposto. Se possiamo gestire in modo affidabile le chiamate più complesse e sensibili, tutto il resto diventa semplice. L’obiettivo non è costruire demo, ma consegnare una risoluzione completa delle chiamate su larga scala. Ciò richiede sistemi a bassa latenza e alta affidabilità che possano gestire i casi limite che definiscono effettivamente le conversazioni dei clienti reali.

I tuoi agenti stanno essere sempre più integrati in CRM e database operativi per risolvere le chiamate end-to-end. Come l’automazione vocale nativa cambia l’architettura dei flussi di lavoro aziendali rispetto ai copiloti basati su chat?

I sistemi legacy spesso non parlano tra loro. CRM, strumenti di pianificazione e piattaforme di fatturazione sono silo. Senza accesso a quei sistemi, un agente vocale può rispondere a domande generiche e non molto altro.

Non può cercare un account, aggiornare un record o prenotare un appuntamento. Raccoglie informazioni e le passa. Nel frattempo, i rappresentanti umani spendono tempo su lavori che non dovrebbero toccare una persona: registrazione delle note delle chiamate, pianificazione manuale degli appuntamenti, estrazione di report per capire chi necessita di un follow-up.

L’integrazione profonda è ciò che rende possibile la risoluzione end-to-end. Senza di essa, si è automatizzato il saluto, non la chiamata.

La recente demo del clone vocale di Soulja Boy ha messo in evidenza come gli agenti conversazionali possano estendersi oltre le operazioni interne in esperienze di marca. Vedi gli agenti vocali aziendali evolversi in rappresentanti digitali che operano in modo continuo attraverso canali di vendita, supporto e marketing?

Assolutamente. Vediamo un mondo in cui ogni cliente ha una relazione personale con le sue aziende preferite e essenziali. Ciò che è importante è che l’intelligenza artificiale non sia solo “divertente” ma capace di risolvere effettivamente i problemi più complessi.

La voce in tempo reale introduce latenza, allucinazione e sfide di identità che non esistono nelle distribuzioni di intelligenza artificiale basate su testo. Quali sono stati i vincoli tecnici più difficili che hai incontrato nella costruzione di agenti che devono rispondere in meno di un secondo mantenendo l’accuratezza conversazionale?

La latenza. È lì che la maggior parte dei demo muore.

Se un chatbot impiega tre secondi per rispondere, l’utente aspetta. Se un agente vocale si ferma goffamente dopo che hai finito di parlare, la conversazione è già rotta. Le risposte devono tornare in meno di 400 millisecondi. La maggior parte delle piattaforme non può farlo perché stanno cucendo insieme più servizi di terze parti, ognuno dei quali aggiunge il proprio ritardo.

Ma la latenza è solo una parte di ciò. Le chiamate dei clienti reali sono confuse in modi che i demo non catturano mai. Le persone interrompono a metà frase. Il rumore di fondo si insinua. I chiamanti cambiano lingua. Le richieste sono vaghe. L’intelligenza artificiale vocale che regge in produzione gestisce le interruzioni senza perdere il contesto, si adatta quando le conversazioni vanno fuori copione e lo fa senza sembrare che stia bufferizzando.

I clienti non confrontano l’intelligenza artificiale vocale con altri bot. La confrontano con il parlare con una persona. Quello è il parametro.

C’è una crescente attenzione su come i sistemi di intelligenza artificiale che suonano umani si rappresentano durante le interazioni. Come le aziende dovrebbero pensare alla trasparenza quando distribuiscono agenti conversazionali che potrebbero essere indistinguibili dal personale umano?

Crediamo fermamente nell’onestà e nella trasparenza per l’utente finale. Mentre alcune norme sono onerose e soffocanti, ogni forma di inganno non è accettabile. Lavoriamo con le aziende per sviluppare esperienze senza soluzione di continuità basate sulla fiducia con il cliente.

Man mano che gli agenti di intelligenza artificiale iniziano a gestire milioni di interazioni dei clienti simultanee, quali sfide operative tendono a emergere per prime quando le aziende passano dalle distribuzioni di prova a quelle su larga scala?

Un paio di cose contano nella pratica. La prima è l’architettura dei prompt modulari. I prompt monolitici sono quasi impossibili da debuggare. Quando una chiamata va storta, devi isolare esattamente dove e perché è successo, non devi fissare un muro di istruzioni cercando di capire quale linea ha causato il problema.

La completa visibilità è altrettanto importante. Le sintesi post-chiamata non sono sufficienti. Devi avere visibilità in tempo reale su ciò che l’agente sta facendo in ogni punto di ogni interazione.

Le barriere di sicurezza sono essenziali, specialmente nelle industrie regolamentate. L’agente deve rimanere all’interno delle politiche. Non è opzionale. E se non lo fa, deve esserci un ritorno graduale.

Infine, c’è la gestione delle conoscenze. L’agente deve avere accesso ai dati proprietari come prodotti, politiche e procedure. La piattaforma dovrebbe anche portare alla superficie le lacune di conoscenza automaticamente man mano che appaiono nelle chiamate reali, non settimane dopo che un cliente si lamenta.

Guardando avanti, credi che gli agenti vocali aziendali rimarranno strumenti specifici per attività o evolveranno in agenti di intelligenza artificiale generalizzati in grado di gestire autonomamente l’intero processo aziendale avviato attraverso la conversazione?

Se solo avessi la risposta! Credo che gli agenti vocali evolveranno in tutta la pila aziendale, ma è improbabile vedere un’intera azienda gestita da un agente vocale. Detto questo, credo che gli esseri umani saranno in grado di ottenere un servizio istantaneo, preciso e più completo dagli agenti di intelligenza artificiale di quanto non ottengano oggi. In effetti, crediamo che ci saranno più chiamate telefoniche quando questo accadrà. Non meno.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Bland.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.