Connect with us

Interviste

Dan O’Connell, Chief Strategy Officer at Dialpad – Intervista in serie

mm

Dan è il Chief Revenue Officer di Dialpad. In precedenza, è stato l’amministratore delegato di TalkIQ, una startup di riconoscimento vocale e elaborazione del linguaggio naturale in tempo reale che Dialpad ha acquisito nel maggio 2018. Prima di TalkIQ, ha ricoperto vari ruoli di leadership nelle vendite presso AdRoll e Google.

Dialpad è una piattaforma di comunicazione cloud basata sull’intelligenza artificiale che rende più facile e efficiente connettersi e collaborare con il proprio team

Lei è stato in precedenza l’amministratore delegato di TalkIQ, una startup di riconoscimento vocale e elaborazione del linguaggio naturale in tempo reale che Dialpad ha acquisito nel maggio 2018. Qual era il segreto dietro questo startup che le ha permesso di essere così di successo nella tecnologia di riconoscimento vocale?

È stata una combinazione di molte cose: tempistica, persone e focus. La tecnologia di riconoscimento vocale automatico (ASR) non è nuova, esiste da decenni — molto più a lungo di quanto la gente pensi. Durante questo periodo (e, ancora di più, negli ultimi cinque anni), la tecnologia ASR ha tratto vantaggio dall’aumento della potenza di calcolo, del cloud, della disponibilità dei set di dati e dell’adozione di massa degli altoparlanti intelligenti nei mercati dei consumatori. Tutte queste cose hanno portato all’aumento dell’accuratezza delle trascrizioni.

In aggiunta a queste tendenze, siamo stati anche fortunati a combinare specialisti (come linguisti) con hacker. E quando dico hacker, intendo ingegneri che possono portare rapidamente i prodotti sul mercato — guidano l’innovazione e risolvono rapidamente i problemi. E mentre potrebbero non essere sempre le soluzioni più eleganti, sono generalmente le più veloci e consentono di essere visti come un innovatore sulla cresta dell’onda — il che diventa qualcosa che puoi sfruttare dal punto di vista marketing e vendite. Questa storia funziona bene quando stai costruendo il tuo startup e cerchi di raccogliere denaro.

Quindi, avevamo esperti nel settore, tendenze naturali nel mercato, un enorme oceano blu per quanto riguarda l’applicazione della tecnologia nel settore aziendale e un team con un curriculum di portare tecnologie innovative sul mercato con movimenti GTM ripetibili.

Infine, abbiamo adottato un approccio diverso per risolvere il problema. I motori di trascrizione tradizionali funzionavano come registrazioni su nastro. Registri una chiamata; salvi il file audio; lo metti attraverso il tuo motore di trascrizione; e dopo un po’ di tempo ottieni il tuo output. Inizialmente, una chiamata di 30 minuti avrebbe richiesto 30 minuti per essere trascritta, quindi stiamo parlando di ritardi reali su larga scala.

Volevamo risolvere quel problema e costruire un motore di trascrizione in streaming o in tempo reale che non richieda un file audio. Ciò potrebbe sembrare un po’ innovativo oggi, ma anni fa non c’era un motore di streaming in grado di gestire l’audio a lungo termine 8khz (che è il mio modo elegante di dire audio di bassa qualità, cioè non stereo — 44khz) in tempo reale. Non volevamo costruire un registratore.

Volevamo costruire un motore in tempo reale per comprendere e analizzare le conversazioni. Se potevamo farlo, allora le opportunità sarebbero state infinite perché si possono quindi iniziare ad automatizzare i flussi di lavoro e fare tutte le cose cool che non sono state fatte prima. E grandi complimenti a Jim Palmer, Etienne Manderscheid, Kevin James, Noah Gaspar e molti altri per essere stati i primi a costruire questo tipo di motore in tempo reale.

Potrebbe discutere il periodo di transizione dopo che Dialpad ha acquisito TalkIQ nel maggio 2018?

La fase di acquisizione è stata in realtà super senza problemi. Dialpad era un partner di TalkIQ e i nostri team di prodotto erano già sul posto presso Dialpad ogni settimana. E, avevo lavorato in precedenza con i co-fondatori Craig Walker e Brian Peterson a Google e ero entusiasta della prospettiva di unirmi a loro.

Tutti noi vedevamo il futuro nello stesso modo, ovvero che queste tecnologie (ASR/NLP) incorporate in una piattaforma di comunicazione/collaborazione potessero essere innovative per il mercato e cambiare il gioco per le aziende. Questo è parte del motivo per cui, quasi immediatamente dopo la chiusura dell’acquisizione, abbiamo raccolto un round di finanziamenti di 50 milioni di dollari guidato da ICONIQ. Gli investitori hanno visto l’opportunità nel futuro applicazione delle tecnologie e del team che lavora su questi problemi.

A TalkIQ, eravamo fondamentalmente uno startup che cercava di essere tre startup diverse contemporaneamente: stavamo costruendo il nostro proprio stack di telefonia, motore di riconoscimento vocale e tecnologia NLP in-house. Questi sono tre problemi difficili da risolvere. Dialpad aveva già risolto con successo l’aspetto della telefonia, quindi quando è arrivata l’offerta di acquisizione, è stata una decisione facile. Abbiamo visto Dialpad come la piattaforma di comunicazione aziendale più innovativa nello spazio, e la nostra visione per il futuro della comunicazione aziendale si allineava molto bene.

Quali sono alcune delle diverse tecnologie di apprendimento automatico utilizzate a Dialpad?

Il nostro motore Voice Intelligence (Vi) nativo sfrutta l’IA e l’apprendimento automatico per aiutare le organizzazioni a guidare le vendite, ottenere insight competitivi, elevare il servizio clienti e avere riunioni online più efficienti.

Le tecnologie ASR e NLP di TalkIQ vengono utilizzate per acquisire le conversazioni da chiamate vocali e video in tempo reale. Allo stesso tempo, la nostra tecnologia proprietaria ci consente di elaborare i dati delle conversazioni in entrata e di catturare e trascrivere con accuratezza leader di settore in un formato facile da leggere.

L’apprendimento automatico integrato aiuta Vi a migliorare nel tempo. Più si utilizza Vi, più impara e migliora nell’elaborazione delle conversazioni. Con il tempo, le trascrizioni delle chiamate aumenteranno in accuratezza e Vi sarà in grado di elaborare le sfumature più sottili delle conversazioni.

Dialpad ha recentemente raggiunto un importante traguardo AI dopo aver analizzato oltre un miliardo di minuti di voce, i test di benchmark hanno mostrato che il modello di trascrizione di Dialpad ha superato i principali concorrenti, tra cui il modello di telefonia avanzato di Google. Quali sono i tipi di test eseguiti per quantificare questi risultati?

Abbiamo una raccolta di set di test che contengono audio e la trascrizione corrispondente che è considerata la verità di ciò che è stato detto nell’audio. Inviamo lo stesso audio a ciascun concorrente e riceviamo una trascrizione di ritorno, che confrontiamo con la verità. Calcoliamo il numero di errori per determinare una percentuale di accuratezza. Abbiamo iniziato a confrontarci con Google dal momento dell’acquisizione di TalkIQ nell’aprile 2018 e abbiamo sempre avuto un’accuratezza inferiore fino ad ora.

Quali sono alcuni dei principali fattori di differenziazione dietro il motore Voice Intelligence (Vi) proprietario di Dialpad e i motori concorrenti?

Una delle principali differenziazioni è che abbiamo fatto questo più a lungo dei concorrenti, il che significa che abbiamo analizzato più dati per assicurarci che la nostra tecnologia sia la più accurata. Abbiamo analizzato oltre un miliardo di minuti di comunicazione vocale e continuiamo a elaborare circa 90 milioni di minuti al mese con il nostro motore Vi. In questo senso, siamo letteralmente anni avanti rispetto alla concorrenza.

Un’altra differenziazione è il nostro approccio personalizzato e scalabile ai modelli linguistici. Per ogni cliente, costruiamo un database di parole chiave specifiche dell’azienda in modo da poter eseguire il boosting delle parole chiave per migliorare l’accuratezza. Ad esempio, per un utente che scrive il proprio nome “Kathryn” e lavora in un’azienda chiamata Skribbl, il nostro sistema scriverebbe i nomi propri correttamente, mentre altri modelli li scriverebbero come suonano (ad esempio “Katherine” e “scribble”).

Quali sono le sue opinioni personali sul futuro dell’elaborazione del linguaggio naturale? Quanto tempo ci vuole perché l’IA raggiunga un’accuratezza vicina al 100% o addirittura del 100%?

L’accuratezza perfetta è quasi irraggiungibile. Forse, un giorno sarò sorpreso (spero!). Penso che ci avvicineremo molto, ma non sarà perfetta. Il motivo è che il riconoscimento vocale automatico (e successivamente l’NLP) ha problemi quasi infiniti da risolvere: accenti, vicinanza ai microfoni, rumore di fondo, problemi di connettività, tipi di microfoni diversi, velocità di parlata, pronuncia, contesto (Sara vs Sarah vs Serra), acronimi, slang e così via. Mentre mi piacerebbe dire che ci arriveremo, penso che potremmo avvicinarci molto, ma l’ultimo miglio, o l’1-2% in termini di accuratezza, sarà impegnativo.

Detto questo, penso che ci saranno alcuni sviluppi interessanti nella leggibilità. Oggi, quando si esamina una trascrizione di una conversazione, può sembrare un flusso di coscienza. Parliamo naturalmente in modo fluido, usiamo frasi continue, ripetiamo parole, riavviamo le frasi — facciamo tutte le cose che non faremmo in una forma scritta. Ci sono alcune opportunità uniche quando si tratta di avere una versione più leggibile di una trascrizione — una che rimuova le ridondanze, preveda o migliori la punteggiatura e ottimizzi la trascrizione per renderla più leggibile.

Nella mia mente, ci sono due versioni: la versione verbatim che è il più vicina possibile al 100% di una conversazione (con le frasi continue e tutto il resto), e poi c’è una versione migliorata che è molto più facile da digerire grazie alla punteggiatura e alle ottimizzazioni.

E questo ci porta sulla strada della possibilità di sintetizzare una conversazione alle sue parti più significative? Hai bisogno di una trascrizione completa o hai bisogno di una sintesi accurata formattata per la leggibilità?

Certamente dipende dal caso d’uso, ma questo è ciò che è interessante e emozionante in questo spazio. Siamo forse nel terzo inning di ciò che è possibile e non abbiamo ancora iniziato a innovare i flussi di lavoro in cui vedremo l’NLP diventare più “consapevole del contesto”, come utilizzare le conversazioni precedenti per migliorare l’accuratezza.

Il contesto più specifico che i modelli hanno da imparare, meglio è. Pensate a condividere lo stesso contesto su più conversazioni e ad adattarlo continuamente al contesto per rendere l’apprendimento automatico più intelligente. La tecnologia consapevole del contesto è anche importante per migliorare l’accuratezza considerando le grandi differenze nel modo in cui comunichiamo. Ciò che sembra una sottile differenza linguistica per gli esseri umani è molto difficile da addestrare un modello di apprendimento automatico a duplicare.

Quali sono alcuni dei servizi che Dialpad attualmente offre ai clienti?

Dialpad è un modo più intelligente per lavorare. Abbiamo costruito la piattaforma per la forza lavoro moderna e ibrida di oggi — consentendo alle persone e ai team di essere più efficienti, efficaci e coinvolti da qualsiasi parte del mondo. Forniamo un’esperienza di comunicazione aziendale senza soluzione di continuità — chiamate, chat, videoconferenze e call center — con una qualità, sicurezza e affidabilità ineguagliabili. Dialpad offre quell’esperienza come una piattaforma cloud unificata che è economica, semplice da distribuire e facile da gestire.

C’è qualcos’altro che lei vorrebbe condividere su Dialpad?

Il 2020 è stato un anno monumentale per l’azienda, il che è davvero incredibile considerando ciò che il mondo ha sperimentato (e continua a sperimentare). Abbiamo raddoppiato il nostro organico, ottenuto 100 milioni di dollari di finanziamenti, acquisito un’azienda e fatto tutto ciò mentre la nostra base di clienti cresceva esponenzialmente.

Con il lavoro remoto che è qui per restare, ci aspettiamo che questa crescita continui e siamo entusiasti per l’anno che verrà. Crediamo che il movimento di lavoro da qualsiasi luogo aumenterà la necessità di tecnologie innovative che aiutino i dipendenti a lavorare in modo più intelligente — non più duramente. Le aziende si rivolgeranno all’IA per ottimizzare l’efficienza, eliminare le attività ripetitive e consentire ai dipendenti di concentrarsi su priorità più importanti. Dialpad è ben posizionata per soddisfare queste esigenze.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Dialpad.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.