Interviews

Dan O’Connell, Chief Strategy Officer at Dialpad – Interview Series

Published March 8, 2021

Updated April 5, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Dan est le Chief Revenue Officer de Dialpad. Auparavant, il était le PDG de TalkIQ, une start-up de reconnaissance de la parole et de traitement du langage naturel en temps réel que Dialpad a acquise en mai 2018. Avant TalkIQ, il a occupé divers postes de direction des ventes chez AdRoll et Google.

Dialpad est une plateforme de communication cloud alimentée par l’IA qui facilite et rend plus efficace la connexion et la collaboration avec votre équipe.

Vous étiez précédemment le PDG de TalkIQ, une start-up de reconnaissance de la parole et de traitement du langage naturel en temps réel que Dialpad a acquise en mai 2018. Quel était le facteur clé derrière cette start-up qui lui a permis d’être si réussie dans la technologie de reconnaissance vocale ?

C’était une combinaison de plusieurs facteurs : le timing, les personnes et la concentration. La technologie de reconnaissance automatique de la parole (ASR) n’est pas nouvelle, elle existe depuis des décennies — bien plus longtemps que ce que les gens pensent. Au cours de cette période (et, plus encore, au cours des cinq dernières années), la technologie ASR a bénéficié d’une augmentation de la puissance de calcul, du cloud, de la disponibilité des jeux de données et de l’adoption massive des haut-parleurs intelligents sur le marché des consommateurs. Toutes ces choses ont conduit à une augmentation de la précision des transcriptions.

En plus de ces tendances, nous avons également eu la chance de combiner des spécialistes (tels que des linguistes) avec des hackers. Et lorsque je dis des hackers, je veux dire des ingénieurs qui peuvent rapidement mettre des produits sur le marché — ils stimulent l’innovation et résolvent rapidement les problèmes. Et même si ces solutions ne sont pas toujours les plus élégantes, elles sont généralement les plus rapides et nous permettent d’être considérés comme des innovateurs à la pointe de la technologie — ce qui devient quelque chose que l’on peut exploiter d’un point de vue marketing et commercial. Cette histoire se déroule bien lorsque vous construisez votre start-up et que vous essayez de lever des fonds.

Nous avions donc des experts dans le domaine, des tendances naturelles sur le marché, un vaste océan bleu en termes d’application de la technologie dans l’entreprise et une équipe ayant une expérience de mise sur le marché de technologies innovantes avec des mouvements de GTM répétables.

Enfin, nous avons adopté une approche différente pour résoudre le problème. Les moteurs de transcription traditionnels fonctionnaient comme des enregistrements sur bande. Vous enregistrez un appel ; vous sauvegardez le fichier audio ; vous le faites passer par votre moteur de transcription ; et plus tard, vous obtenez votre sortie. Initialement, un appel de 30 minutes prenait 30 minutes à transcrire, nous parlons donc de véritables retards à grande échelle.

Nous voulions résoudre ce problème et construire un moteur de transcription en continu ou en temps réel qui n’a pas besoin d’un fichier audio. Cela peut sembler un peu novateur aujourd’hui, mais il y a des années, il n’y avait pas de moteur de transcription en continu capable de gérer l’audio en temps réel à longue durée de 8 kHz (c’est mon moyen de dire une qualité d’audio médiocre, c’est-à-dire pas de qualité stéréo — 44 kHz). Nous ne voulions pas construire un magnétophone.

Nous voulions construire un moteur en temps réel pour comprendre et analyser les conversations. Si nous pouvions le faire, alors les opportunités seraient infinies, car nous pourrions alors commencer à automatiser les flux de travail et faire toutes sortes de choses cool qui n’avaient pas été faites auparavant. Et grand merci à Jim Palmer, Etienne Manderscheid, Kevin James, Noah Gaspar et de nombreuses autres personnes pour avoir été les premiers à construire ce type de moteur en temps réel.

Pouvez-vous discuter de la période de transition après que Dialpad ait acquis TalkIQ en mai 2018 ?

La phase d’acquisition était en fait super fluide. Dialpad était un partenaire de TalkIQ et nos équipes de produits étaient déjà sur le site de Dialpad chaque semaine. Et j’avais travaillé auparavant avec les co-fondateurs Craig Walker et Brian Peterson chez Google et j’étais ravi de l’idée de faire équipe avec eux.

Nous avons tous vu l’avenir de la même manière, à savoir que ces technologies (ASR/NLP) intégrées à une plateforme de communication/collaboration pourraient être disruptives sur le marché et révolutionnaires pour les entreprises. C’est pourquoi, presque immédiatement après la clôture de l’acquisition, nous avons levé un tour de financement de 50 millions de dollars mené par ICONIQ. Les investisseurs ont vu l’opportunité dans l’application future de ces technologies et de l’équipe qui travaille sur ces problèmes.

Chez TalkIQ, nous étions essentiellement une start-up qui essayait d’être trois différentes start-up en même temps : nous construisions notre propre pile de téléphonie, notre propre moteur de reconnaissance vocale et notre propre technologie NLP en interne. Ce sont trois problèmes difficiles à résoudre. Dialpad avait déjà réussi à résoudre avec succès l’aspect téléphonie, donc lorsque l’offre d’acquisition est arrivée, c’était une décision facile. Nous considérions Dialpad comme la plateforme de communication d’entreprise la plus innovante dans l’espace, et notre vision de l’avenir de la communication d’entreprise s’alignait vraiment bien.

Quelles sont certaines des différentes technologies d’apprentissage automatique utilisées chez Dialpad ?

Notre moteur Voice Intelligence (Vi) natif utilise l’IA et l’apprentissage automatique pour aider les organisations à stimuler les ventes, à obtenir des informations précieuses, à améliorer le service client et à avoir des réunions en ligne plus efficaces.

Les technologies ASR et NLP de TalkIQ sont utilisées pour intégrer les conversations des appels vocaux et vidéo en temps réel. En même temps, notre technologie propriétaire nous permet de traiter les données de conversation entrantes et de capturer et de transcrire avec précision les données dans un format facile à lire.

L’apprentissage automatique intégré aide Vi à s’améliorer avec le temps. Plus vous utilisez Vi, plus il apprend et mieux il devient à traiter les conversations. Avec le temps, les transcriptions d’appels augmenteront en précision, et Vi sera capable de traiter les nuances plus subtiles des conversations.

Dialpad a récemment atteint un jalon important en matière d’IA après avoir analysé plus d’un milliard de minutes de voix, et les tests de référence ont montré que le modèle de transcription de Dialpad a dépassé les principaux concurrents, y compris le modèle de téléphonie amélioré de Google. Quels types de tests ont été effectués pour quantifier ces résultats ?

Nous avons une collection de jeux de tests qui contiennent de l’audio et la transcription qui accompagne, considérée comme la vérité de ce qui a été dit dans l’audio. Nous envoyons le même audio à chaque concurrent et recevons une transcription en retour, que nous comparons ensuite à la vérité. Nous calculons le nombre d’erreurs pour déterminer un pourcentage de précision. Nous comparons nos résultats à ceux de Google depuis l’acquisition de TalkIQ en avril 2018, et nous avons toujours eu une précision inférieure jusqu’à présent.

Quelles sont certaines des principales différences entre le moteur Voice Intelligence (Vi) propriétaire de Dialpad et les moteurs concurrents ?

L’une des principales différences est que nous faisons cela depuis plus longtemps que les concurrents, ce qui signifie que nous avons analysé plus de données pour nous assurer que notre technologie est la plus précise. Nous avons analysé plus d’un milliard de minutes de communication vocale et continuons à traiter environ 90 millions de minutes par mois avec notre moteur Vi. À cet égard, nous sommes littéralement des années d’avance sur la concurrence.

Une autre différence est notre approche personnalisée et évolutive des modèles de langage. Pour chaque client, nous construisons une base de données de mots clés spécifiques à l’entreprise afin que nous puissions effectuer un renforcement de mots clés pour améliorer la précision. Par exemple, pour un utilisateur qui épelle son nom « Kathryn » et travaille dans une entreprise nommée Skribbl, notre système épellerait correctement les noms propres, alors que d’autres modèles les épelleraient probablement comme ils sonnent (par exemple : « Katherine » et « scribble »).

Quelles sont vos opinions personnelles sur l’avenir du traitement du langage naturel ? Combien de temps faudra-t-il pour que l’IA atteigne une précision proche de 100 % ou même de 100 % ?

Une précision parfaite est presque impossible à atteindre. Peut-être que, un jour, je serai surpris (j’espère !). Je pense que nous allons nous rapprocher beaucoup, mais pas atteindre la perfection. La raison en est que la reconnaissance automatique de la parole (et, par la suite, le traitement du langage naturel) a des problèmes infinis à résoudre : les accents, la proximité des microphones, les bruits de fond, les problèmes de connectivité, les différents types de microphones, la vitesse à laquelle quelqu’un parle, l’articulation, le contexte (Sara vs Sarah vs Serra), les acronymes, les expressions idiomatiques, etc. Même si j’aimerais dire que nous allons y arriver, je pense que nous pouvons nous rapprocher, mais le dernier mile, ou 1-2 % en termes de précision, sera difficile.

Cela étant dit, je pense qu’il y aura des développements intéressants en termes de lisibilité. Aujourd’hui, lorsque vous examinez une transcription de conversation, elle peut ressembler à un flux de conscience. Nous parlons naturellement de manière fluide, utilisons des phrases à rallonge, répétons des mots, recommençons des phrases — nous faisons toutes sortes de choses que nous ne ferions pas dans un texte écrit. Il y a des opportunités uniques pour avoir une version plus lisible d’une transcription — une version qui supprime les redondances, prédit ou améliore la ponctuation et affine ou optimise la transcription pour la rendre plus lisible.

Dans mon esprit, il y a deux versions : la version mot à mot qui est aussi proche que possible de 100 % d’une conversation (y compris les phrases à rallonge), et puis il y a une version améliorée qui est beaucoup plus facile à digérer en raison de la ponctuation et des optimisations.

Et cela nous amène sur la voie de la possibilité de synthétiser une conversation à ses parties les plus significatives ? Avez-vous besoin d’une transcription complète ou avez-vous besoin d’un résumé précis formaté pour la lisibilité ?

Cela dépend certainement de votre cas d’utilisation, mais c’est ce qui est intéressant et excitant dans cet espace. Nous sommes peut-être au troisième tour de ce qui est possible, et nous n’avons même pas encore abordé l’innovation des flux de travail où nous verrons le traitement du langage naturel devenir plus « conscient du contexte », comme utiliser des conversations précédentes pour améliorer la précision.

Plus le contexte est spécifique, mieux les modèles peuvent apprendre. Pensez à partager le même contexte sur plusieurs conversations et à l’adapter continuellement pour que l’apprentissage automatique devienne plus intelligent. La technologie consciente du contexte est également importante pour améliorer la précision, compte tenu des vastes différences dans la façon dont nous communiquons. Ce qui peut sembler des différences linguistiques subtiles pour les humains est très difficile à entraîner un modèle d’apprentissage automatique pour le dupliquer.

Quels sont certains des services que Dialpad propose actuellement à ses clients ?

Dialpad est un moyen plus intelligent de travailler. Nous avons construit la plateforme pour la main-d’œuvre hybride moderne d’aujourd’hui — en donnant aux personnes et aux équipes les moyens d’être plus efficaces, plus efficaces et plus engagées partout dans le monde. Nous offrons une expérience de communication d’entreprise fluide — appel, chat, conférence vidéo et centre d’appels — avec une qualité, une sécurité et une fiabilité inégalées. Dialpad offre cette expérience sous la forme d’une plateforme cloud unifiée qui est économique, simple à déployer et facile à gérer.

Y a-t-il autre chose que vous aimeriez partager sur Dialpad ?

2020 a été une année monumentale pour l’entreprise, ce qui est vraiment incroyable à penser étant donné ce que le monde a vécu (et continue de vivre). Nous avons doublé notre effectif, sécurisé 100 millions de dollars de financement, acquis une entreprise et avons fait tout cela pendant que notre base de clients a connu une croissance exponentielle.

Avec le travail à distance qui est là pour rester, nous nous attendons à ce que cette croissance se poursuive, et nous sommes excités pour l’année à venir. Nous croyons que le mouvement de travail à distance renforcera le besoin de technologies innovantes pour aider les employés à travailler plus intelligemment — et non plus difficilement. Les entreprises s’appuieront sur l’IA pour rationaliser les efficacités, éliminer les tâches fastidieuses et permettre aux employés de se concentrer sur des priorités plus importantes. Dialpad est bien positionné pour répondre à ces besoins.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter Dialpad.

Unite.AI

Dan O’Connell, Chief Strategy Officer at Dialpad – Interview Series

You may like