Entrevistas

Dan O’Connell, Director de Estrategia en Dialpad – Serie de Entrevistas

mm

Dan es el Director de Ingresos en Dialpad. Anteriormente, fue el CEO de TalkIQ, una startup de reconocimiento de habla en tiempo real y procesamiento de lenguaje natural que Dialpad adquirió en mayo de 2018. Antes de TalkIQ, ocupó varios puestos de liderazgo en ventas en AdRoll y Google.

Dialpad es una plataforma de comunicación en la nube impulsada por IA que facilita y hace más eficiente la conexión y colaboración con su equipo

Usted fue anteriormente el CEO de TalkIQ, una startup de reconocimiento de habla en tiempo real y procesamiento de lenguaje natural que Dialpad adquirió en mayo de 2018. ¿Cuál fue el ingrediente secreto detrás de esta startup que le permitió ser tan exitosa en la tecnología de reconocimiento de habla?

Fue una combinación de múltiples factores: tiempo, personas y enfoque. La tecnología de reconocimiento de habla automatizada (ASR) no es nueva, ha estado presente durante décadas, mucho más tiempo de lo que la gente piensa. Durante este tiempo (y, más aún, en los últimos cinco años), la tecnología ASR se ha beneficiado del aumento de la potencia de cálculo, la nube, la disponibilidad de conjuntos de datos y la adopción masiva de altavoces inteligentes en los mercados de consumo. Todos estos factores han llevado a un aumento en la precisión de las transcripciones.

Además de estas tendencias, también tuvimos la suerte de combinar especialistas (como lingüistas) con “hackers”. Y cuando digo “hackers”, me refiero a ingenieros que pueden llevar productos al mercado de manera rápida, impulsan la innovación y resuelven problemas de manera rápida. Y aunque sus soluciones no siempre sean las más elegantes, suelen ser las más rápidas y permiten que se les vea como innovadores en la vanguardia, lo que se convierte en algo que se puede aprovechar desde el punto de vista de marketing y ventas. Esa historia funciona bien cuando se está construyendo una startup y se está tratando de recaudar dinero.

Entonces, teníamos expertos en el campo, tendencias naturales en el mercado, un océano azul enorme en cuanto a la aplicación de la tecnología en la empresa y un equipo con un historial de llevar tecnologías innovadoras al mercado con movimientos de GTM replicables.

Por último, adoptamos un enfoque diferente para resolver el problema. Los motores de transcripción tradicionales funcionaban como grabaciones de cintas. Se grababa una llamada, se guardaba el archivo de audio, se pasaba por el motor de transcripción y, algún tiempo después, se obtenía la salida. Inicialmente, una llamada de 30 minutos tardaba 30 minutos en transcribirse, por lo que se hablaba de retrasos reales a escala.

Queríamos resolver ese problema y construir un motor de transcripción en tiempo real o de transmisión que no necesitara un archivo de audio. Esto puede sonar un poco novedoso hoy en día, pero años atrás no había un motor de transmisión que pudiera manejar audio en tiempo real de larga duración y de baja calidad (es decir, no estéreo, 44khz). No queríamos construir una grabadora de cintas.

Queríamos construir un motor en tiempo real para comprender y analizar conversaciones. Si podíamos hacer eso, entonces las oportunidades serían infinitas, porque se podría empezar a automatizar flujos de trabajo y hacer todo tipo de cosas que no se habían hecho antes. Y un gran agradecimiento a Jim Palmer, Etienne Manderscheid, Kevin James, Noah Gaspar y muchos otros por ser los primeros en construir este tipo de motor en tiempo real.

¿Puede hablar sobre el período de transición después de que Dialpad adquirió TalkIQ en mayo de 2018?

La fase de adquisición fue en realidad muy fluida. Dialpad era un socio de TalkIQ y nuestros equipos de productos ya estaban en el sitio de Dialpad de manera semanal. Y, había trabajado anteriormente con los cofundadores Craig Walker y Brian Peterson en Google y estaba emocionado de la perspectiva de unirme a ellos.

Todos veíamos el futuro de la misma manera, en el sentido de que estas tecnologías (ASR/NLP) integradas en una plataforma de comunicación y colaboración podrían ser disruptivas en el mercado y cambiar el juego para las empresas. Esta es parte de la razón por la que, casi inmediatamente después de cerrar la adquisición, recaudamos $50 millones en una ronda liderada por ICONIQ. Los inversores vieron la oportunidad en el futuro de las tecnologías y el equipo que trabajaba en estos problemas.

En TalkIQ, básicamente éramos una startup que intentaba ser tres startups diferentes al mismo tiempo: estábamos construyendo nuestra propia pila de telefonia, motor de reconocimiento de habla y tecnología de NLP en casa. Estos son tres problemas difíciles de resolver. Dialpad ya había resuelto con éxito el aspecto de la telefonia, por lo que cuando llegó la oferta de adquisición, fue una decisión fácil. Veíamos a Dialpad como la plataforma de comunicaciones empresariales más innovadora en el espacio, y nuestra visión para el futuro de las comunicaciones empresariales se alineaba muy bien.

¿Cuáles son algunas de las diferentes tecnologías de aprendizaje automático que se utilizan en Dialpad?

Nuestro motor de Inteligencia de Voz (Vi) nativo aprovecha la IA y el aprendizaje automático para ayudar a las organizaciones a impulsar las ventas, obtener información competitiva, elevar el servicio al cliente y tener reuniones en línea más eficientes.

Las tecnologías de ASR y NLP de TalkIQ se utilizan para recibir las conversaciones de las llamadas de voz y video en tiempo real. Al mismo tiempo, nuestra tecnología propietaria nos permite procesar los datos de conversación entrantes y capturar y transcribirlos con precisión líder en la industria en un formato fácil de leer.

El aprendizaje automático integrado ayuda a mejorar a Vi con el tiempo. Cuanto más se utilice Vi, más aprenderá y mejor será para procesar conversaciones. Con el tiempo, las transcripciones de llamadas aumentarán en precisión, y Vi podrá procesar las sutilezas más sutiles de las conversaciones.

Dialpad logró un hito importante de IA después de analizar más de mil millones de minutos de voz, y las pruebas de benchmarking mostraron que el modelo de transcripción de Dialpad superó a los competidores importantes, incluido el modelo de telefonia mejorado de Google. ¿Qué tipo de pruebas se realizaron para cuantificar estos resultados?

Tenemos una colección de conjuntos de pruebas que contienen audio y la transcripción correspondiente que se considera la verdad absoluta de lo que se dijo en el audio. Enviamos el mismo audio a cada competidor y recibimos una transcripción de regreso, que luego comparamos con la verdad absoluta. Calculamos el número de errores para determinar un porcentaje de precisión. Hemos estado comparándonos con Google desde la adquisición de TalkIQ en abril de 2018, y siempre hemos tenido una precisión más baja hasta ahora.

¿Cuáles son algunos de los diferenciadores clave detrás del motor de Inteligencia de Voz (Vi) de Dialpad y los motores competidores?

Uno de los diferenciadores más grandes es que hemos estado haciendo esto durante más tiempo que los competidores, lo que significa que hemos analizado más datos para asegurarnos de que nuestra tecnología sea la más precisa. Hemos analizado más de mil millones de minutos de comunicación de voz y continuamos procesando aproximadamente 90 millones de minutos al mes con nuestro motor Vi. En este sentido, estamos literalmente años por delante de la competencia.

Otro diferenciador es nuestro enfoque personalizado y escalable para los modelos de lenguaje. Para cada cliente, creamos una base de datos de palabras clave específicas de la empresa para que podamos realizar un impulso de palabras clave para mejorar la precisión. Por ejemplo, para un usuario que deletrea su nombre “Kathryn” y trabaja en una empresa llamada Skribbl, nuestro sistema deletrearía los nombres propios correctamente, mientras que otros modelos probablemente los deletrearían como suenan (es decir, “Katherine” y “scribble”).

¿Cuáles son sus puntos de vista personales sobre el futuro del procesamiento de lenguaje natural? ¿Cuánto tiempo tomará que la IA alcance una precisión del 100% o incluso cercana al 100%?

La precisión perfecta es casi inalcanzable. Quizás algún día me sorprenderé (¡espero que sí!). Creo que nos acercaremos mucho, pero no será perfecta. La razón es que el reconocimiento de habla automático (y, posteriormente, el NLP) tiene problemas casi infinitos para resolver: acentos, proximidad a los micrófonos, ruido de fondo, problemas de conectividad, diferentes tipos de micrófonos, velocidad a la que alguien habla, articulación, contexto (Sara vs Sarah vs Serra), acrónimos, jerga, etc. Mientras me encantaría decir que lo lograremos, creo que podemos acercarnos mucho, pero el último kilómetro, o 1-2% en términos de precisión, será desafiante.

Dicho esto, creo que habrá algunos desarrollos interesantes en cuanto a la legibilidad. Hoy en día, cuando se revisa una transcripción de conversación, puede leerse como un flujo de conciencia. Hablamos de manera natural, utilizamos oraciones largas, repetimos palabras, reiniciamos oraciones, hacemos todo tipo de cosas que no haríamos en una forma escrita. Hay algunas oportunidades únicas cuando se trata de tener una versión más legible de una transcripción, una que elimine redundancias, prediga o mejore la puntuación y ajuste o optimice la transcripción para que sea más legible.

En mi mente, hay dos versiones: la versión literal, que es lo más cercana al 100% posible de una conversación (con oraciones largas y todo), y luego hay una versión mejorada que es mucho más fácil de digerir debido a la puntuación y las optimizaciones.

Y esto nos lleva por el camino de si podemos sintetizar una conversación a sus partes más significativas. ¿Necesitamos una transcripción completa o necesitamos un resumen preciso formateado para la legibilidad?

Ciertamente depende del caso de uso, pero esto es lo que es interesante y emocionante sobre este espacio. Estamos en quizás el tercer inning de lo que es posible, y aún no hemos llegado a la innovación de los flujos de trabajo donde veremos que el NLP se vuelve más “consciente del contexto”, como utilizar conversaciones anteriores para mejorar la precisión.

La tecnología consciente del contexto también es importante para mejorar la precisión, considerando las vastas diferencias en la forma en que nos comunicamos. Lo que puede parecer sutiles diferencias lingüísticas para los humanos es muy difícil de entrenar a un modelo de aprendizaje automático para duplicar.

¿Cuáles son algunos de los servicios que Dialpad ofrece actualmente a los clientes?

Dialpad es una forma más inteligente de trabajar. Hemos construido la plataforma para la fuerza laboral híbrida moderna de hoy en día, empoderando a las personas y equipos para ser más eficientes, efectivos y comprometidos desde cualquier lugar del mundo. Proporcionamos una experiencia de comunicación empresarial sin problemas, con llamadas, chat, conferencias de video y centros de llamadas, con una calidad, seguridad y confiabilidad sin precedentes. Dialpad ofrece esa experiencia como una plataforma en la nube unificada que es económica, simple de implementar y fácil de administrar.

¿Hay algo más que le gustaría compartir sobre Dialpad?

2020 fue un año monumental para la empresa, lo que es realmente asombroso considerando lo que el mundo experimentó (y sigue experimentando). Duplicamos nuestra cantidad de empleados, aseguramos $100 millones en financiación, adquirimos una empresa y lo hicimos mientras nuestra base de clientes crecía exponencialmente.

Con el trabajo remoto aquí para quedarse, esperamos que este crecimiento continúe, y estamos emocionados del año que viene. Creemos que el movimiento de trabajo desde cualquier lugar mejorará la necesidad de tecnologías innovadoras que ayuden a los empleados a trabajar de manera más inteligente, no más duro. Las empresas recurrirán a la IA para optimizar la eficiencia, eliminar tareas mundanas y permitir que los empleados se concentren en prioridades más grandes. Dialpad está bien equipado para satisfacer estas necesidades.

Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Dialpad.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un emprendedor serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI.

Como futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.