Entrevistas

Nikola Mrksic, cofundador y director ejecutivo de PolyAI – Serie de entrevistas

Publicado

Hace años 3

Febrero 18, 2021

El equipo de Poly AI. El cofundador y director ejecutivo Nikola Mrksic es la segunda persona al frente.

Nikola Mrksic es cofundador y director ejecutivo de AI poli, un proveedor líder de asistentes de voz listos para la empresa para el servicio al cliente automatizado.

¿Qué te atrajo inicialmente de la IA?

Me interesan las matemáticas y la informática desde muy temprana edad. Durante mis estudios en Cambridge, tuve la oportunidad de trabajar con varios investigadores líderes en aprendizaje automático, incluidos Steve Young y Zoubin Ghahramani. Steve me convenció para unirme a su startup, VocalIQ, para trabajar en la creación de sistemas de diálogo hablado. Más tarde, también terminé haciendo un doctorado con Steve, trabajando en la creación de modelos de comprensión del lenguaje basados en datos que funcionan en diferentes casos de uso e idiomas. La IA conversacional es un campo de trabajo realmente difícil y complejo, con muchos avances científicos y de ingeniería aún por delante, y me ha mantenido ocupado desde entonces.

En 2017, lanzó PolyAI, una empresa de inteligencia artificial conversacional, ¿podría hablar sobre la historia de génesis detrás de PolyAI?

Mis cofundadores, Shawn Wen, Eddy Su y yo hicimos nuestros doctorados en Cambridge al mismo tiempo. Habíamos trabajado en sistemas de diálogo durante años, pero pronto nos dimos cuenta de que los tipos de sistemas sofisticados en los que estábamos acostumbrados a trabajar tenían muy pocas aplicaciones comerciales. Así que nos unimos para crear una solución de inteligencia artificial conversacional que sería beneficiosa en el mundo real. Vimos una oportunidad para sistemas de diálogo transaccional, de múltiples turnos y verdaderamente conversacionales que pudieran interactuar con personas reales en la vida cotidiana.

Nos enfocamos en el servicio al cliente porque sentimos que las capacidades tecnológicas actuales y los requisitos de los clientes coincidían bien.

¿Podría hablarnos de algunas de las tecnologías de aprendizaje automático y procesamiento del lenguaje natural que se utilizan?

Nuestro principal ingrediente secreto es nuestro conjunto de diferentes modelos de codificadores patentados. Los hemos entrenado previamente en miles de millones de conversaciones naturales, para que puedan extraer la intención incluso cuando el discurso de entrada usa jerga o modismos, por ejemplo. Esto es increíblemente importante para comunicarse por teléfono. Los clientes no hablan con palabras clave; cuentan historias, interrumpen, hacen preguntas y, en general, solo quieren tomar el control de la conversación.

Recientemente anunciamos nuestro modelo ConVEx, un extractor de entidades extremadamente eficiente en datos, que nos permite extraer valores con precisión de las conversaciones.

Nuestro proceso de orquestación de ASR implica el uso de plataformas de reconocimiento de voz de ajuste fino para neutralizar el ruido causado por diferentes acentos, así como el ajuste fino para diferentes contextos.

También hemos desarrollado una biblioteca de políticas de diálogo bastante sólida con casos de uso prediseñados que incluyen todas las transacciones comunes de servicio al cliente, por lo que podemos poner en marcha un nuevo asistente de voz para los clientes extremadamente rápido.

En su opinión, ¿qué diferencia un buen producto de IA conversacional de una IA conversacional deficiente?

Un buen producto comprenderá constantemente lo que los usuarios quieren decir y nunca hará que los usuarios repitan lo que dicen. Las llamadas a menudo ocurren en entornos ruidosos, por lo que los productos deben ser resistentes a las entradas desordenadas. A medida que las marcas llegan a grandes mercados, los productos deben comprender una variedad de acentos y formas de expresar las intenciones. Ambos requieren productos que garanticen capacidades sólidas de reconocimiento de voz, clasificación de intenciones resistente y extracción de entidades.

Un gran producto atraerá activamente a los usuarios. Seguirá el tren de pensamientos del usuario y podrá manejar casos complejos y cotidianos en los que los usuarios pueden compartir múltiples intenciones y piezas de información simultáneamente, y pueden saltar entre diferentes contextos. Eso requiere una clasificación robusta de etiquetas múltiples y una gestión del contexto.

Un producto atractivo mostrará características humanas sin ser extraño o demasiado robótico. Esto significa interacciones ágiles, voces genuinas, señales de retroalimentación continua y un grado de aleatoriedad e imperfecciones.

Finalmente, un excelente producto de inteligencia artificial conversacional interactuará con los usuarios donde sea que estén y ofrecerá una experiencia fluida y específica de la plataforma, que puede abarcar plataformas de mensajería de voz, SMS, chat o redes sociales. El paradigma de interacción debe abarcar la especificidad de cada plataforma de comunicación.

¿Cuáles son algunas de las ventajas de las empresas que utilizan IA conversacional en lugar de intentar canalizar las consultas a los bots de chat?

La experiencia del cliente es fundamental y se ha convertido en un factor clave para la retención. La máxima prioridad debería ser facilitar a los clientes hacer lo que necesitan hacer.

El teléfono sigue siendo el canal preferido de la mayoría de los clientes para ponerse en contacto con una empresa. Hasta el 65 % de todas las interacciones con los clientes siguen ocurriendo por teléfono. Durante la pandemia de COVID-19, los centros de contacto se han llevado al extremo con más clientes que nunca pidiendo ayuda.

Por supuesto, una gran experiencia permite a los clientes comunicarse como quieran, por lo que para cualquiera que prefiera comunicaciones asincrónicas, simplificamos que las marcas ofrezcan el mismo nivel de experiencia a través de canales textuales.

¿Cuánto de un desafío es detectar la intención de lo que un cliente está tratando de decir?

Hay una serie de desafíos para comprender a los clientes a través de los canales de voz. La comprensión precisa y consistente del significado de los usuarios requiere numerosos componentes para trabajar bien juntos.

En primer lugar, el reconocimiento de voz es difícil, especialmente cuando las personas llaman desde entornos ruidosos, como cuando usan el altavoz o cuando conducen a través del tráfico o los túneles. El reconocimiento de voz también puede ser difícil en regiones con diferentes acentos y dialectos. Hemos desarrollado una forma efectiva de sesgar los modelos de reconocimiento de voz para el contexto dado a fin de optimizar el reconocimiento de voz.

Debido a que nuestro modelo ConveRT ha sido entrenado en una gran cantidad de datos conversacionales, es capaz de detectar la intención en señales débiles, al igual que nosotros, los humanos, generalmente podemos entender lo que alguien dice, incluso si nos perdemos una o dos palabras.

Otra consideración es comprender cuándo los usuarios desean realizar varias acciones a la vez. Por ejemplo, alguien podría decir: “Perdí mi tarjeta. ¿Puedes avisarme si se ha usado y bloquearlo?”. En este caso, el modelo necesita reconocer dos intentos y actuar sobre ellos en un orden que tenga sentido.

El modelo también debe poder extraer y comprender las entidades que los clientes ofrecen como voluntarias. Por ejemplo, "¿tienes una mesa para el almuerzo del sábado para mí, mi esposa y nuestros 2 hijos?" La intención del nivel de superficie aquí es verificar la disponibilidad de una mesa, pero el modelo debe seleccionar la fecha (sábado) y la cantidad de personas (4) y cualquier otra información potencial que pueda ser relevante (quizás solo se permiten niños en el restaurante y no se puede sentar en la barra).

Finalmente, la conversación no siempre es lineal. Los clientes pueden interrumpir con preguntas no relacionadas con el mensaje del asistente de voz, por lo que el asistente debe poder "escuchar" un tipo de entrada, mientras está abierto a diferentes factores desencadenantes, como preguntas frecuentes o cambios en la información proporcionada previamente por el usuario.

¿Cuál es el proceso y el cronograma necesarios para una empresa que quiere lanzar un bot de IA conversacional con PolyAI?

Estamos aquí para proporcionar asistentes de voz que tengan un impacto comercial tangible. Entonces, comenzamos cada compromiso con un descubrimiento en el que ayudamos a los clientes a identificar y articular sus objetivos de CX, métricas clave y procesos de soporte. Aquí es donde analizamos los viajes que el asistente de voz necesitará para guiar a los clientes. Esto, además de nuestro modelo ConveRT preentrenado, significa que no necesitamos grandes cantidades de datos conversacionales de los clientes.

A partir de ahí, podemos desarrollar un asistente de voz con muy poca intervención del cliente, por lo que no exige nada de los equipos de TI internos.

Dependiendo de la complejidad, podemos generar una prueba de valor en tan solo 2 semanas y una implementación completa en 2 meses.

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar AI poli.

Temas relacionados:Entrevista poliIA

Hasta la próxima

Reid Blackman, Ph.D, Fundador y CEO de Virtue Consultants – Serie de entrevistas

No Te Lo

Scott Opitz, director de marketing de ABBYY – Serie de entrevistas

antoine tardif

Socio fundador de unite.AI y miembro de la consejo de tecnología de forbes, antoine es un futurista apasionado por el futuro de la IA y la robótica.

También es el fundador de Valores.io, un sitio web que se centra en invertir en tecnología disruptiva.

Unir.AI

Nikola Mrksic, cofundador y director ejecutivo de PolyAI – Serie de entrevistas

Entrevistas

Nikola Mrksic, cofundador y director ejecutivo de PolyAI – Serie de entrevistas

Tabla de contenido

Publicaciones Recientes

Unir.AI

Nikola Mrksic, cofundador y director ejecutivo de PolyAI – Serie de entrevistas

Tabla de contenido

Te podría gustar

Publicaciones Recientes