Entrevistas

Nikola Mrksic, Co-fundador e CEO da PolyAI – Série de Entrevistas

Published February 18, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nikola Mrksic é co-fundador e CEO da PolyAI, um dos principais fornecedores de assistentes de voz prontos para empresas para atendimento ao cliente automatizado.

O que inicialmente o atraiu para a IA?

Eu sempre fui atraído por matemática e ciência da computação desde muito cedo. Durante meus estudos em Cambridge, tive a oportunidade de trabalhar com vários pesquisadores de aprendizado de máquina líderes, incluindo Steve Young e Zoubin Ghahramani. Steve me convenceu a me juntar à sua startup, VocalIQ, para trabalhar no desenvolvimento de sistemas de diálogo falado. Mais tarde, acabei fazendo um PhD com Steve, trabalhando no desenvolvimento de modelos de compreensão de linguagem baseados em dados que funcionam em diferentes casos de uso e idiomas. A IA conversacional é um campo de trabalho realmente difícil e complexo, com muitas descobertas científicas e de engenharia ainda por vir, e isso me manteve ocupado desde então.

Em 2017, você lançou a PolyAI, uma empresa de IA conversacional, pode discutir a história por trás da criação da PolyAI?

Meus co-fundadores, Shawn Wen, Eddy Su e eu fizemos nossos PhDs em Cambridge ao mesmo tempo. Nós trabalhamos em sistemas de diálogo por anos, mas logo percebemos que os tipos de sistemas sofisticados que estávamos acostumados a trabalhar tinham muito poucas aplicações comerciais. Então, nos juntamos para criar uma solução de IA conversacional que seria benéfica no mundo real. Nós vimos uma oportunidade para sistemas de diálogo conversacional, multi-turno, transacional que pudessem interagir com pessoas reais na vida cotidiana.

Nós nos concentramos no atendimento ao cliente porque sentimos que as capacidades tecnológicas atuais e as necessidades dos clientes estavam bem alinhadas.

Pode discutir algumas das tecnologias de aprendizado de máquina e processamento de linguagem natural utilizadas?

Nosso principal segredo é nosso conjunto de modelos de codificador proprietários. Nós os pré-treinamos em bilhões de conversas naturais, então eles podem extrair intenção mesmo quando a entrada de fala usa gírias ou expressões idiomáticas, por exemplo. Isso é incrivelmente importante para se comunicar ao telefone. Os clientes não falam em palavras-chave; eles contam histórias, interrompem, fazem perguntas e geralmente apenas querem controlar a conversa.

Nós recentemente anunciamos nosso modelo ConVEx, um extrator de entidades extremamente eficiente em termos de dados, que nos permite extrair valores de conversas com precisão.

Nosso processo de orquestração de ASR envolve o uso de plataformas de reconhecimento de fala para neutralizar o ruído causado por diferentes sotaques, bem como ajustar para diferentes contextos.

Nós também desenvolvemos uma biblioteca de política de diálogo bastante robusta com casos de uso pré-projetados que incluem todas as transações de atendimento ao cliente comuns, então podemos criar um novo assistente de voz para clientes extremamente rápido.

Na sua opinião, o que diferencia um produto de IA conversacional bom de um ruim?

Um produto bom entenderá consistentemente o que os usuários querem dizer e nunca fará com que os usuários repitam a si mesmos. As ligações muitas vezes ocorrem em ambientes barulhentos, então os produtos precisam ser resilientes a entradas desordenadas. À medida que as marcas se estendem a grandes mercados, os produtos precisam entender uma variedade de sotaques e maneiras de expressar intenções. Ambos requerem que os produtos garantam capacidades de reconhecimento de fala robustas, classificação de intenção resiliente e extração de entidades.

Um produto ótimo será ativamente envolvente para os usuários. Ele seguirá o raciocínio do usuário e será capaz de lidar com casos complexos do dia a dia, onde os usuários podem estar compartilhando várias intenções e peças de informação simultaneamente, e podem pular entre diferentes contextos. Isso requer classificação de rótulo múltiplo robusta e gerenciamento de contexto.

Um produto envolvente exibirá características humanas sem ser estranho ou muito robótico. Isso significa interações rápidas, vozes genuínas, sinais de feedback contínuos e um grau de aleatoriedade e imperfeições.

Finalmente, um produto de IA conversacional ótimo interagirá com os usuários onde eles estiverem e oferecerá uma experiência perfeita e específica da plataforma, que pode abranger voz, SMS, chat ou plataformas de mensagens sociais. O paradigma de interação deve abraçar a especificidade de cada plataforma de comunicação.

Quais são algumas das vantagens das empresas usarem IA conversacional em vez de tentar direcionar consultas para chatbots?

A experiência do cliente é fundamental e se tornou um dos principais impulsionadores de retenção. A prioridade número um deve ser tornar fácil para os clientes fazerem o que precisam fazer.

O telefone ainda é o canal preferido da maioria dos clientes para contatar uma empresa. Até 65% de todas as interações do cliente ainda acontecem ao telefone. Durante a pandemia de COVID-19, os centros de contato foram levados ao extremo com mais clientes do que nunca ligando para obter suporte.

É claro que uma ótima experiência permite que os clientes se comuniquem como quiserem, então, para qualquer um que prefira comunicações assíncronas, tornamos fácil para as marcas oferecerem o mesmo nível de experiência em canais textuais.

Quão desafiador é detectar a intenção do que um cliente está tentando dizer?

Há uma série de desafios para entender os clientes por meio de canais de voz. Entender com precisão e consistentemente o significado dos usuários requer que vários componentes funcionem bem juntos.

Primeiro, o reconhecimento de fala é difícil, especialmente quando as pessoas ligam de ambientes barulhentos, como quando estão no viva-voz, ou quando dirigem pelo tráfego ou túneis. O reconhecimento de fala também pode ser difícil em regiões com diferentes sotaques e dialetos. Nós desenvolvemos uma maneira eficaz de inclinar os modelos de reconhecimento de fala para o contexto dado para otimizar o reconhecimento de fala.

Como nosso modelo ConveRT foi treinado em uma quantidade enorme de dados conversacionais, ele é capaz de detectar intenção em sinais fracos, assim como os humanos geralmente podem entender o que alguém está dizendo, mesmo se perderem uma ou duas palavras.

Outra consideração é entender quando os usuários querem realizar várias ações ao mesmo tempo. Por exemplo, alguém pode dizer: “Eu perdi meu cartão. Você pode me dizer se ele foi usado e bloqueá-lo?”. Nesse caso, o modelo precisa reconhecer duas intenções e agir nelas em uma ordem que faça sentido.

O modelo também precisa ser capaz de extrair e entender as entidades que os clientes estão fornecendo. Por exemplo, “você tem uma mesa disponível para o almoço de sábado para mim, minha esposa e nossos 2 filhos?”. A intenção superficial aqui é verificar a disponibilidade de uma mesa, mas o modelo precisa extrair a data (sábado) e o número de pessoas (4) e qualquer outra informação potencialmente relevante (talvez as crianças sejam permitidas apenas na área do restaurante e não possam ser sentadas no bar).

Finalmente, a conversa nem sempre é linear. Os clientes podem interromper com perguntas não relacionadas ao prompt do assistente de voz, então o assistente precisa ser capaz de “ouvir” por um tipo de entrada, enquanto está aberto a diferentes gatilhos, como FAQs ou alterações de informações previamente fornecidas pelo usuário.

Qual é o processo e o prazo necessário para uma empresa que deseja lançar um bot de IA conversacional com a PolyAI?

Estamos aqui para fornecer assistentes de voz que tenham um impacto comercial tangível. Então, começamos cada engajamento com uma descoberta, onde ajudamos os clientes a identificar e articular seus objetivos de CX, métricas-chave e processos de suporte. É aqui que definimos as jornadas que o assistente de voz precisará guiar os clientes. Isso, mais nosso modelo ConveRT pré-treinado, significa que não precisamos de grandes quantidades de dados conversacionais dos clientes.

A partir daí, somos capazes de desenvolver um assistente de voz com muito pouco input necessário do cliente, então não é nada exigente para as equipes de TI internas.

Dependendo da complexidade, podemos criar uma prova de valor em apenas 2 semanas e uma implantação completa em 2 meses.

Obrigado pela ótima entrevista, leitores que desejam aprender mais devem visitar PolyAI.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.

Unite.AI

Nikola Mrksic, Co-fundador e CEO da PolyAI – Série de Entrevistas

You may like