Intervjuer

Nikola Mrksic, medgrundare och VD för PolyAI – Intervjuserie

Published February 18, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nikola Mrksic är medgrundare och VD för PolyAI, en ledande leverantör av företagsklara röstassistenter för automatiserad kundservice.

Vad var det som initialt drog dig till AI?

Jag har varit intresserad av matematik och datavetenskap från en mycket tidig ålder. Under mina studier vid Cambridge fick jag möjlighet att arbeta med flera ledande maskinläringsforskare, inklusive Steve Young och Zoubin Ghahramani. Steve övertygade mig om att gå med i hans startup, VocalIQ, för att arbeta med att bygga talade dialogsystem. Senare gjorde jag min doktorsexamen med Steve, där jag arbetade med att bygga data-drivna språkförståelsemodeller som fungerar över olika användningsfall och språk. Konversations-AI är ett mycket svårt och komplext arbetsområde, med många vetenskapliga och tekniska genombrott framför oss, och det har hållit mig sysselsatt sedan dess.

År 2017 lanserade du PolyAI, ett konversations-AI-företag, kan du diskutera den bakomliggande historien om PolyAI?

Mina medgrundare, Shawn Wen, Eddy Su och jag gjorde våra doktorsexamen vid Cambridge samtidigt. Vi hade arbetat med dialogsystem i år, men vi insåg snart att de sofistikerade systemen vi var vana att arbeta med hade mycket få kommersiella tillämpningar. Så vi kom samman för att skapa en konversations-AI-lösning som skulle vara till nytta i den verkliga världen. Vi såg en möjlighet för riktigt konversationsbaserade, multi-turn, transaktionsbaserade dialogsystem som kunde interagera med riktiga människor i vardagslivet.

Vi fokuserade på kundservice eftersom vi kände att den aktuella tekniska kapaciteten och kundernas krav var väl matchade.

Kan du diskutera några av de maskinlärnings- och naturligt språkbehandlings-teknologier som används?

Vår huvudsakliga hemlighet är vår uppsättning olika proprietära encoder-modeller. Vi har förtränat dem på miljarder naturliga konversationer, så att de kan extrahera avsikt även när indata-talet använder slang eller idiom till exempel. Detta är otroligt viktigt för kommunikation över telefon. Kunder talar inte i nyckelord; de berättar historier, avbryter, ställer frågor och vill generellt ta kontroll över konversationen.

Vi har nyligen tillkännagett vår ConVEx-modell, en extremt data-effektiv entitets-extraherare, som tillåter oss att exakt extrahera värden från konversationer.

Vår ASR-koordineringsprocess innebär att vi använder finjusterings-taligenkänning-plattformar för att neutralisera bruset orsakat av olika accenter, samt finjustera för olika sammanhang.

Vi har också utvecklat en ganska robust dialogpolicy-bibliotek med fördesignade användningsfall som inkluderar alla vanliga kundservice-transaktioner, så att vi kan starta en ny röstassistent för kunder extremt snabbt.

I din åsikt, vad skiljer ett bra konversations-AI-produkt från ett dåligt?

Ett bra produkt kommer att konsekvent förstå vad användare menar och kommer aldrig att göra att användare upprepar sig. Samtal sker ofta i bullriga miljöer, så produkter måste vara robusta mot oren input. När varumärken når ut till stora marknader, måste produkter förstå en mängd olika accenter och sätt att uttrycka avsikter. Båda dessa kräver att produkter garanterar robust taligenkänning, resilient avsikt-klassificering och entitets-extrahering.

Ett fantastiskt produkt kommer att vara aktivt engagerande för användare. Det kommer att följa användarens tankespår och kunna hantera komplexa, vardagliga fall där användare kan dela flera avsikter och informationsbitar samtidigt, och de kan hoppa mellan olika sammanhang. Det kräver robust multi-etikett-klassificering och kontext-hantering.

Ett engagerande produkt kommer att visa mänskliga egenskaper utan att vara onaturligt eller för robotliknande. Det innebär snabba interaktioner, äkta röster, kontinuerlig återkoppling och en viss grad av slumpmässighet och ofullkomlighet.

Slutligen, ett fantastiskt konversations-AI-produkt kommer att engagera användare var de än är och erbjuda en sömlös, plattformsspecifik upplevelse, som kan omfatta röst, SMS, chatt eller social meddelande-plattformar. Interaktionsparadigmet bör omfamna varje kommunikationsplattforms specifika egenskaper.

Vilka är några av fördelarna med att företag använder konversations-AI istället för att försöka kanalisera förfrågningar till chatt-robotar?

Kundupplevelsen är kritisk och har blivit en nyckeldriver för kundbehållning. Det viktigaste bör vara att göra det lätt för kunder att göra vad de behöver göra.

Telefonen är fortfarande den mest föredragna kanalen för kunder att kontakta ett företag. Upp till 65% av alla kundinteraktioner sker fortfarande över telefon. Under COVID-19-pandemin har kontaktcenter pressats till extremt med fler kunder än någonsin som ringer för support.

Naturligtvis tillåter en bra upplevelse kunder att kommunicera hur de vill, så för alla som föredrar asynkron kommunikation, gör vi det enkelt för varumärken att erbjuda samma nivå av upplevelse över textbaserade kanaler.

Hur stor utmaning är det att upptäcka avsikten med vad en kund försöker säga?

Det finns ett antal utmaningar med att förstå kunder genom röstkanaler. Att exakt och konsekvent förstå användarnas mening kräver att många komponenter fungerar bra tillsammans.

Först är taligenkänning svårt, särskilt när människor ringer från bullriga miljöer, som när de är på högtalartelefon eller när de kör genom trafik eller tunnlar. Taligenkänning kan också vara svårt i regioner med olika accenter och dialekt. Vi har utvecklat ett effektivt sätt att biasera taligenkänning-modeller för den givna kontexten för att optimera taligenkänning.

Eftersom vår ConveRT-modell har tränats på så stor mängd konversationsdata, kan den upptäcka avsikt på svaga signaler, precis som vi människor kan förstå vad någon säger, även om vi missar ett eller två ord.

En annan övervägning är att förstå när användare vill utföra flera åtgärder samtidigt. Till exempel kan någon säga: “Jag förlorade min kort. Kan du låta mig veta om det har använts och blockera det?”. I detta fall måste modellen känna igen två avsikter och agera på dem i en ordning som har mening.

Modellen måste också kunna extrahera och förstå de entiteter som kunderna erbjuder. Till exempel: “Har du ett bord lördag lunch för mig, min fru och våra 2 barn?”. Den yttre avsikten här är att kontrollera tillgänglighet för ett bord, men modellen måste plocka ut datumet (lördag) och antalet personer (4) och eventuell annan relevant information (till exempel att barn bara är tillåtna i restaurangområdet och inte kan sitta vid baren).

Slutligen är konversation inte alltid linjär. Kunder kan avbryta med frågor som inte är relaterade till röstassistentens prompt, så assistenten måste kunna “lyssna ut” för en typ av indata, samtidigt som den är öppen för olika utlösare som till exempel FAQ eller ändringar av information som tidigare tillhandahållits av användaren.

Vad är processen och tidsramen som krävs för ett företag som vill lansera en konversations-AI-bot med PolyAI?

Vi är här för att tillhandahålla röstassistenter som har en mätbar affekt. Så vi börjar varje engagemang med en upptäckt där vi hjälper kunder att identifiera och formulera sina CX-mål, nyckel-mått och support-processer. Detta är där vi definierar de resor som röstassistenten kommer att behöva guida kunderna genom. Detta, plus vår förtränade ConveRT-modell, betyder att vi inte behöver stora mängder konversationsdata från kunder.

Från där kan vi utveckla en röstassistent med mycket liten inmatning behövd från kunden, så det är inte alls krävande för interna IT-team.

Beroende på komplexitet kan vi starta en bevis på värde på så lite som 2 veckor, och en fullständig distribution på 2 månader.

Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka PolyAI.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhället som elektricitet, och fångas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI

Nikola Mrksic, medgrundare och VD för PolyAI – Intervjuserie

You may like