Connect with us

Interviews

Nikola Mrksic, Co-founder og CEO af PolyAI – Interview Serie

mm

Nikola Mrksic er co-founder og CEO af PolyAI, en førende leverandør af virksomhedsklare taleassistenter til automatiseret kundeservice.

Hvad tiltrak dig oprindeligt til AI?

Jeg har været interesseret i matematik og datalogi fra en meget tidlig alder. Under mine studier på Cambridge fik jeg chancen til at arbejde med flere førende maskinlæringsforskere, herunder Steve Young og Zoubin Ghahramani. Steve overbeviste mig om at joinde hans startup, VocalIQ, for at arbejde på at bygge talebaserede dialogsystemer. Senere endte jeg med at gøre en ph.d. med Steve, hvor jeg arbejdede på at bygge data-drevne sprogforståelsesmodeller, der fungerer på tværs af forskellige brugsområder og sprog. Konversations-AI er et rigtigt hårdt og komplekst arbejdsområde med mange videnskabelige og tekniske gennembrud endnu foran os, og det har holdt mig beskæftiget lige siden.

I 2017 lancerede du PolyAI, et konversations-AI-selskab, kan du diskutere den oprindelige historie bag PolyAI?

Mine co-founders, Shawn Wen, Eddy Su og jeg gjorde vores ph.d.’er på Cambridge på samme tid. Vi havde arbejdet på dialogsystemer i år, men vi indså snart, at de sofistikerede systemer, vi var vant til at arbejde med, havde meget få kommercielle anvendelser. Så vi kom sammen for at skabe en konversations-AI-løsning, der ville være nyttig i den virkelige verden. Vi så en mulighed for rigtigt konversationsbaserede, multi-turn, transaktionsbaserede dialogsystemer, der kunne interagere med rigtige mennesker i hverdagslivet.

Vi fokuserede på kundeservice, da vi følte, at de nuværende tekniske muligheder og kundernes krav var godt matchet.

Kan du diskutere nogle af de maskinlærings- og naturligsproglige bearbejdnings-teknologier, der anvendes?

Vores hovedhemmelighed er vores sæt af forskellige proprietære encoder-modeller. Vi har forudtrænet dem på milliarder af naturlige samtaler, så de kan udtrække intention selv, når inputtalen bruger slang eller idiomer f.eks. Dette er utroligt vigtigt for kommunikation over telefonen. Kunder taler ikke i nøgleord; de fortæller historier, afbryder, stiller spørgsmål og vil generelt bare tage kontrol over samtalen.

Vi har nylig annonceret vores ConVEx-model, en ekstremt data-effektiv enheds-ekstraktor, der tillader os at nøjagtigt udtrække værdier fra samtaler.

Vores ASR-koordineringsproces indebærer at bruge finjustering af talegenkendelsesplatforme til at neutralisere støjen forårsaget af forskellige accenter, samt finjustering for forskellige kontekster.

Vi har også udviklet en ret robust dialogpolitik-bibliotek med foruddefinerede brugsområder, der inkluderer alle almindelige kundeservicetransaktioner, så vi kan starte en ny taleassistent for kunder ekstremt hurtigt.

I din mening, hvad adskiller et godt konversations-AI-produkt fra et dårligt konversations-AI?

Et godt produkt vil konsekvent forstå, hvad brugerne mener, og vil aldrig få brugerne til at gentage sig selv. Opkald sker ofte i støjende miljøer, så produkterne skal være robuste over for beskidte input. Da mærker når ud til store markeder, skal produkterne forstå en række accenter og måder at formulere intentioner på. Begge disse kræver, at produkterne kan garantere robust talegenkendelsesfunktioner, robust intentionsklassifikation og enheds-ekstraktion.

Et fantastisk produkt vil være aktivt engagerende for brugerne. Det vil følge brugernes tankegang, og være i stand til at håndtere komplekse, hverdagslige tilfælde, hvor brugerne måske deler flere intentioner og stykker af information samtidigt, og de måske hopper mellem forskellige kontekster. Dette kræver robust multi-etikett-klassifikation og kontekststyring.

Et engagerende produkt vil vise menneskelige karaktertræk uden at være unaturligt eller for robotisk. Dette betyder lynhurtige interaktioner, ægte stemmer, kontinuerlig feedback og en vis grad af tilfældighed og fejl.

Endelig vil et fantastisk konversations-AI-produkt engagere brugerne, hvor de end er, og tilbyde en samlet, platform-specifik oplevelse, der kan omfatte tale, SMS, chat eller sociale meddelelsesplatforme. Interaktionsparadigmet skal omfavne hver kommunikationsplatforms specifikke egenskaber.

Hvad er nogle af fordelene ved, at virksomheder bruger konversations-AI i stedet for at forsøge at kanalisere forespørgsler til chat-bots?

Kundeservicen er afgørende og er blevet en nøglefaktor for kundetilfredshed. Top-prioriteten skal være at gøre det let for kunderne at gøre, hvad de har brug for at gøre.

Telefonen er stadig de fleste kunders foretrukne kanal for at kontakte en virksomhed. Op til 65% af alle kundekontakter sker stadig over telefonen. Under COVID-19-pandemien er kontaktsentrene blevet presset til det yderste med flere kunder end nogensinde, der ringer for at få support.

Selvfølgelig tillader en god oplevelse kunderne at kommunikere, som de ønsker, så for alle, der foretrækker asynkrone kommunikation, gør vi det nemt for mærkerne at tilbyde samme niveau af oplevelse på tekstuelle kanaler.

Hvor stor en udfordring er det at opdage intentionen bag, hvad en kunde prøver at sige?

Der er en række udfordringer med at forstå kunder gennem talekanaler. At forstå brugernes mening nøjagtigt og konsekvent kræver, at mange komponenter fungerer godt sammen.

Først og fremmest er talegenkendelse svært, især når folk ringer fra støjende miljøer, som når de er på højttaler, eller når de kører gennem trafik eller tunneler. Talegenkendelse kan også være svært i regioner med forskellige accenter og dialekter. Vi har udviklet en effektiv måde at bias talegenkendelsesmodeller for den givne kontekst for at optimere talegenkendelse.

Fordi vores ConveRT-model er trænet på så stor en mængde konversationsdata, kan den opdage intention på svage signaler, ligesom vi mennesker generelt kan forstå, hvad nogen siger, selv hvis vi misser et par ord.

En anden overvejelse er at forstå, når brugerne ønsker at udføre flere handlinger på én gang. F.eks. kan nogen sige: “Jeg har tabt min kort. Kan du fortælle mig, om det er blevet brugt, og blokere det?”. I dette tilfælde skal modellen genkende to intentioner og handle på dem i en orden, der giver mening.

Modellen skal også være i stand til at udtrække og forstå de enheder, der tilbydes af kunderne. F.eks. “Har du en bordplads lørdag til frokost til mig, min kone og vores 2 børn?”. Overflade-intentionen her er at tjekke tilgængelighed for en bordplads, men modellen skal udtrække datoen (lørdag) og antallet af personer (4) og eventuelt anden relevant information (f.eks. børn er måske kun tilladt i restaurantområdet og kan ikke sidde ved baren).

Endelig er samtale ikke altid lineær. Kunder kan afbryde med spørgsmål, der ikke er relateret til taleassistentens prompt, så assistenten skal være i stand til at “lytte efter” en bestemt input, samtidig med at den er åben for forskellige udløsere som f.eks. ofte stillede spørgsmål eller ændringer i information, der tidligere er blevet leveret af brugeren.

Hvad er processen og tidsrammen for en virksomhed, der ønsker at lancere en konversations-AI-bot med PolyAI?

Vi er her for at levere taleassistenter, der har en konkrete forretningsvirkning. Så vi starter hver engagement med en opdagelse, hvor vi hjælper kunderne med at identificere og formulere deres kundeservice-mål, nøgle-metrice og support-processer. Dette er, hvor vi afgrænser de rejser, taleassistenten skal guide kunderne gennem. Dette, plus vores forudtrænede ConveRT-model, betyder, at vi ikke har brug for store mængder konversationsdata fra kunderne.

Herefter kan vi udvikle en taleassistent med meget lidt input fra kunden, så det er slet ikke krævende for interne IT-hold.

Afhangigt af kompleksiteten kan vi starte en proof of value på så lidt som 2 uger, og en fuldstændig implementering på 2 måneder.

Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge PolyAI.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.