stub Nikola Mrksic, medgründer og administrerende direktør i PolyAI - Interview Series - Unite.AI
Kontakt med oss

intervjuer

Nikola Mrksic, medgründer og administrerende direktør i PolyAI – Interview Series

mm

Publisert

 on

PolyAI-teamet. Medgründer og administrerende direktør Nikola Mrksic er den andre personen i front.

Nikola Mrksic er medgründer og administrerende direktør i PolyAI, en ledende leverandør av bedriftsklare taleassistenter for automatisert kundeservice.

Hva tiltrakk deg i utgangspunktet til AI?

Jeg har drevet med matematikk og informatikk fra en veldig tidlig alder. Under studiene mine ved Cambridge fikk jeg sjansen til å jobbe med flere ledende maskinlæringsforskere, inkludert Steve Young og Zoubin Ghahramani. Steve overbeviste meg om å bli med i oppstarten hans, VocalIQ, for å jobbe med å bygge talte dialogsystemer. Senere endte jeg opp med å ta en doktorgrad med Steve også, og jobbet med å bygge datadrevne språkforståelsesmodeller som fungerer på tvers av forskjellige brukstilfeller og språk. Conversational AI er et veldig vanskelig, komplekst arbeidsfelt, med mange vitenskapelige og ingeniørmessige gjennombrudd fortsatt foran oss, og det har holdt meg opptatt siden den gang.

I 2017 lanserte du PolyAI, et AI-selskap for samtale, kan du diskutere opprinnelseshistorien bak PolyAI?

Mine medgründere, Shawn Wen, Eddy Su og jeg tok doktorgraden vår ved Cambridge på samme tid. Vi hadde jobbet med dialogsystemer i årevis, men vi innså snart at den typen sofistikerte systemer vi var vant til å jobbe med hadde svært få kommersielle bruksområder. Så vi kom sammen for å lage en samtale-AI-løsning som ville være nyttig i den virkelige verden. Vi så en mulighet for virkelig samtale, multi-turn, transaksjonelle dialogsystemer som kunne samhandle med virkelige mennesker i hverdagen.

Vi fokuserte på kundeservice da vi følte at dagens teknologiske evner og kundenes behov var godt matchet.

Kan du diskutere noen av teknologiene for maskinlæring og naturlig språkbehandling som brukes?

Vår hovedhemmelige saus er vårt sett med forskjellige proprietære kodemodeller. Vi har forhåndstrent dem på milliarder av naturlige samtaler, slik at de kan trekke ut hensikt selv når innspillingstalen for eksempel bruker slang eller idiomer. Dette er utrolig viktig for å kommunisere over telefon. Kunder snakker ikke i nøkkelord; de forteller historier, avbryter, stiller spørsmål og vil generelt bare ta kontroll over samtalen.

Vi har nylig annonsert vår ConVEx-modell, en ekstremt dataeffektiv enhetsuttrekker, som lar oss trekke ut verdier nøyaktig fra samtaler.

Vår ASR-orkestreringsprosess innebærer å bruke finjusterende talegjenkjenningsplattformer for å nøytralisere støyen forårsaket av forskjellige aksenter, samt finjustering for forskjellige sammenhenger.

Vi har også utviklet et ganske robust dialogpolicybibliotek med forhåndsdesignede brukstilfeller som inkluderer alle vanlige kundeservicetransaksjoner, slik at vi kan lage en ny taleassistent for klienter ekstremt raskt.

Hva etter din mening skiller et godt konversasjons-AI-produkt med en dårlig konversasjons-AI?

Et godt produkt vil konsekvent forstå hva brukerne mener og vil aldri få brukerne til å gjenta seg selv. Anrop skjer ofte i støyende miljøer, så produktene må være motstandsdyktige mot rotete innganger. Når merker når ut til store markeder, må produktene forstå en rekke aksenter og måter å formulere hensikter på. Begge disse krever produkter for å garantere robuste talegjenkjenningsevner, spenstig intentklassifisering og enhetsutvinning.

Et flott produkt vil være aktivt engasjerende for brukerne. Den vil følge brukerens tankerekke, og være i stand til å håndtere komplekse, hverdagslige tilfeller der brukere kan dele flere intensjoner og deler av informasjon samtidig, og de kan hoppe mellom ulike kontekster. Det krever robust multi-label klassifisering og kontekststyring.

Et engasjerende produkt vil vise menneskelige egenskaper uten å være uhyggelig eller for robotaktig. Dette betyr raske interaksjoner, ekte stemmer, kontinuerlige tilbakemeldinger og en grad av tilfeldighet og ufullkommenhet.

Til slutt vil et flott konversasjons-AI-produkt engasjere brukere uansett hvor de er og tilby en sømløs, plattformspesifikk opplevelse, som kan spenne over tale-, SMS-, chat- eller sosiale meldingsplattformer. Interaksjonsparadigmet bør omfatte hver kommunikasjonsplattforms spesifisitet.

Hva er noen av fordelene med selskaper som bruker konversasjons-AI i stedet for å forsøke å sende henvendelser til chatteroboter?

Kundeopplevelse er kritisk og har blitt en nøkkeldriver for oppbevaring. Hovedprioriteten bør være å gjøre det enkelt for kundene å gjøre det de trenger å gjøre.

Telefonen er fortsatt de fleste kunders foretrukne kanal for å kontakte et selskap. Opptil 65 % av alle kundeinteraksjoner skjer fortsatt over telefon. Under COVID-19-pandemien har kontaktsentre blitt presset til det ytterste med flere kunder enn noen gang som ringer etter støtte.

Selvfølgelig lar en god opplevelse kunder kommunisere slik de vil, så for alle som foretrekker asynkron kommunikasjon, gjør vi det enkelt for merkevarer å tilby samme nivå av opplevelse på tvers av tekstkanaler.

Hvor mye av en utfordring er det å oppdage intensjonen med det en kunde prøver å si?

Det er en rekke utfordringer med å forstå kunder gjennom talekanaler. En nøyaktig og konsekvent forståelse av brukernes mening krever mange komponenter for å fungere godt sammen.

For det første er talegjenkjenning vanskelig, spesielt når folk ringer fra støyende omgivelser, som når de bruker høyttalertelefoner, eller når de kjører gjennom trafikk eller tunneler. Talegjenkjenning kan også være vanskelig i regioner med ulike aksenter og dialekter. Vi har utviklet en effektiv måte å tilpasse talegjenkjenningsmodeller for den gitte konteksten for å optimere talegjenkjenningen.

Fordi vår ConveRT-modell har blitt trent på en så enorm mengde samtaledata, er den i stand til å oppdage intensjon om svake signaler, akkurat som vi mennesker generelt kan forstå hva noen sier, selv om vi savner et ord eller to.

En annen vurdering er forståelse når brukere ønsker å ta på seg flere handlinger samtidig. For eksempel kan noen si: «Jeg mistet kortet mitt. Kan du gi meg beskjed om den er brukt og blokkere den?”. I dette tilfellet må modellen gjenkjenne to hensikter og handle på dem i en rekkefølge som gir mening.

Modellen må også være i stand til å trekke ut og forstå enhetene som tilbys frivillig av kunder. For eksempel, "har du et bord lørdag lunsj for meg, min kone og våre 2 barn?" Intensjonen med overflatenivå her er å sjekke tilgjengeligheten for et bord, men modellen må velge ut datoen (lørdag) og antall personer (4) og annen potensiell informasjon som kan være relevant (kanskje barn er kun tillatt i restauranten område, og kan ikke sitte i baren).

Til slutt, samtalen er ikke alltid lineær. Kunder kan avbryte med spørsmål som ikke er relatert til taleassistentens forespørsel, så assistenten må kunne "lytte" etter én type input, samtidig som den er åpen for forskjellige triggere som vanlige spørsmål eller endringer i informasjon tidligere gitt av brukeren.

Hva er prosessen og tidslinjen som kreves for et selskap som ønsker å lansere en samtale-AI-bot med PolyAI?

Vi er her for å tilby stemmeassistenter som har en konkret innvirkning på virksomheten. Så vi starter hvert engasjement med en oppdagelse der vi hjelper kunder med å identifisere og artikulere deres CX-mål, nøkkeltall og støtteprosesser. Det er her vi kartlegger reisene stemmeassistenten trenger for å veilede kundene gjennom. Dette, pluss vår ferdigtrente ConveRT-modell, betyr at vi ikke trenger store mengder samtaledata fra klienter.

Derfra er vi i stand til å utvikle en stemmeassistent med svært lite input som trengs fra klienten, så det er slett ikke krevende for interne IT-team.

Avhengig av kompleksiteten kan vi samle opp et verdibevis på så lite som 2 uker, og en fullverdig distribusjon på 2 måneder.

Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke PolyAI.

En grunnlegger av unite.AI og et medlem av Forbes teknologiråd, Antoine er en futurist som brenner for fremtiden til AI og robotikk.

Han er også grunnleggeren av Securities.io, et nettsted som fokuserer på å investere i forstyrrende teknologi.