stomp Nikola Mrksic, medestigter en uitvoerende hoof van PolyAI - Interview Series - Unite.AI
Verbinding met ons

onderhoude

Nikola Mrksic, medestigter en uitvoerende hoof van PolyAI – Interview Series

mm

Gepubliseer

 on

Die PolyAI-span. Medestigter en uitvoerende hoof, Nikola Mrksic, is die tweede persoon voor.

Nikola Mrksic is medestigter en uitvoerende hoof van PolyAI, 'n toonaangewende verskaffer van onderneming-gereed stemassistente vir outomatiese kliëntediens.

Wat het jou aanvanklik na KI aangetrek?

Ek is van kleins af in wiskunde en rekenaarwetenskap. Tydens my studies by Cambridge het ek die kans gekry om saam met verskeie vooraanstaande masjienleernavorsers te werk, insluitend Steve Young en Zoubin Ghahramani. Steve het my oortuig om by sy begin, VocalIQ, aan te sluit om te werk aan die bou van gesproke dialoogstelsels. Later het ek uiteindelik ook 'n PhD saam met Steve gedoen en gewerk aan die bou van data-gedrewe taalbegripmodelle wat oor verskillende gebruiksgevalle en tale werk. Gespreks-KI is 'n baie harde, komplekse werkveld, met baie wetenskaplike en ingenieursdeurbrake wat ons nog voorlê, en dit het my sedertdien besig gehou.

In 2017 het jy PolyAI 'n gesels-KI-maatskappy geloods, kan jy die ontstaansverhaal agter PolyAI bespreek?

My medestigters, Shawn Wen, Eddy Su en ek het terselfdertyd ons PhD's by Cambridge gedoen. Ons het jare lank aan dialoogstelsels gewerk, maar ons het gou besef dat die soort gesofistikeerde stelsels waaraan ons gewoond was om te werk, baie min kommersiële toepassings het. Ons het dus saamgekom om 'n gespreks-KI-oplossing te skep wat voordelig sou wees in die regte wêreld. Ons het 'n geleentheid gesien vir werklik gespreks-, multi-beurt-, transaksionele dialoogstelsels wat in die alledaagse lewe met werklike mense kan kommunikeer.

Ons het op kliëntediens gefokus aangesien ons gevoel het dat huidige tegnologiese vermoëns en vereistes van kliënte goed ooreenstem.

Kan jy van die masjienleer- en natuurlike taalverwerkingstegnologieë wat gebruik word, bespreek?

Ons vernaamste geheime sous is ons stel verskillende eie enkodeerdermodelle. Ons het hulle vooraf opgelei in miljarde natuurlike gesprekke, sodat hulle opset kan onttrek, selfs wanneer die toespraak byvoorbeeld sleng of idiome gebruik. Dit is ongelooflik belangrik vir kommunikasie oor die telefoon. Kliënte praat nie in sleutelwoorde nie; hulle vertel stories, onderbreek, vra vrae en wil oor die algemeen net beheer oor die gesprek neem.

Ons het onlangs ons ConVEx-model aangekondig, 'n uiters data-doeltreffende entiteitonttrekker, wat ons in staat stel om waardes akkuraat uit gesprekke te onttrek.

Ons ASR-orkestrasieproses behels die gebruik van fyninstelling van spraakherkenningsplatforms om die geraas wat deur verskillende aksente veroorsaak word, te neutraliseer, asook fyninstelling vir verskillende kontekste.

Ons het ook 'n redelik robuuste dialoogbeleidsbiblioteek ontwikkel met vooraf ontwerpte gebruiksgevalle wat al die algemene kliëntedienstransaksies insluit, sodat ons uiters vinnig 'n nuwe stemassistent vir kliënte kan opstel.

Na jou mening, wat onderskei 'n goeie gesprek-KI-produk van 'n swak gesprek-KI?

'n Goeie produk sal konsekwent verstaan ​​wat gebruikers bedoel en sal gebruikers nooit laat herhaal nie. Oproepe gebeur dikwels in raserige omgewings, so produkte moet bestand wees teen morsige insette. Aangesien handelsmerke uitreik na groot markte, moet produkte 'n verskeidenheid aksente en maniere om bedoelings te fraseer verstaan. Albei hierdie vereis produkte om robuuste spraakherkenningsvermoëns, veerkragtige bedoelingsklassifikasie en entiteitonttrekking te waarborg.

'n Fantastiese produk sal aktief betrokke wees by gebruikers. Dit sal die gebruiker se gedagtegang volg, en in staat wees om komplekse, alledaagse gevalle te hanteer waar gebruikers moontlik verskeie voornemens en stukke inligting gelyktydig deel, en hulle kan tussen verskillende kontekste spring. Dit vereis robuuste multi-etiket klassifikasie en konteksbestuur.

'n Innemende produk sal menslike eienskappe vertoon sonder om vreemd of te robotagtig te wees. Dit beteken vinnige interaksies, opregte stemme, deurlopende terugvoeraanwysings en 'n mate van willekeurigheid en onvolmaakthede.

Laastens, 'n wonderlike gesprekke-KI-produk sal by gebruikers betrokke raak waar hulle ook al is en 'n naatlose, platformspesifieke ervaring bied, wat oor stem-, SMS-, klets- of sosiale boodskapplatforms kan strek. Die interaksieparadigma moet elke kommunikasieplatform se spesifisiteit omhels.

Wat is sommige van die voordele van maatskappye wat gespreks-KI gebruik in plaas daarvan om navrae na kletsbots te probeer stuur?

Kliënte-ervaring is van kritieke belang en het 'n sleuteldryfveer vir behoud geword. Die topprioriteit moet wees om dit vir kliënte maklik te maak om te doen wat hulle moet doen.

Die foon is steeds die meeste kliënte se voorkeurkanaal om 'n maatskappy te kontak. Tot 65% van alle klantinteraksies vind steeds oor die telefoon plaas. Tydens die COVID-19-pandemie is kontaksentrums tot die uiterstes gedryf met meer kliënte as ooit wat vir ondersteuning gevra het.

Natuurlik laat 'n wonderlike ervaring klante toe om te kommunikeer soos hulle wil, so vir almal wat asinchroniese kommunikasie verkies, maak ons ​​dit maklik vir handelsmerke om dieselfde vlak van ervaring oor tekstuele kanale te bied.

Hoeveel van 'n uitdaging is die opsporing van die bedoeling van wat 'n kliënt probeer sê?

Daar is 'n aantal uitdagings om kliënte deur stemkanale te verstaan. Om gebruikers se betekenis akkuraat en konsekwent te verstaan, vereis talle komponente om goed saam te werk.

Eerstens is spraakherkenning moeilik, veral wanneer mense bel uit lawaaierige omgewings soos wanneer hulle op luidsprekerfoon is, of wanneer hulle deur verkeer of tonnels ry. Spraakherkenning kan ook moeilik wees in streke met verskillende aksente en dialekte. Ons het 'n effektiewe manier ontwikkel om spraakherkenningsmodelle vir die gegewe konteks te bevooroordeel om spraakherkenning te optimaliseer.

Omdat ons ConveRT-model op so 'n groot hoeveelheid gespreksdata opgelei is, is dit in staat om intensie op swak seine op te spoor, net soos ons mense oor die algemeen kan verstaan ​​wat iemand sê, selfs al mis ons 'n woord of twee.

Nog 'n oorweging is om te verstaan ​​wanneer gebruikers verskeie aksies tegelyk wil aanpak. Byvoorbeeld, iemand kan sê: "Ek het my kaart verloor. Kan jy my laat weet of dit gebruik is en dit blokkeer?”. In hierdie geval moet die model twee bedoelings herken en daarop reageer in 'n volgorde wat sin maak.

Die model moet ook in staat wees om die entiteite wat deur kliënte vrywillig aangebied word, te onttrek en te verstaan. Byvoorbeeld, "het jy 'n tafel Saterdagmiddagete vir my, my vrou en ons 2 kinders?" Die bedoeling van die oppervlakvlak hier is om beskikbaarheid vir 'n tafel na te gaan, maar die model moet die datum (Saterdag) en die aantal mense (4) en enige ander potensiële inligting wat relevant mag wees, kies (miskien word kinders slegs in die restaurant toegelaat area, en kan nie by die kroeg sit nie).

Ten slotte, gesprek is nie altyd lineêr nie. Kliënte kan onderbreek met vrae wat nie verband hou met die stemassistent se aansporing nie, dus moet die assistent kan 'uitluister' vir een soort insette, terwyl hy oop is vir verskillende snellers soos algemene vrae of veranderinge aan inligting wat voorheen deur die gebruiker verskaf is.

Wat is die proses en tydlyn wat nodig is vir 'n maatskappy wat 'n gespreks-KI-bot met PolyAI wil begin?

Ons is hier om stemassistente te voorsien wat 'n tasbare besigheidsimpak het. Ons begin dus elke betrokkenheid met 'n ontdekking waar ons kliënte help om hul CX-doelwitte, sleutelmaatstawwe en ondersteuningsprosesse te identifiseer en te verwoord. Dit is waar ons die reise bepaal wat die stemassistent sal benodig om kliënte deur te lei. Dit, plus ons vooraf opgeleide ConveRT-model, beteken dat ons nie groot hoeveelhede gespreksdata van kliënte benodig nie.

Van daar af is ons in staat om 'n stemassistent te ontwikkel met baie min insette wat nodig is van die kliënt, so dit is glad nie veeleisend vir interne IT-spanne nie.

Afhangende van kompleksiteit, kan ons 'n bewys van waarde in so min as 2 weke opstel, en 'n volwaardige ontplooiing in 2 maande.

Dankie vir die puik onderhoud, lesers wat meer wil leer moet besoek aflê PolyAI.

'n Stigtersvennoot van unite.AI & 'n lid van die Forbes Tegnologieraad, Antoine is 'n futuris wat passievol is oor die toekoms van KI en robotika.

Hy is ook die stigter van Sekuriteite.io, 'n webwerf wat fokus op belegging in ontwrigtende tegnologie.