stubbur Dan O'Connell, yfirmaður stefnumótunar hjá Dialpad - Interview Series - Unite.AI
Tengja við okkur

viðtöl

Dan O'Connell, yfirmaður stefnumótunar hjá Dialpad – Interview Series

mm
Uppfært on

Dan er skattstjóri hjá Hringiborð. Áður var hann forstjóri TalkIQ, rauntíma talgreiningar- og náttúrulegs málvinnslu sprotafyrirtækis sem Dialpad keypti í maí 2018. Áður en TalkIQ starfaði gegndi hann ýmsum söluleiðtogastöðum hjá AdRoll og Google.

Hringiborð er gervigreindarsamskiptavettvangur í skýi sem gerir það auðveldara og skilvirkara að tengjast og vinna með teyminu þínu

Þú varst áður forstjóri TalkIQ, rauntíma talgreiningar og náttúrulegs málvinnslu sprotafyrirtækis sem Dialpad eignaðist í maí 2018. Hver var töfrasósan á bak við þetta sprotafyrirtæki sem gerði það kleift að ná svo árangri í talgreiningartækni ?

Þetta var sambland af mörgum hlutum: tímasetningu, fólki og einbeitingu. Sjálfvirk talgreining (ASR) tækni er ekki ný, hún hefur verið til í áratugi - miklu lengur en fólk heldur. Á þessum tíma (og meira að segja síðustu fimm árin) hefur ASR tæknin notið góðs af aukinni tölvuafli, skýinu, framboði gagnasafna og fjöldaupptöku snjallhátalara á neytendamörkuðum. Allt þetta hefur leitt til aukinnar nákvæmni umritunar.

Ofan á þessa þróun vorum við líka svo heppin að sameina sérfræðinga (eins og málvísindi) og tölvuþrjóta. Og þegar ég segi tölvusnápur á ég við verkfræðinga sem geta fljótt komið vörum á markað - þeir knýja fram nýsköpun og leysa vandamál fljótt. Og þó að þær séu kannski ekki alltaf glæsilegustu lausnirnar, þá eru þær venjulega þær hraðvirkustu og gera þér kleift að líta á þig sem frumkvöðul á blæðandi brún - sem verður eitthvað sem þú getur nýtt þér frá markaðs- og sölusjónarmiði. Sú saga spilar vel þegar þú ert að byggja upp sprotafyrirtækið þitt og reyna að safna peningum.

Þannig að við höfðum sérfræðinga á þessu sviði, náttúrulega þróun á markaðnum, gríðarlegt blátt haf þegar kemur að því að beita tækninni í fyrirtækinu og teymi með afrekaskrá í að koma nýstárlegri tækni á markað með endurteknum GTM hreyfingum.

Að lokum tókum við aðra nálgun til að leysa vandamálið. Hefðbundnar umritunarvélar virkuðu eins og segulbandsupptökur. Þú tekur upp símtal; þú vistar hljóðskrána; þú setur það í gegnum umritunarvélina þína; og einhvern tíma seinna færðu úttakið þitt. Upphaflega myndi 30 mínútna símtal taka 30 mínútur að afrita, þannig að þú ert að tala um raunverulegar tafir í stórum stíl.

Við vildum leysa það vandamál og byggja upp streymis- eða rauntíma umritunarvél sem þarf ekki hljóðskrá. Þetta hljómar kannski dálítið nýstárlegt í dag, en fyrir mörgum árum var engin streymisvél sem gat séð um 8khz í rauntíma (sem er fín leið mín til að segja léleg hljóðgæði í þeim skilningi, þ.e. ekki hljómtæki gæði - 44khz) hljóð . Við vildum ekki smíða segulbandstæki.

Okkur langaði að smíða rauntímavél til að skilja og greina samtöl. Ef við gætum það þá væru tækifærin óendanleg því þá er hægt að fara að gera sjálfvirkan verkflæði og gera alls konar flotta hluti sem hafa ekki verið gerðir áður. Og mikill heiður til Jim Palmer, Etienne Manderscheid, Kevin James, Noah Gaspar og fjölda annarra fyrir að vera fyrstir til að smíða þessa tegund af rauntímavélum.

Gætirðu rætt umbreytingartímabilið eftir að Dialpad keypti TalkIQ í maí 2018?

Kaupfasinn var í raun frábær óaðfinnanlegur. Dialpad var samstarfsaðili TalkIQ og vöruteymi okkar voru þegar á staðnum á Dialpad vikulega. Og ég hafði áður unnið með stofnendunum Craig Walker og Brian Peterson hjá Google og var spenntur fyrir því að fara í lið með þeim.

Við sáum öll framtíðina á sama hátt að því leyti að þessi tækni (ASR/NLP) innbyggð í samskipta-/samstarfsvettvang gæti verið truflandi fyrir markaðinn og breytt leik fyrir fyrirtæki. Þetta er hluti af ástæðunni fyrir því að næstum strax, eftir að við lokuðum kaupunum, söfnuðum við $50M lotu undir forystu ICONIQ. Fjárfestar sáu tækifærið í framtíðarbeitingu tækninnar og teymið sem vann að þessum vandamálum.

Hjá TalkIQ vorum við í grundvallaratriðum sprotafyrirtæki sem reyndum að vera þrjú mismunandi sprotafyrirtæki í einu: Við vorum að byggja upp okkar eigin símastafla, talgreiningarvél og innri NLP tækni. Þetta eru þrjú vandamál sem erfitt er að finna út úr. Dialpad hafði þegar tekist að klikka á símtæknihliðinni, svo þegar kauptilboðið kom var það auðveld ákvörðun. Við litum á Dialpad sem nýstárlegasta viðskiptasamskiptavettvanginn á svæðinu og framtíðarsýn okkar í viðskiptasamskiptum féll mjög vel saman.

Hvaða mismunandi vélanámstækni er notuð á Dialpad?

Innfæddur raddgreindarvél (Vi™) okkar nýtir gervigreind og ML til að hjálpa fyrirtækjum að keyra sölu, öðlast samkeppnishæfni, efla þjónustu við viðskiptavini og halda skilvirkari fundi á netinu.

ASR og NLP tækni frá TalkIQ er notuð til að taka samtal úr rödd og myndsímtölum í rauntíma. Á sama tíma gerir sértækni okkar okkur kleift að vinna úr innkomnum samtalsgögnum og ná nákvæmlega og umrita þau með leiðandi nákvæmni í iðnaði á auðlesanlegt snið.

Innbyggt ML hjálpar Vi að bæta sig með tímanum. Því meira sem þú notar Vi, því meira lærir það og því betra verður það við að vinna úr samtölum. Með tímanum munu símtalarit aukast að nákvæmni og Vi mun geta unnið úr fíngerðari blæbrigðum samtölanna.

Dialpad náði nýlega stórum AI áfangi eftir að hafa greint meira en einn milljarð mínútna radd, viðmiðunarpróf sýndu að uppskriftarlíkan Dialpad fór fram úr helstu keppinautum, þar á meðal endurbætt símalíkan Google. Hvers konar prófanir voru gerðar til að mæla þessar niðurstöður?  

Við erum með safn af prófunarsettum sem innihalda hljóð og meðfylgjandi afrit sem er talið grunnsannleikurinn um það sem sagt var í hljóðinu. Við sendum sama hljóð til hvers keppanda og fáum afrit til baka, sem við berum svo saman við sannleikann. Við reiknum út fjölda villna til að ákvarða nákvæmni prósentu. Við höfum verið að bera okkur saman við Google frá kaupunum á TalkIQ í apríl 2018 og höfum alltaf haft minni nákvæmni fram að þessu.

Hverjir eru nokkrir helstu aðgreiningaraðilarnir á bakvið Dialpads eigin Voice Intelligence (Vi™) vél og samkeppnisvélar?

Einn stærsti aðgreiningarþátturinn er að við höfum gert þetta lengur en samkeppnisaðilar, sem þýðir að við höfum greint fleiri gögn til að tryggja að tæknin okkar sé sem nákvæmust. Við höfum greint yfir einn milljarð mínútna af raddsamskiptum og höldum áfram að vinna um það bil 90 milljónir mínútna á mánuði með Vi vélinni okkar. Að þessu leyti erum við bókstaflega mörgum árum á undan samkeppninni.

Annar greinarmunur er sérsniðin og stigstærð nálgun okkar á tungumálalíkön. Fyrir hvern viðskiptavin byggjum við upp gagnagrunn með fyrirtækjasértækum leitarorðum svo við getum framkvæmt leitarorðaeflingu til að auka nákvæmni. Til dæmis, fyrir notanda sem stafar nafnið sitt „Kathryn“ og vinnur hjá fyrirtæki sem heitir Skribbl, myndi kerfið okkar stafa réttanöfnin rétt, en aðrar gerðir myndu líklega stafa þau hvernig þau hljóma (þ.e.: „Katherine“ og „krota“ ).

Hver er þín persónulega skoðun á framtíð náttúrulegrar málvinnslu? Hversu lengi þangað til gervigreind nær 100% eða jafnvel 100% nákvæmni?

Fullkomin nákvæmni er nánast óframkvæmanleg. Kannski, einhvern tíma verð ég hissa (ég vona það!). Ég held að við verðum mjög, mjög náin en ekki fullkomin. Ástæðan er sú að sjálfvirk talgreining (og í kjölfarið NLP) hefur næstum óendanlega vandamál að leysa: kommur, nálægð við hljóðnema, bakgrunnshljóð, tengingarvandamál, mismunandi gerðir hljóðnema, hversu hratt einhver talar, tilkynning, samhengi (Sara vs Sarah vs. Serra), skammstafanir, slangur og svo framvegis. Þó að ég myndi elska að segja að við munum komast þangað, held ég að við getum komist mjög nálægt, en síðasta mílan, eða 1-2% hvað varðar nákvæmni, verður krefjandi.

Sem sagt, ég held að það verði mjög áhugaverð þróun í læsileika. Í dag, þegar þú rifjar upp samtalsútskrift, getur það lesið eins og straumur meðvitundar. Við tölum náttúrlega á fljótandi hátt, notum keyrslusetningar, endurtökum orð, endurræsum setningar — við gerum alls konar hluti sem við myndum ekki gera í skriflegu formi. Það eru nokkur einstök tækifæri þegar kemur að því að hafa læsilegri útgáfu af afriti - sem fjarlægir uppsagnir, spáir fyrir eða bætir greinarmerki og fínstillir eða fínstillir afritið til að vera læsilegra.

Í mínum huga eru til tvær útgáfur: orðrétta útgáfan sem er eins nálægt 100% og hægt er að komast af samtali (keyrslur og allt), og svo er endurbætt útgáfa sem er mun auðveldari í meltingu vegna greinarmerkja og hagræðingar.

Og þetta leiðir okkur síðan niður á þann veg að getum við samið samtal í mikilvægustu hluta þess? Þarftu fullt afrit eða þarftu nákvæma samantekt sem er sniðin fyrir læsileika?

Það fer vissulega eftir notkunartilvikum þínum, en þetta er það sem er áhugavert og spennandi við þetta rými. Við erum kannski í þriðja leikhluta af því sem er mögulegt og við höfum ekki einu sinni komist inn í nýsköpun vinnuflæðis þar sem við munum sjá NLP verða „samhengisvitund“ eins og að nota fyrri samtöl til að bæta nákvæmni.

Því sértækara samhengi sem líkönin þurfa að læra af, því betra. Hugsaðu um að deila sama samhengi yfir mörg samtöl og aðlaga samhengið stöðugt fyrir ML til að verða betri. Samhengisvituð tækni er einnig mikilvæg til að auka nákvæmni miðað við mikinn mun á samskiptum okkar. Það sem kann að virðast lúmskur tungumálamunur fyrir mönnum er mjög erfitt að þjálfa ML líkan til að afrita.

Hver er sum þeirra þjónustu sem Dialpad býður viðskiptavinum núna?

Dialpad er snjallari leið til að vinna. Við höfum byggt upp vettvang fyrir nútíma, blendinga vinnuafl nútímans — sem styrkir fólk og teymi til að vera skilvirkara, skilvirkara og taka þátt hvar sem er í heiminum. Við bjóðum upp á óaðfinnanlega viðskiptasamskiptaupplifun - símtöl, spjall, myndbandsfundi og símaver - með óviðjafnanlegum gæðum, öryggi og áreiðanleika. Dialpad skilar þeirri upplifun sem sameinaður, skýbundinn vettvangur sem er hagkvæmur, einfaldur í notkun og auðveldur í umsjón.

Er eitthvað annað sem þú vilt deila um Dialpad?

Árið 2020 var stórkostlegt ár fyrir fyrirtækið, sem er í raun ótrúlegt að hugsa um í ljósi þess sem heimurinn upplifði (og heldur áfram að upplifa). Við tvöfölduðum starfsmannafjölda okkar, tryggðum okkur 100 milljónir dala í fjármögnun, keyptum fyrirtæki og gerðum það þegar viðskiptavinahópur okkar stækkaði gríðarlega.

Með fjarvinnu hér til að vera, gerum við ráð fyrir að þessi vöxtur haldi áfram og við erum spennt fyrir komandi ári. Við trúum því að hreyfing hvar sem er hvar sem er muni auka þörfina fyrir nýstárlega tækni sem hjálpar starfsmönnum að vinna snjallara - ekki erfiðara. Fyrirtæki munu snúa sér að gervigreind til að hagræða skilvirkni, útrýma hversdagslegum verkefnum og leyfa starfsmönnum að einbeita sér að stærri forgangsröðun. Dialpad hentar vel til að mæta þessum þörfum.

Þakka þér fyrir frábært viðtal, lesendur sem vilja læra meira ættu að heimsækja Hringiborð.

Stofnfélagi unite.AI og meðlimur í Forbes tækniráð, Antoine er a framúrstefnu sem hefur brennandi áhuga á framtíð gervigreindar og vélfærafræði.

Hann er einnig stofnandi Verðbréf.io, vefsíða sem leggur áherslu á að fjárfesta í truflandi tækni.