Hevpeyvîn

Dan O'Connell, Berpirsiyarê Stratejiyê li Dialpad - Rêzeya Hevpeyvînê

Demê on March 8, 2021

Dan li ser Karmendê Dahatiyê ye dialpad. Berê, ew CEO yê TalkIQ bû, destpêkek nasîna axaftinê ya rast û pêvajokirina zimanê xwezayî ya ku Dialpad di Gulana 2018-an de bi dest xistibû.

dialpad platformek pêwendiya ewr-hêza AI-ê ye ku girêdan û hevkariya bi tîmê we re hêsantir û bikêrtir dike

Hûn berê CEO yê TalkIQ bûn, destpêkek nasîna axaftinê ya rast û pêvajokirina zimanê xwezayî ya ku Dialpad di Gulana 2018-an de bi dest xistibû. Çi sosê efsûnî li pişt vê destpêkê bû ku hişt ku ew di teknolojiya naskirina axaftinê de ewqas serfiraz be ?

Ew tevliheviyek ji gelek tiştan bû: dem, mirov û baldarî. Teknolojiya naskirina axaftinê ya otomatîkî (ASR) ne nû ye, ew bi dehsalan e - ji ya ku mirov difikire pir dirêjtir e. Di vê demê de (û, bêtir, pênc salên dawîn), teknolojiya ASR ji zêdebûna hêza hesabkirinê, ewr, hebûna daneyan û pejirandina girseyî ya axaftvanên jîr li bazarên xerîdar sûd werdigire. Van tiştan hemî bûne sedema zêdebûna rastbûna transkripsiyonê.

Li ser wan meylan, em jî bextewar bûn ku pisporan (wek zimannasî) bi hackeran re bikin yek. Û gava ku ez dibêjim hacker, mebesta min endezyarên ku dikarin zû hilberan bigihînin bazarê - ew nûbûnê dimeşînin û pirsgirêkan zû çareser dikin. Û her çend dibe ku ew her gav ne çareseriyên herî xweşik bin, ew bi gelemperî zûtirîn in û destûrê didin we ku hûn wekî nûjenkerek li ser qeraxa xwînê were dîtin - ku ev dibe tiştek ku hûn dikarin ji nihêrînek kirrûbirra û firotanê bi kar bînin. Dema ku hûn destpêka xwe ava dikin û hewl didin ku drav berhev bikin ev çîrok baş dilîze.

Ji ber vê yekê, me di warê pispor de, meylên xwezayî yên li sûkê, okyanûsek şîn a girseyî dema ku ew tê ser sepandina teknolojiyê di pargîdaniyê de û tîmek bi rêgezek ku teknolojiya nûjen bi tevgerên GTM-ya dubarekirî tîne bazarê, hebûn.

Herî dawî jî ji bo çareserkirina pirsgirêkê me rêgezeke cuda girt. Motorên transkrîpsiyonê yên kevneşopî mîna qeydên kasê dixebitin. Hûn bangek tomar dikin; hûn pelê deng hilînin; we ew bi motora xweya transkrîpsiyona xwe datîne; û demek şûnda hûn hilberîna xwe bistînin. Di destpêkê de, têlefonek 30 hûrdemî dê 30 hûrdeman bigire ji bo veguheztinê, ji ber vê yekê hûn behsa derengiyên rastîn di pîvanê de dikin.

Me xwest ku em wê pirsgirêkê çareser bikin û motorek veguheztinê an rast-demê ya ku hewcedariya pelê dengî nake ava bikin. Dibe ku ev îro hinekî roman xuya bike, lê sal berê motorek streaming tune bû ku bikaribe 8khz-ya dirêj-dem-demê bi rê ve bibe (ku awayê min ê xweş e ku ez di wateyekê de bibêjim dengê neqalîteya belengaz, ango, ne qalîteya stereo - 44khz) deng . Me nexwest kasetek çêkin.

Me dixwest ku motorek rast-dem ava bikin da ku danûstandinan fam bikin û analîz bikin. Ger me karîba wiya bikira, wê hingê dê derfet bêdawî bin ji ber ku hûn hingê dikarin dest bi otomatkirina karûbaran bikin û her cûre tiştên xweş ên ku berê nehatine kirin bikin. Û spasiyên mezin ji Jim Palmer, Etienne Manderscheid, Kevin James, Noah Gaspar û hejmarek kesên din re ji ber ku ew yekem in ku ev celeb motora rast-dem ava dikin.

Ma hûn dikarin serdema veguheztinê nîqaş bikin piştî ku Dialpad di Gulana 2018-an de TalkIQ bi dest xist?

Qonaxa bidestxistinê bi rastî pir bêkêmasî bû. Dialpad hevkarek TalkIQ bû û tîmên hilberên me jixwe heftane li Dialpad li cîh bûn. Û, min berê bi hev-damezrînerên Craig Walker û Brian Peterson re li Google-ê re xebitîbû û ji îhtîmala ku ez bi wan re tîmê bikim kêfxweş bûm.

Me hemîyan pêşeroj bi heman rengî dît ku van teknolojiyên (ASR / NLP) yên ku di platformek ragihandinê / hevkariyê de têne hilanîn dikarin li sûkê têk bibin û ji bo karsaziyan guheztina lîstikê bikin. Ev beşek ji vê yekê ye ku, hema di cih de, piştî girtina destkeftiyê me dora 50M $ ku ji hêla ICONIQ ve hatî rêber kirin rakir. Veberhêner di serîlêdana pêşerojê ya teknolojiyê û tîmê ku li ser van pirsgirêkan dixebitin de fersendek dît.

Li TalkIQ, em di bingeh de destpêkek bûn ku hewl dida yekcar bibin sê destpêkek cihê: Me stûka xweya têlefonê, motora naskirina axaftinê û teknolojiya NLP ya hundurîn ava dikir. Ev sê pirsgirêkên dijwar in ku meriv fêm bike. Dialpad berê bi serfirazî di warê têlefonê de şikandibû, ji ber vê yekê gava ku pêşniyara wergirtinê hat, ew biryarek hêsan bû. Me Dialpad wekî platforma danûstendina karsaziyê ya herî nûjen a li cîhê dît, û vîzyona me ya ji bo dahatûya danûstendinên karsaziyê bi rastî baş li hev kir.

Hin teknolojiyên fêrbûna makîneyê yên cihêreng ên ku li Dialpad têne bikar anîn çi ne?

Motora meya îstîxbarata Dengê ya xwecihî (Vi™) AI û ML-ê bi kar tîne da ku alîkariya rêxistinan bike ku firotanê bimeşînin, têgihîştinên pêşbaziyê bistînin, karûbarê xerîdar bilind bikin û civînên serhêl bikêrtir bikin.

Teknolojiyên ASR û NLP ji TalkIQ têne bikar anîn da ku danûstendinên ji bangên deng û vîdyoyê di demek rast de bigirin. Di heman demê de, teknolojiya meya xwedan rê dide me ku em daneyên danûstendinê yên gihîştî bişopînin û bi rasthatina pêşeng-pîşesaziyê wê bi rengekî hêsan-xwendinê bi rêkûpêk bigirin û binivîsînin.

ML-ya çêkirî ji Vi re dibe alîkar ku bi demê re çêtir bibe. Her ku hûn Vi bikar bînin, ew bêtir fêr dibe û ew di pêvajokirina danûstandinan de çêtir dibe. Bi demê re, dê veguheztinên bangê di rastbûna xwe de zêde bibin, û Vi dê bikaribe hûrgelên naziktir ên danûstendinan bike.

Dialpad di van demên dawî de piştî analîzkirina zêdetirî yek mîlyar hûrdeman dengek girîng a AI-ê bi dest xist, ceribandinên pîvandinê destnîşan kirin ku modela veguheztina Dialpad ji pêşbaziyên sereke derbas kir, di nav de modela têlefonê ya pêşkeftî ya Google jî. Ji bo pîvandina van encaman çi celeb ceribandin hatin kirin?

Me berhevokek ceribandinên ceribandinê hene ku deng û pevnivîsa pê re vedihewîne ku rastiya zemînê ya ku di dengbêjê de hatî gotin tê hesibandin. Em heman dengî ji her hevrikek re dişînin û paşnivîsek werdigirin, ku em dûv re bi rastiya erdê re berhev dikin. Em hejmara xeletiyan hesab dikin da ku rêjeyek rastbûnê diyar bikin. Me ji wergirtina TalkIQ-ê di Nîsana 2018-an û vir ve xwe bi Google-ê re dan ber hev, û heya nuha her gav rastbûnek kêmtir bû.

Hin cûdahiyên sereke yên li pişt motora xwedaniya Dialpad-ê ya Intelligence (Vi™) û motorên pêşbaziyê çi ne?

Yek ji cûdahiyên herî mezin ev e ku me ji hevrikan dirêjtir viya kiriye, yanî me bêtir daneyan analîz kiriye da ku pê ewle bibin ku teknolojiya me ya herî rast e. Me zêdetirî yek mîlyar hûrdeman pêwendiya dengî analîz kiriye û mehê bi motora xweya Vi-yê bi qasî 90 mîlyon hûrdeman pêvajoyê didomînin. Di vî warî de em bi rastî bi salan li pêş pêşbirkê ne.

Cûdahiyek din nêzîkatiya meya xwerû û berbelavkirî ya modelên zimên e. Ji bo her xerîdar, em databasek ji peyvên sereke yên pargîdaniyê ava dikin da ku em karibin bişkojka keyeyê bikin da ku rastbûnê zêde bikin. Mînakî, ji bo bikarhênerek ku navê xwe "Kathryn" dinivîse û di pargîdaniyek bi navê Skribbl de dixebite, pergala me dê navên xwerû rast binivîsîne, lê modelên din îhtîmal e ku wan çawa dengê wan binivîsin (ango: "Katherine" û "scribble" ).

Nêrînên we yên kesane li ser paşeroja hilanîna zimanê xwezayî çi ne? Kengî heya ku AI bigihîje nêzîkê 100% an jî 100% rastbûna?

Rastiya bêkêmasî nêzîkê nayê bidestxistin. Belkî, rojek ez ê şaş bim (Ez hêvî dikim!). Ez difikirim ku em ê pir, pir nêzîk bibin lê ne bêkêmasî. Sedem ev e ku naskirina axaftinê ya otomatîkî (û dûv re NLP) pirsgirêkên hema hema bêsînor hene ku bêne çareser kirin: devok, nêzîkbûna mîkrofonan, dengê paşîn, pirsgirêkên pêwendiyê, cûreyên cûda yên mîkrofonan, kesek çiqas zû diaxive, ragihandin, çarçove (Sara vs Sarah vs Serra), kurtenivîs, zargotin û hwd. Digel ku ez hez dikim bibêjim em ê bigihîjin wir, ez difikirim ku em dikarin pir nêzîk bibin, lê mîleya paşîn, an jî 1-2% di warê rastbûnê de, dê dijwar be.

Wê got, ez difikirim ku dê di xwendinê de hin pêşkeftinên bi rastî balkêş hebin. Îro, gava ku hûn veguheztinek danûstendinê binirxînin, ew dikare mîna tîrêjek hişmendiyê bixwîne. Em bi xwezayê bi rengekî herikbar dipeyivin, hevokên bez bi kar tînin, peyvan dubare dikin, hevokan ji nû ve dest pê dikin - em her cûre tiştên ku em ê bi rengekî nivîskî nekin dikin. Hin fersendên bêhempa hene dema ku dor tê ku guhertoyek jêhatîtir were xwendin - ya ku rengdêran radike, pêşbînî dike an baştir dike û lêkûpêk dike an xweştir dike ku transkrîptê jêhatîtir be.

Di hişê min de, du guherto hene: guhertoya devkî ya ku bi qasî 100% ku hûn dikarin ji danûstendinê werbigirin e (diqewimin û hemî), û dûv re guhertoyek pêşkeftî heye ku ji ber xalbendî û xalbendiyê pir hêsantir tê xêzkirin optimizations.

Û ev wê hingê me ber bi rê ve dibe ku gelo em dikarin danûstendinê li beşên wê yên herî watedar sentez bikin? Ma ji we re transkriptek bêkêmasî lazim e an ji we re sînopsîsek rastîn a ku ji bo xwendinê hatî çêkirin hewce ye?

Ew bê guman bi doza karanîna we ve girêdayî ye, lê tiştê ku di vê cîhê de balkêş û balkêş e ev e. Em belkî di qonaxa sêyemîn a tiştê ku mimkun e de ne û me neketiye nav nûjeniya karûbarên ku em ê bibînin ku NLP bêtir "agahdar-agahdar" dibe, mîna karanîna danûstendinên berê ji bo baştirkirina rastbûnê.

Di çarçoveya taybetî de pêdivî ye ku model jê fêr bibin, çêtir e. Bifikirin ku heman çarçovê li ser gelek danûstendinan parve bikin û bi domdarî ji bo ku ML jîrtir bibe çarçoveyek adapte bike. Teknolojiya hay ji hevokê di heman demê de ji bo baştirkirina rastbûnê jî girîng e ku cûdahiyên mezin di awayê danûstendina me de dihesibînin. Tiştê ku ji mirovan re wekî cûdahiyên zimanî yên nazik xuya dike pir dijwar e ku meriv modelek ML-yê dubare bike.

Hin ji wan karûbarên ku Dialpad niha pêşkêşî xerîdaran dike çi ne?

Dialpad ji bo xebatê rêyek jîrtir e. Me platformek ji bo hêza xebatkar a nûjen, hevberî ya îroyîn ava kir - hêz dide mirov û tîmê ku ji her deverê cîhanê bikêrtir, bibandor û tevlê bibin. Em ezmûnek pêwendiya karsaziyê ya bêkêmasî - bangkirin, sohbet, konfêransa vîdyoyê û navendên bangê - bi kalîte, ewlehî û pêbaweriya bêhempa peyda dikin. Dialpad wê ezmûnê wekî platformek yekbûyî, ewr-based ku aborî ye, bi cîhkirina hêsan, û birêvebirina wê hêsan e peyda dike.

Tiştek din heye ku hûn dixwazin di derbarê Dialpad de parve bikin?

2020 ji bo pargîdaniyê salek berbiçav bû, ku bi rastî ecêb e ku meriv li ser tiştê ku cîhan ceriband (û ceribandina xwe berdewam dike) bifikire. Me hejmara serê xwe du qat kir, 100 mîlyon dolar dirav peyda kir, pargîdaniyek kir û wusa kir ku bingeha xerîdarên me qat bi qat mezin bû.

Li gel xebata dûr a ku li vir bimîne, em hêvî dikin ku ev mezinbûn berdewam bike, û em ji bo sala pêş me kêfxweş in. Em bawer dikin ku xebata ji her derê tevgerê dê hewceyê teknolojiyên nûjen ên ku ji karmendan re dibe alîkar ku biaqiltir bixebitin - ne dijwartir zêde bike. Pargîdan dê berê xwe bidin AI-ê da ku karbidestan xweş bikin, peywirên rojane ji holê rakin û rê bidin karmendan ku bala xwe bidin ser pêşîniyên mezintir. Dialpad ji bo bicihanîna van hewcedariyên xweş e.

Spas ji bo hevpeyivîna hêja, xwendevanên ku dixwazin bêtir fêr bibin divê biçin dialpad.