stubbur Dr. Neil Yager, stofnandi og yfirvísindamaður Phrasee - Viðtalssería - Unite.AI
Tengja við okkur

viðtöl

Dr. Neil Yager, stofnandi og yfirvísindamaður Phrasee – Viðtalsþáttaröð

mm
Uppfært on

Dr. Neil Yager er yfirvísindamaður Frasa, og arkitekt Phrasee aðferðarinnar, gervigreindar-knúið auglýsingatextahöfundarverkfæri sem hefur hjálpað til við að hámarka markaðssetningu fyrir sum af þekktustu vörumerkjum heims, þar á meðal eBay, Groupon og Virgin – auk margra fleiri, frá Ástralíu til Ameríku, í yfir 20 tungumál, frá ensku til japönsku.

Dr. Yager hefur skrifað yfir tugi fræðilegra rita, skrifaði bók um gagnavinnslu, og hefur nokkur einkaleyfi. Sem einn fremsti sérfræðingur heims í markaðssetningu gervigreindar er hann með doktorsgráðu í tölvunarfræði frá háskólanum í Nýja Suður-Wales í Ástralíu.

Þú ert 20 ára öldungur í tækniiðnaðinum, hver voru nokkur af fyrri gervigreindum hlutverkum þínum? 

Ég hef tekið þátt í gervigreindartengdri vinnu síðan ég doktorsprófi um miðjan 2000. Hins vegar hefur sviðið farið í gegnum nokkrar endurmerkingar síðan þá. Til dæmis lærði ég fyrir 15 árum „tölfræðilega mynsturgreiningu“. Nokkrum árum síðar var þetta oftar þekkt sem „vélanám“, sem er miklu meira grípandi nafn. Nýlega hefur vélanám (og „djúpt nám“ sérstaklega) orðið samheiti við „gervigreind“ almennt. Ég hef blendnar tilfinningar til þessa. Annars vegar hafði starf mitt með Phrasee kennt mér mikilvægi vörumerkis. Á hinn bóginn, hugtakið „gervigreind“ kemur með farangur með sér og getur leitt til ranghugmynda um tæknina. Ég velti því fyrir mér hvar við værum ef við værum öll enn að kalla það „tölfræðilega mynsturgreiningu“.

Mest af fyrri störfum mínum var á sviði merkjavinnslu og tölvusjónar. Ég hafði ekki mikla útsetningu fyrir náttúrulegri málvinnslu fyrir Phrasee. Ég hef síðan lært að tungumál er líklega erfiðasta vandamálið í gervigreind.

 

Árið 2008 skrifaðir þú saman bók sem heitir 'Líffræðileg tölfræðikerfi og gagnagreining: Hönnun, mat og gagnavinnsla', sem brúar þætti tölfræði og vélanáms til að veita yfirgripsmikla leiðbeiningar um að meta, túlka og skilja líffræðileg tölfræðigögn. Fyrir utan fleiri tölvuauðlindir, telur þú að þetta svið hafi þróast síðan þessi bók kom út? Gætirðu lýst því hvernig? 

Djúpnám hefur rokkað svið tölvusjónar, málvinnslu og vélanáms síðan ég skrifaði þá bók. Það væri ekki hægt að skrifa þá bók í dag án kafla um djúpt nám.

Djúpnámsbyltingin tók virkilega við sér árið 2012 þegar djúpnámsmódel vann keppni sem kallast ImageNet. ImageNet er gagnasafn fyrir sjónræna hlutgreiningu þar sem tölvan ákvarðar hvað er í mynd (td „hundur“ eða „blöðru“). Í áratugi höfðu vísindamenn náð stigvaxandi hagnaði á viðmiðunargagnasöfnum sem þessum. Hvert undirsvið starfaði sjálfstætt og treysti að miklu leyti á sérfræðiþekkingu léns. Næstum á einni nóttu voru allar gerðir, sem smíðaðar voru af vandvirkni í mörg ár, úreltar. Djúpnámsreiknirit hannað af utanaðkomandi aðilum unnu keppnir með miklum mun. Þetta breytti gervigreindariðnaðinum.

Svæðið er enn á hraðri ferð og hefur þróast jafnvel síðan Phrasee hófst fyrir örfáum árum. Til dæmis voru djúpnámstækin sem við treystum á núna ekki einu sinni til þegar við stofnuðum fyrirtækið. Hraði nýsköpunar hefur í för með sér áskoranir.

 

Gætirðu deilt með okkur hvað það er sem Phrasee getur gert fyrir fyrirtæki? 

Phrasee leysir tvö vandamál fyrir fyrirtæki. Í fyrsta lagi er vandamálið við að skrifa markaðsafrit. Það eru fleiri auglýsingarásir núna en nokkru sinni fyrr (td tölvupóstur, AdWords, samfélagsmiðlar, prentaðir, podcast osfrv.). Það er erfitt að skrifa afrit fyrir allt þetta sem er hágæða og samræmist stíl vörumerkisins og raddblæ. Phrase tekur á stærðarvandanum með því að búa til afrit sjálfkrafa. Í öðru lagi er mikilvægt að allt tungumálið sem notað er skili árangri. Phrasee býr ekki aðeins til tungumál heldur notar það einnig vélanám til að spá fyrir um áhrif skilaboðanna og hagræða í samræmi við það.

 

Hvað var það sem laðaði þig að hugmyndinni um að nota Natural Language Processing (NLP) og Deep Learning til að bæta kraft auglýsingatexta? 

Að nota gervigreind til að hámarka áhrif stafrænna markaðsherferða er ekki ný hugmynd. Það eru teymi fólks með doktorsgráðu í eðlisfræði sem hefur verið ráðið til að vinna að hagræðingu auglýsinga. Hins vegar eru þeir í flestum tilfellum að einbeita sér að rannsóknum og þróunarviðleitni sinni að hlutum eins og skiptingu áhorfenda, sérstillingu, afhendingartíma, staðsetningu auglýsinga, leturgerð o.s.frv. Þegar við vorum fyrst að spreyta okkur á hugmyndum um Phrasee tókum við eftir því að verið er að fínstilla nánast allt varðandi auglýsingar nema raunverulegt tungumál sem er notað! Við greindum þetta sem skarð á markaðnum og mikið tækifæri.

 

Phrasee er fær um að bæta markaðsafrit á yfir 20 tungumálum, þar á meðal japönsku. Gætirðu rætt um nokkur af þeim einstöku vandamálum sem snerta náttúruleg málvinnsla sem koma upp í erlendum tungumálum? 

Nýjasta viðbótin við sett af studdum tungumálum okkar er rússneska. Þetta er slavneskt tungumál og það er alveg frábrugðið öðrum indóevrópskum málum. Í þessu tilviki var nauðsynlegt að byggja nýjar reglur inn í tungumálaframleiðslukerfi okkar þannig að framleiðslan væri reiprennandi og málfræðilega rétt. Þetta er ekki bara tungumálamál. Það er líka hugbúnaðarþróunarmál. Þegar framleiðsla kerfisins okkar er á móðurmáli þróunaraðila er tiltölulega auðvelt að koma auga á villur og sannreyna að allt virki rétt. Hins vegar, þegar við vinnum á rússnesku eða japönsku, gætum við verið að gefa út vitleysu og höfum ekki hugmynd um það. Mikilvægt er að móðurmálsmaður sé náinn þátt í QA ferlinu.

Áskorunin snýst ekki bara um erlend tungumál. Það er líka áhugaverður svæðisbundinn munur. Til dæmis hefur enska stafsetningarafbrigði fyrir Bandaríkin, Bretland, Ástralíu, Kanada o.s.frv. Ennfremur er málfræðilegur munur. Á breskri ensku „kíkirðu“ en á amerískri ensku „kíkirðu“. Merking orða getur líka verið mismunandi eftir stöðum. „gúmmí“ er strokleður í Bretlandi, en smokkur í Norður-Ameríku! Til þess að NLG kerfi séu notuð fyrir viðskiptaforrit þurfa þau að höndla allar þessar fíngerðir.

 

Gætirðu líka deilt smá upplýsingum um hvernig djúpt nám er notað í Phrasee? 

Það eru 2 helstu gervigreindarþættir í tækni Phrasee. Sú fyrsta er Natural Language Generation (NLG), sem í raun framleiðir tungumál. Annað er djúpt nám og áherslan hér er á frammistöðu. Frammistaða getur þýtt mismunandi hluti eftir samhengi. Til dæmis er markmiðið með efnislínu tölvupósts að tæla viðtakandann til að opna tölvupóstinn og sjá innihaldið inni. Fyrir Facebook gæti markmiðið verið að hámarka líkar eða deilingar. Miðað við mikið magn af sögulegum gögnum er hægt að finna fíngerða strauma og mynstur sem maðurinn myndi aldrei taka eftir. Þetta er staðlað vélanámsvandamál.

Djúpnám býður upp á nokkra kosti fram yfir hefðbundna vélanámsaðferð. Með hefðbundnu vélanámi er mikil áhersla lögð á „eiginleikaverkfræði“. Þetta þýðir að verktaki þarf að ákveða hvað þeir telja að séu mikilvægustu eiginleikar tungumálsins. td orð, lengd, emoji notkun, osfrv. Vandamálið er að þetta takmarkast af kunnáttu og hugmyndaflugi verkfræðingsins. Hins vegar, með djúpu námi, er hrátextinn færður inn í líkanið og hann byggir upp sína eigin vélræna framsetningu á tungumáli (þetta er þekkt sem nám frá enda til enda). Þess vegna er það laust við mannlega hlutdrægni og það er öflug nálgun. Hins vegar er gallinn sá að það getur verið erfitt að skilja hvers vegna líkanið hegðar sér eins og það gerir. „Skýranleiki“ er virkt rannsóknarsvið innan djúpnámssamfélagsins. Hins vegar er grundvallarviðskipti á milli þess hversu flókið kerfi er og getu okkar til að skilja það. Tungumál manna er sóðalegt, þannig að árangursríkar NLP lausnir eru yfirleitt mjög flóknar.

 

Einn af eiginleikum Phrasee er hæfileikinn til að skrifa í einstökum tón vörumerkis, gætirðu útskýrt nánar hvernig þetta er framkvæmt? 

Þegar við skráum nýjan viðskiptavin er það fyrsta sem við gerum að safna upplýsingum um samskiptastíl vörumerkis þeirra. Þetta felur í sér allar formlegar vörumerkjaleiðbeiningar, sögulegar markaðsherferðir og röð spurningalista sem við höfum þróað í þessu skyni. Allar þessar upplýsingar eru notaðar af innanhúss teymi tungumálatæknimanna til að byggja upp „tungumálalíkan“ fyrir viðskiptavini. Tungumálalíkönin okkar eru skapandi, sem þýðir að þau geta framleitt tungumál sem aldrei hefur sést áður í einstökum stíl viðskiptavinarins.

Hægt er að uppfæra tungumálalíkön hvenær sem er. Til dæmis, eins og er, erum við á hátindi COVID-19 kreppunnar. Tungumálateymi okkar er að fara yfir líkönin okkar til að ganga úr skugga um að ekki sé hægt að búa til óviðeigandi tungumál. Setning eins og „Þessi tilboð eru að verða veiru!“ gæti hafa verið skaðlaus fyrir nokkrum mánuðum en er greinilega óviðeigandi í miðri heimsfaraldri. Þetta sýnir sveigjanleika kerfisins okkar.

 

Hvers konar gögn þarf fyrirtæki sem vill byrja með Phrasee? 

Satt að segja þarf ekki mikið af gögnum til að byrja með okkur. Fyrsta skrefið er að finna viðeigandi verkefnissvæði. Til dæmis gæti þetta verið efnislínur fyrir vikulega kynningarpósta. Helst mun þetta hafa tiltölulega stóran markhóp og samskipti verða regluleg. Þegar verkefnið hefur verið skilgreint þurfum við upplýsingar um fyrirhugað efni og vörumerkjarödd til að byggja upp tungumálalíkanið. Phrase þarf stöðugt árangursniðurstöður. Þar sem lausnin okkar notar vélanám er mikilvægt að við mælum og rekjum lykilmælikvarða með tímanum. Þessar upplýsingar eru færðar aftur inn í kerfið okkar þannig að það geti stöðugt fínstillt fyrir þátttöku.

 

Er eitthvað annað sem þú vilt deila um Phrasee? 

Þegar Parry, Victoria og ég stofnuðum Phrasee fyrir fimm árum síðan vorum við viss um að það væri bara tímaspursmál hvenær fullt af öðrum sprotafyrirtækjum kæmu upp með svipaðar vörur. Áætlun okkar var að stökkva á keppnina og vera skrefinu á undan. Hins vegar höfum við verið hissa á skorti á þátttakendum í þetta rými. Hvar eru allir hinir? Ég held að það séu nokkrar ástæður fyrir þessu en ein helsta er að tungumálið er svo erfitt vandamál. Mig grunar að aðrir hafi reynt að búa til svipaðar vörur en mistekist snemma á rannsóknar- og þróunarstigi. Þetta er til marks um hversu einstök tækni okkar er.

Þakka þér fyrir upplýsandi viðtal um náttúrulega málvinnslu, náttúruleg tungumálamyndun og djúpt nám. Til að læra meira geta gestir heimsótt Frasa.

Stofnfélagi unite.AI og meðlimur í Forbes tækniráð, Antoine er a framúrstefnu sem hefur brennandi áhuga á framtíð gervigreindar og vélfærafræði.

Hann er einnig stofnandi Verðbréf.io, vefsíða sem leggur áherslu á að fjárfesta í truflandi tækni.