stubbur Hvað er NLP (Natural Language Processing)? - Unite.AI
Tengja við okkur

Artificial Intelligence

Hvað er NLP (Natural Language Processing)?

mm
Uppfært on

Natural Language Processing (NLP) er rannsókn og beiting tækni og verkfæra sem gera tölvum kleift að vinna úr, greina, túlka og rökræða um mannamál. NLP er þverfaglegt svið og sameinar tækni sem hefur komið á fót á sviðum eins og málvísindum og tölvunarfræði. Þessar aðferðir eru notaðar ásamt gervigreindum til að búa til spjallbotna og stafræna aðstoðarmenn eins og Google Assistant og Alexa frá Amazon.

Við skulum taka okkur tíma til að kanna rökin á bak við náttúruleg málvinnsla, sumar aðferðirnar sem notaðar eru í NLP og nokkur algeng notkunartilvik fyrir NLP.

Hvers vegna náttúruleg málvinnsla (NLP) skiptir máli

Til þess að tölvur geti túlkað mannamál þarf að breyta þeim í form sem tölva getur stjórnað. Hins vegar er þetta ekki eins einfalt og að umbreyta textagögnum í tölur. Til þess að draga merkingu úr mannamáli þarf að draga mynstur úr þeim hundruðum eða þúsundum orða sem mynda textaskjal. Þetta er ekkert auðvelt verkefni. Það eru fáar harðar reglur sem hægt er að beita við túlkun á mannamáli. Til dæmis getur nákvæmlega sama orðaflokkurinn þýtt mismunandi hluti eftir samhengi. Mál manna er flókið og oft óljóst og hægt er að segja fullyrðingu af einlægni eða kaldhæðni.

Þrátt fyrir þetta eru nokkrar almennar leiðbeiningar sem hægt er að nota þegar orð og stafi eru túlkuð, eins og stafurinn „s“ er notaður til að tákna að hlutur sé fleirtölu. Þessar almennu leiðbeiningar verða að nota í samráði við hvert annað til að draga merkingu úr textanum, til að búa til eiginleika sem vélrænt reiknirit getur túlkað.

Náttúruleg málvinnsla felur í sér beitingu ýmissa reiknirita sem geta tekið óskipulögð gögn og umbreytt þeim í skipulögð gögn. Ef þessum reikniritum er beitt á rangan hátt mun tölvan oft ekki draga rétta merkingu úr textanum. Þetta sést oft í þýðingum texta á milli tungumála, þar sem nákvæm merking setningarinnar glatast oft. Þó að vélþýðing hafi batnað verulega á undanförnum árum, koma vélþýðingarvillur enn oft fram.

Náttúruleg málvinnsla (NLP) tækni

Mynd: Tamur í gegnum WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Margir af tækni sem eru notuð í náttúrulegri málvinnslu er hægt að setja í einn af tveimur flokkum: setningafræði eða merkingarfræði. Setningafræðiaðferðir eru þær sem fjalla um röðun orða, en merkingartækni eru þær aðferðir sem fela í sér merkingu orða.

Setningafræði NLP tækni

Dæmi um setningafræði eru:

  • Lematisering
  • Formfræðileg skipting
  • Hlutamerking
  • Þáttun
  • Setningarbrot
  • Skap
  • Orðaskiptingu

Lemmatization vísar til að eima mismunandi beygingarorð orðs niður í eina mynd. Lemmatization tekur hluti eins og tíðir og fleirtölu og einfaldar þá, til dæmis gætu „fætur“ orðið „fótur“ og „rönd“ gætu orðið „rönd“. Þetta einfaldaða orðform auðveldar reiknirit að túlka orðin í skjalinu.

Formfræðileg skipting er ferlið við að skipta orðum í form eða grunneiningar orðs. Þessar einingar eru hlutir eins og ókeypis formgerð (sem getur staðið ein sem orð) og forskeyti eða viðskeyti.

Hlutamerking er einfaldlega ferlið við að bera kennsl á hvaða orðhluti hvert orð í inntaksskjali er.

Þáttun vísar til þess að greina öll orðin í setningu og tengja þau við formleg málfræðimerki eða gera málfræðilega greiningu fyrir öll orðin.

Setningarbrot, eða setningamörk skipting, vísar til þess að ákveða hvar setning byrjar og endar.

Skap er ferlið við að minnka orð niður í rótarform orðsins. Til dæmis myndu tengdir, tengingar og tengingar allar vera tengdar til að „tengjast“.

Orðaskiptingu er ferlið við að skipta stórum texta niður í litlar einingar, sem geta verið orð eða stofnaðar/lemmatískar einingar.

Merkingartækni NLP tækni

Merkingartækni NLP tækni felur í sér tækni eins og:

  • Nafngreind viðurkenning á aðilum
  • Kynslóð náttúrulegs máls
  • Orðaskilningur

Nafngreind aðilaviðurkenning felur í sér að merkja ákveðna textahluta sem hægt er að setja í einn af mörgum mismunandi forstilltum hópum. Forskilgreindir flokkar innihalda hluti eins og dagsetningar, borgir, staði, fyrirtæki og einstaklinga.

Kynslóð náttúrunnar er ferlið við að nota gagnagrunna til að umbreyta skipulögðum gögnum í náttúrulegt tungumál. Til dæmis væri hægt að draga saman tölfræði um veður, eins og hitastig og vindhraða, með náttúrulegu máli.

Orðaskilningur er ferlið við að gefa orðum merkingu í texta út frá samhenginu sem orðin birtast í.

Djúpnámslíkön fyrir NLP

Venjulegir fjöllaga skynjarar geta ekki séð um túlkun raðgagna þar sem röð upplýsinganna er mikilvæg. Til að takast á við mikilvægi reglu í röð gagna er notuð tegund tauganets sem varðveitir upplýsingar frá fyrri tímaþrepum í þjálfuninni.

Endurtekin taugakerfi eru tegundir tauganeta sem lykkja yfir gögn frá fyrri tímaskrefum, að teknu tilliti til þeirra við útreikning á vægi núverandi tímaþreps. Í meginatriðum eru RNN með þrjár breytur sem eru notaðar í áframhaldandi þjálfunarpassanum: fylki byggt á fyrra falna ástandi, fylki byggt á núverandi inntaki og fylki sem er á milli falins ástands og úttaksins. Vegna þess að RNN geta tekið tillit til upplýsinga frá fyrri tímaskrefum geta þeir dregið viðeigandi mynstur úr textagögnum með því að taka fyrri orð í setningunni með í reikninginn þegar merking orðs er túlkuð.

Önnur tegund djúpnámsarkitektúrs sem notuð er til að vinna úr textagögnum er langtímaminni (LSTM) net. LSTM net eru svipuð RNN að uppbyggingu, en vegna nokkurs munar á arkitektúr þeirra hafa þau tilhneigingu til að standa sig betur en RNN. Þeir forðast sérstakt vandamál sem oft kemur upp þegar RNN eru notuð sem kallast sprungið halli vandamál.

Þessi djúpu tauganet geta verið annaðhvort einstefnu eða tvíátta. Tvíátta net eru fær um að taka ekki bara með í reikninginn orðin sem koma á undan núverandi orði heldur orðin sem koma á eftir því. Þó að þetta leiði til meiri nákvæmni, þá er það dýrara útreikningslega.

Notkunartilvik fyrir náttúrulega málvinnslu (NLP)

Mynd: mohammed_hassan í gegnum Pixabay, Pixabay leyfi (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Vegna þess að náttúruleg málvinnsla felur í sér greiningu og meðhöndlun á tungumálum manna hefur hún ótrúlega breitt úrval af forritum. Hugsanlegar umsóknir um NLP eru spjallbotar, stafrænir aðstoðarmenn, tilfinningagreining, skjalaskipulag, nýliðun hæfileika og heilsugæslu.

Spjallbotar og stafrænir aðstoðarmenn eins og Alexa frá Amazon og Google Assistant eru dæmi um raddgreiningar- og samsetningarkerfi sem nota NLP til að túlka og bregðast við raddskipunum. Þessir stafrænu aðstoðarmenn hjálpa fólki við margvísleg verkefni, leyfa því að flytja sum vitræna verkefnin yfir í annað tæki og losa hluta af heilakrafti þeirra fyrir aðra, mikilvægari hluti. Í stað þess að leita uppi bestu leiðina í bankann á annasömum morgni, getum við bara látið stafræna aðstoðarmanninn okkar gera það.

Viðhorfsgreining er notkun NLP aðferða til að rannsaka viðbrögð og tilfinningar fólks við fyrirbæri, eins og það kemur fram með málnotkun þeirra. Að fanga tilfinningu yfirlýsingar, eins og að túlka hvort umsögn um vöru sé góð eða slæm, getur veitt fyrirtækjum verulegar upplýsingar um hvernig varan er móttekin.

Að skipuleggja textaskjöl sjálfkrafa er annað forrit NLP. Fyrirtæki eins og Google og Yahoo nota NLP reiknirit til að flokka tölvupóstskjöl, setja þau í viðeigandi ruslakörfur eins og „félagslegar“ eða „kynningar“. Þeir nota einnig þessar aðferðir til að greina ruslpóst og koma í veg fyrir að það berist í pósthólfið þitt.

Hópar hafa einnig þróað NLP tækni sem er notuð til að bera kennsl á hugsanlegar ráðningar í starfi, finna þær út frá viðeigandi færni. Ráðningarstjórar nota einnig NLP tækni til að hjálpa þeim að raða í gegnum lista yfir umsækjendur.

NLP tækni er einnig notuð til að auka heilsugæslu. NLP er hægt að nota til að bæta uppgötvun sjúkdóma. Hægt er að greina heilsufarsskrár og draga út einkenni með NLP reikniritum, sem síðan er hægt að nota til að benda á mögulegar greiningar. Eitt dæmi um þetta er Comprehend Medical vettvangur Amazon, sem greinir sjúkraskrár og dregur út sjúkdóma og meðferðir. Heilsugæsluumsóknir um NLP ná einnig til geðheilbrigðis. Það eru til forrit eins og WoeBot, sem talar um notendur í gegnum ýmsar kvíðastjórnunaraðferðir sem byggjast á hugrænni atferlismeðferð.

Bloggari og forritari með sérsvið í vél Learning og Deep Learning efni. Daniel vonast til að hjálpa öðrum að nota kraft gervigreindar í félagslegum tilgangi.

Nýlegar færslur