Mākslīgais intelekts

Kas ir NLP (dabiskās valodas apstrāde)?

Atjaunināts on Marts 20, 2024

Dabas valodas apstrāde (NLP) ir tādu paņēmienu un rīku izpēte un pielietošana, kas ļauj datoriem apstrādāt, analizēt, interpretēt un spriest par cilvēka valodu. NLP ir starpdisciplināra joma, un tā apvieno metodes, kas izveidotas tādās jomās kā valodniecība un datorzinātne. Šīs metodes tiek izmantotas kopā ar AI, lai izveidotu tērzēšanas robotus un digitālos palīgus, piemēram, Google Assistant un Amazon Alexa.

Veltisim kādu laiku, lai izpētītu dabiskās valodas apstrādes pamatojumu, dažus NLP izmantotos paņēmienus un dažus izplatītākos NLP lietojumu gadījumus.

Kāpēc dabiskās valodas apstrāde (NLP) ir svarīga

Lai datori varētu interpretēt cilvēku valodu, tie ir jāpārvērš formā, ar kuru dators var manipulēt. Tomēr tas nav tik vienkārši kā teksta datu pārvēršana skaitļos. Lai no cilvēku valodas iegūtu nozīmi, no simtiem vai tūkstošiem vārdu, kas veido teksta dokumentu, ir jāizvelk modeļi. Tas nav viegls uzdevums. Ir daži stingri noteikumi, ko var piemērot cilvēku valodas interpretācijai. Piemēram, tieši viens un tas pats vārdu kopums var nozīmēt dažādas lietas atkarībā no konteksta. Cilvēka valoda ir sarežģīta un bieži vien neskaidra lieta, un apgalvojumu var izteikt ar sirsnību vai sarkasmu.

Neskatoties uz to, ir dažas vispārīgas vadlīnijas, ko var izmantot, interpretējot vārdus un rakstzīmes, piemēram, rakstzīme “s”, kas tiek izmantota, lai apzīmētu, ka vienums ir daudzskaitlī. Šīs vispārīgās vadlīnijas ir jāizmanto saskaņoti, lai no teksta iegūtu nozīmi un izveidotu funkcijas, kuras var interpretēt mašīnmācīšanās algoritms.

Dabiskās valodas apstrāde ietver dažādu algoritmu izmantošanu, kas spēj ņemt nestrukturētus datus un pārvērst tos strukturētos datos. Ja šie algoritmi tiek piemēroti nepareizi, dators bieži nevar iegūt pareizo nozīmi no teksta. To bieži var redzēt, tulkojot tekstu starp valodām, kur bieži tiek zaudēta precīza teikuma nozīme. Lai gan mašīntulkošana pēdējos gados ir ievērojami uzlabojusies, mašīntulkošanas kļūdas joprojām notiek bieži.

Dabiskās valodas apstrādes (NLP) metodes

Foto: Tamur, izmantojot WikiMedia Commons, publiskais domēns (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Daudzi no metodes kuras tiek izmantotas dabiskās valodas apstrādē, var iedalīt vienā no divām kategorijām: sintakse vai semantika. Sintakses metodes ir tās, kas nodarbojas ar vārdu sakārtošanu, savukārt semantiskās metodes ir metodes, kas ietver vārdu nozīmi.

Sintakse NLP metodes

Sintakses piemēri:

Lemmatizācija
Morfoloģiskā segmentācija
Runas daļas marķēšana
Parsēšana
Teikuma laušana
Noskaņojums
Vārdu segmentēšana

Lematizācija attiecas uz vārda dažādu locījumu sadalīšanu vienā formā. Lemmatizācija izmanto tādas lietas kā laiki un daudzskaitļi, un tos vienkāršo, piemēram, “pēdas” var kļūt par “pēdu” un “svītras” var kļūt par “svītras”. Šī vienkāršotā vārda forma algoritmam atvieglo dokumentā esošo vārdu interpretāciju.

Morfoloģiskā segmentācija ir process, kurā vārdus sadala morfēmās vai vārda pamatvienībās. Šīs vienības ir tādas lietas kā bezmaksas morfēmas (kas var būt atsevišķi kā vārdi) un prefiksus vai sufiksus.

Runas daļas marķēšana ir vienkārši process, lai noteiktu, kura runas daļa ir katrs ievades dokumenta vārds.

Parsēšana attiecas uz visu vārdu analīzi teikumā un korelāciju ar to formālajām gramatikas etiķetēm vai visu vārdu gramatiskās analīzes veikšanu.

Teikuma laušana vai teikuma robežu segmentācija, attiecas uz izlemšanu, kur teikums sākas un beidzas.

Noskaņojums ir vārdu reducēšanas process līdz vārda saknes formai. Piemēram, savienojuma, savienojuma un savienojumu pamatā ir “savienojums”.

Vārdu segmentēšana ir process, kurā lielas teksta daļas tiek sadalītas mazās vienībās, kas var būt vārdi vai celma/lematizētas vienības.

Semantiskās NLP metodes

Semantiskās NLP metodes ietver tādas metodes kā:

Nosaukta entītijas atpazīšana
Dabas valodas paaudze
Vārda nozīmes atdalīšana

Nosauktās entītijas atpazīšana ietver noteiktu teksta daļu marķēšanu, ko var ievietot vienā no vairākām dažādām iepriekš iestatītām grupām. Iepriekš noteiktas kategorijas ietver tādas lietas kā datumi, pilsētas, vietas, uzņēmumi un personas.

Dabas valodas paaudze ir datu bāzu izmantošanas process, lai pārveidotu strukturētus datus dabiskā valodā. Piemēram, statistiku par laikapstākļiem, piemēram, temperatūru un vēja ātrumu, var apkopot dabiskā valodā.

Vārda nozīmes atdalīšana ir process, kurā vārdiem tiek piešķirta nozīme tekstā, pamatojoties uz kontekstu, kurā vārdi parādās.

Padziļinātas mācīšanās modeļi NLP

Regulāri daudzslāņu perceptroni nespēj tikt galā ar secīgu datu interpretāciju, kur svarīga ir informācijas secība. Lai risinātu jautājumu par secības nozīmi secīgos datos, tiek izmantots neironu tīkla veids, kas saglabā informāciju no iepriekšējiem apmācības laika posmiem.

Atkārtoti neironu tīkli ir neironu tīklu veidi, kas cilpa pār datiem no iepriekšējiem laika soļiem, ņemot vērā tos, aprēķinot pašreizējā laika soļa svarus. Būtībā RNN ir trīs parametri, kas tiek izmantoti pārejas apmācības laikā: matrica, kas balstīta uz iepriekšējo slēpto stāvokli, matrica, kuras pamatā ir pašreizējā ievade, un matrica, kas atrodas starp slēpto stāvokli un izvadi. Tā kā RNN var ņemt vērā informāciju no iepriekšējiem laika soļiem, tie var iegūt atbilstošus modeļus no teksta datiem, interpretējot vārda nozīmi, ņemot vērā teikuma agrākos vārdus.

Cits dziļās mācīšanās arhitektūras veids, ko izmanto teksta datu apstrādei, ir ilgtermiņa īstermiņa atmiņas (LSTM) tīkls. LSTM tīkli pēc struktūras ir līdzīgi RNN, taču dažu to arhitektūras atšķirību dēļ tie parasti darbojas labāk nekā RNN. Viņi izvairās no īpašas problēmas, kas bieži rodas, izmantojot RNN, ko sauc par sprādzienbīstama gradienta problēma.

Šie dziļie neironu tīkli var būt vienvirziena vai divvirzienu. Divvirzienu tīkli spēj ņemt vērā ne tikai vārdus, kas nāk pirms pašreizējā vārda, bet arī vārdus, kas nāk pēc tā. Lai gan tas nodrošina lielāku precizitāti, tas ir skaitļošanas ziņā dārgāks.

Lietošanas gadījumi dabiskās valodas apstrādei (NLP)

Foto: mohammed_hassan, izmantojot Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Tā kā dabiskās valodas apstrāde ietver cilvēku valodu analīzi un manipulācijas ar tām, tai ir neticami plašs lietojumu klāsts. Iespējamās NLP lietojumprogrammas ietver tērzēšanas robotus, digitālos palīgus, sentimenta analīzi, dokumentu organizēšanu, talantu piesaisti un veselības aprūpi.

Tērzēšanas roboti un digitālie palīgi, piemēram, Amazon Alexa un Google Assistant, ir balss atpazīšanas un sintēzes platformu piemēri, kas izmanto NLP, lai interpretētu un reaģētu uz balss komandām. Šie digitālie asistenti palīdz cilvēkiem veikt dažādus uzdevumus, ļaujot viņiem pārlādēt dažus kognitīvos uzdevumus citā ierīcē un atbrīvot daļu no viņu prāta iespējām citām, svarīgākām lietām. Tā vietā, lai rosīgā rītā meklētu labāko ceļu uz banku, mēs varam vienkārši likt mūsu digitālajam palīgam to izdarīt.

Noskaņojuma analīze ir NLP metožu izmantošana, lai pētītu cilvēku reakcijas un jūtas pret parādību, ko izsaka viņu valodas lietošana. Paziņojuma noskaņojuma uztveršana, piemēram, interpretācija, vai produkta atsauksme ir laba vai slikta, var sniegt uzņēmumiem būtisku informāciju par to, kā viņu produkts tiek uztverts.

Automātiska teksta dokumentu kārtošana ir vēl viena NLP lietojumprogramma. Uzņēmumi, piemēram, Google un Yahoo, izmanto NLP algoritmus, lai klasificētu e-pasta dokumentus, ievietojot tos atbilstošajās tvertnēs, piemēram, “sociālajos” vai “akcijas”. Viņi arī izmanto šīs metodes, lai identificēt surogātpastu un neļaut tai sasniegt jūsu iesūtni.

Grupas ir izstrādājušas arī NLP metodes, kuras tiek izmantotas, lai identificētu potenciālos darbiniekus, atrodot tos, pamatojoties uz atbilstošām prasmēm. Pieņemšanas vadītāji arī izmanto NLP metodes, lai palīdzētu viņiem sakārtot pretendentu sarakstus.

NLP metodes tiek izmantotas arī veselības aprūpes uzlabošanai. NLP var izmantot, lai uzlabotu slimību noteikšanu. Veselības ierakstus var analizēt un simptomus iegūt, izmantojot NLP algoritmus, kurus pēc tam var izmantot, lai ieteiktu iespējamās diagnozes. Viens no piemēriem ir Amazon Comprehend Medical platforma, kas analizē veselības ierakstus un izraksta slimības un ārstēšanu. NLP pielietojums veselības aprūpē attiecas arī uz garīgo veselību. Ir lietotnes piemēram, WoeBot, kas runā ar lietotājiem, izmantojot dažādas trauksmes vadības metodes, kuru pamatā ir kognitīvā uzvedības terapija.

Saistītās tēmas:dabiskās valodas apstrāde nlp

Nākošais

Bijušie izlūkošanas speciālisti izmanto AI, lai atklātu cilvēku tirdzniecību

Nepalaidiet garām

GPT-2, mākslīgā intelekta teksta ģenerators tiek pilnībā izlaists

Daniels Nelsons

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.