Umelá inteligencia

Čo je to NLP (spracovanie prirodzeného jazyka)?

Aktualizované on March 20, 2024

Spracovanie prirodzeného jazyka (NLP) je štúdium a aplikácia techník a nástrojov, ktoré umožňujú počítačom spracovávať, analyzovať, interpretovať a uvažovať o ľudskom jazyku. NLP je interdisciplinárna oblasť a kombinuje techniky zavedené v oblastiach ako lingvistika a informatika. Tieto techniky sa používajú v zhode s AI na vytváranie chatbotov a digitálnych asistentov, ako sú Google Assistant a Amazon Alexa.

Venujme trochu času preskúmaniu logiky spracovania prirodzeného jazyka, niektorých techník používaných v NLP a niektorých bežných prípadov použitia NLP.

Prečo záleží na spracovaní prirodzeného jazyka (NLP)

Aby počítače mohli interpretovať ľudský jazyk, musia byť prevedené do podoby, s ktorou môže počítač manipulovať. To však nie je také jednoduché ako prevod textových údajov na čísla. Aby bolo možné odvodiť význam z ľudského jazyka, vzory musia byť extrahované zo stoviek alebo tisícok slov, ktoré tvoria textový dokument. Nie je to ľahká úloha. Existuje len málo pevných a rýchlych pravidiel, ktoré možno použiť na interpretáciu ľudského jazyka. Napríklad presne ten istý súbor slov môže znamenať rôzne veci v závislosti od kontextu. Ľudský jazyk je zložitá a často nejednoznačná vec a vyhlásenie možno vysloviť úprimne alebo sarkazmom.

Napriek tomu existujú určité všeobecné pokyny, ktoré možno použiť pri interpretácii slov a znakov, ako napríklad znak „s“, ktorý sa používa na označenie položky v množnom čísle. Tieto všeobecné pokyny sa musia používať vo vzájomnej zhode, aby sa extrahoval význam z textu, aby sa vytvorili funkcie, ktoré môže algoritmus strojového učenia interpretovať.

Spracovanie prirodzeného jazyka zahŕňa aplikáciu rôznych algoritmov schopných brať neštruktúrované údaje a konvertovať ich na štruktúrované údaje. Ak sú tieto algoritmy aplikované nesprávnym spôsobom, počítač často nedokáže odvodiť z textu správny význam. Často je to vidieť pri preklade textu medzi jazykmi, kde sa často stráca presný význam vety. Hoci sa strojový preklad za posledných niekoľko rokov výrazne zlepšil, stále sa často vyskytujú chyby strojového prekladu.

Techniky spracovania prirodzeného jazyka (NLP).

Foto: Tamur cez WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Mnohé z nich techniky ktoré sa používajú pri spracovaní prirodzeného jazyka, možno zaradiť do jednej z dvoch kategórií: syntax alebo sémantika. Techniky syntaxe sú tie, ktoré sa zaoberajú usporiadaním slov, zatiaľ čo sémantické techniky sú techniky, ktoré zahŕňajú význam slov.

Techniky syntaxe NLP

Príklady syntaxe zahŕňajú:

lemmatizace
Morfologická segmentácia
Part-of-Speech Tagging
rozbor
Rozbíjanie viet
vyplývajúce
Segmentácia slov

Lemmatizácia sa týka destilácie rôznych ohybov slova do jednej formy. Lemmatizácia berie veci ako časy a množné čísla a zjednodušuje ich, napríklad „nohy“ sa môžu zmeniť na „nohu“ a „pruhy“ sa môžu stať „pruhom“. Táto zjednodušená forma slova uľahčuje algoritmu interpretáciu slov v dokumente.

Morfologická segmentácia je proces delenia slov na morfémy alebo základné jednotky slova. Tieto jednotky sú veci ako zadarmo morfémy (ktoré môžu stáť samostatne ako slová) a predpony alebo prípony.

Slovné značkovanie je jednoducho proces identifikácie, ktorým slovným druhom je každé slovo vo vstupnom dokumente.

rozbor sa vzťahuje na analýzu všetkých slov vo vete a ich koreláciu s ich formálnymi gramatickými označeniami alebo na vykonanie gramatickej analýzy pre všetky slová.

Rozbitie vety, príp segmentácia hraníc vety, sa týka rozhodovania o tom, kde sa veta začína a končí.

vyplývajúce je proces redukcie slov až po základnú formu slova. Napríklad pripojená, pripojenie a pripojenia by všetky boli odvodené od „pripojiť“.

Segmentácia slov je proces rozdeľovania veľkých častí textu na malé jednotky, ktorými môžu byť slová alebo odvodené/lematizované jednotky.

Sémantické techniky NLP

Sémantické techniky NLP zahŕňajú techniky ako:

Uznanie pomenovanej entity
Generovanie prirodzeného jazyka
Zjednoznačnenie slovného významu

Rozpoznanie pomenovanej entity zahŕňa označovanie určitých častí textu, ktoré možno umiestniť do jednej z množstva rôznych prednastavených skupín. Vopred definované kategórie zahŕňajú veci ako dátumy, mestá, miesta, spoločnosti a jednotlivci.

Tvorba prirodzeného jazyka je proces využívania databáz na transformáciu štruktúrovaných údajov do prirodzeného jazyka. Napríklad štatistiky o počasí, ako je teplota a rýchlosť vetra, by sa dali zhrnúť prirodzeným jazykom.

Disambiguácia slovného významu je proces priraďovania významu slovám v texte na základe kontextu, v ktorom sa slová vyskytujú.

Modely hlbokého učenia pre NLP

Bežné viacvrstvové perceptróny nie sú schopné zvládnuť interpretáciu sekvenčných údajov, kde je dôležité poradie informácií. Aby sme sa vyrovnali s dôležitosťou poriadku v sekvenčných dátach, používa sa typ neurónovej siete, ktorá uchováva informácie z predchádzajúcich časových krokov v tréningu.

Opakujúce sa neurónové siete sú typy neurónových sietí, ktoré opakovať dáta z predchádzajúcich časových krokovberúc ich do úvahy pri výpočte váh aktuálneho časového kroku. RNN majú v podstate tri parametre, ktoré sa používajú počas prechodu dopredného tréningu: maticu založenú na predchádzajúcom skrytom stave, maticu založenú na aktuálnom vstupe a maticu, ktorá je medzi skrytým stavom a výstupom. Pretože RNN môžu brať do úvahy informácie z predchádzajúcich časových krokov, môžu extrahovať relevantné vzory z textových údajov tým, že pri interpretácii významu slova zohľadnia predchádzajúce slová vo vete.

Ďalším typom architektúry hlbokého učenia, ktorá sa používa na spracovanie textových údajov, je sieť s dlhou krátkodobou pamäťou (LSTM).. Siete LSTM sú svojou štruktúrou podobné RNN, ale vzhľadom na určité rozdiely v ich architektúre majú tendenciu fungovať lepšie ako RNN. Vyhýbajú sa špecifickému problému, ktorý sa často vyskytuje pri používaní RNN nazývaných problém explodujúceho gradientu.

Tieto hlboké neurónové siete môžu byť jednosmerné alebo obojsmerné. Obojsmerné siete sú schopné brať do úvahy nielen slová, ktoré predchádzajú aktuálnemu slovu, ale aj slová, ktoré prichádzajú po ňom. Aj keď to vedie k vyššej presnosti, je to výpočtovo drahšie.

Prípady použitia pre spracovanie prirodzeného jazyka (NLP)

Foto: mohammed_hassan cez Pixabay, licencia Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Pretože spracovanie prirodzeného jazyka zahŕňa analýzu a manipuláciu s ľudskými jazykmi, má neuveriteľne širokú škálu aplikácií. Možné aplikácie pre NLP zahŕňajú chatboty, digitálnych asistentov, analýzu sentimentu, organizáciu dokumentov, nábor talentov a zdravotnú starostlivosť.

Chatboty a digitálni asistenti ako Alexa od Amazonu a Google Assistant sú príkladmi platforiem rozpoznávania a syntézy hlasu, ktoré používajú NLP na interpretáciu a reakciu na hlasové príkazy. Títo digitálni asistenti pomáhajú ľuďom so širokou škálou úloh, umožňujú im presunúť niektoré z ich kognitívnych úloh na iné zariadenie a uvoľniť časť ich mozgovej sily pre iné, dôležitejšie veci. Namiesto toho, aby sme v rušné ráno hľadali najlepšiu cestu do banky, môžeme to nechať urobiť naším digitálnym asistentom.

Analýza sentimentu je použitie techník NLP na štúdium reakcií a pocitov ľudí na určitý jav, ako ich komunikujú používaním jazyka. Zachytenie sentimentu vyhlásenia, napríklad interpretácia toho, či je recenzia produktu dobrá alebo zlá, môže spoločnostiam poskytnúť podstatné informácie o tom, ako je ich produkt prijímaný.

Automatická organizácia textových dokumentov je ďalšou aplikáciou NLP. Spoločnosti ako Google a Yahoo používajú algoritmy NLP na klasifikáciu e-mailových dokumentov a umiestňujú ich do vhodných košov, ako sú napríklad „sociálne“ alebo „propagácie“. Používajú aj tieto techniky identifikovať spam a zabrániť tomu, aby sa dostala do vašej doručenej pošty.

Skupiny tiež vyvinuli techniky NLP, ktoré sa používajú na identifikáciu potenciálnych uchádzačov o zamestnanie a ich nájdenie na základe relevantných zručností. Náboroví manažéri tiež používajú techniky NLP, ktoré im pomáhajú triediť zoznamy uchádzačov.

Techniky NLP sa používajú aj na zlepšenie zdravotnej starostlivosti. NLP možno použiť na zlepšenie detekcie chorôb. Zdravotné záznamy možno analyzovať a symptómy extrahovať pomocou algoritmov NLP, ktoré sa potom môžu použiť na navrhnutie možných diagnóz. Jedným z príkladov je platforma Amazon Comprehend Medical, ktorá analyzuje zdravotné záznamy a extrahuje choroby a liečby. Zdravotné aplikácie NLP sa rozširujú aj na duševné zdravie. Existujú aplikácie ako je WoeBot, ktorý hovorí používateľom prostredníctvom rôznych techník zvládania úzkosti založených na kognitívno-behaviorálnej terapii.