Mesterséges Intelligencia

Mi az NLP (természetes nyelvi feldolgozás)?

korszerűsített on Március 20, 2024

Természetes nyelvi feldolgozás (NLP) olyan technikák és eszközök tanulmányozása és alkalmazása, amelyek lehetővé teszik a számítógépek számára az emberi nyelv feldolgozását, elemzését, értelmezését és érvelését. Az NLP egy interdiszciplináris terület, amely egyesíti az olyan területeken bevált technikákat, mint a nyelvészet és a számítástechnika. Ezeket a technikákat az AI-val együtt használják chatbotok és digitális asszisztensek, például a Google Assistant és az Amazon Alexa létrehozására.

Szánjunk egy kis időt arra, hogy megvizsgáljuk a természetes nyelvi feldolgozás mögött meghúzódó indokokat, az NLP-ben használt technikák egy részét, valamint az NLP néhány gyakori felhasználási esetét.

Miért számít a természetes nyelvi feldolgozás (NLP)?

Ahhoz, hogy a számítógépek értelmezni tudják az emberi nyelvet, azokat olyan formává kell alakítani, amelyet a számítógép képes kezelni. Ez azonban nem olyan egyszerű, mint a szöveges adatokat számokká alakítani. Ahhoz, hogy az emberi nyelv jelentését levezethessük, mintákat kell kivonni a szöveges dokumentumot alkotó több száz vagy több ezer szóból. Ez nem könnyű feladat. Kevés szigorú szabály alkalmazható az emberi nyelv értelmezésére. Például pontosan ugyanaz a szókészlet a kontextustól függően különböző dolgokat jelenthet. Az emberi nyelv összetett és gyakran kétértelmű dolog, és egy kijelentést őszintén vagy szarkazmussal is ki lehet mondani.

Ennek ellenére vannak általános irányelvek, amelyek a szavak és karakterek értelmezésekor használhatók, például az „s” karakter azt jelzi, hogy egy elem többes szám. Ezeket az általános irányelveket egymással összhangban kell használni, hogy jelentést vonjunk ki a szövegből, olyan funkciókat hozzunk létre, amelyeket egy gépi tanulási algoritmus képes értelmezni.

A Natural Language Processing különféle algoritmusok alkalmazását foglalja magában, amelyek képesek strukturálatlan adatok felvételére és strukturált adatokká történő átalakítására. Ha ezeket az algoritmusokat helytelenül alkalmazzák, a számítógép gyakran nem tudja levezetni a szöveg helyes jelentését. Ez gyakran megfigyelhető a szövegek nyelvek közötti fordításánál, ahol gyakran elveszik a mondat pontos jelentése. Noha a gépi fordítás jelentősen javult az elmúlt néhány évben, a gépi fordítási hibák még mindig gyakran fordulnak elő.

Természetes nyelvi feldolgozási (NLP) technikák

Fotó: Tamur a WikiMedia Commons-on keresztül, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Sokan technikák amelyek a természetes nyelvi feldolgozásban használatosak, két kategóriába sorolhatók: szintaxis vagy szemantika. A szintaktikai technikák azok, amelyek a szavak sorrendjével foglalkoznak, míg a szemantikai technikák azok a technikák, amelyek a szavak jelentését foglalják magukban.

Szintaxis NLP technikák

Példák a szintaxisra:

Lemmatizálás
Morfológiai szegmentáció
Beszédrész-címkézés
nyelvtani elemzés
Mondattörés
fakadó
Szószegmentálás

A lemmatizáció egy szó különböző ragozásainak egyetlen alakra történő lepárlását jelenti. A lemmatizálás olyan dolgokat vesz fel, mint az igeidők és a többes számok, és leegyszerűsíti őket, például a „láb” „láb” lehet, a „csíkok” pedig „csíkok”. Ez az egyszerűsített szóalak megkönnyíti az algoritmus számára a dokumentumban szereplő szavak értelmezését.

A morfológiai szegmentálás az a folyamat, amikor a szavakat morfémákra vagy a szó alapegységeire osztják. Ezek az egységek ingyenesek morfémák (amely szóként önállóan is megállhatja a helyét) és az előtagok vagy utótagok.

Beszédrész-címkézés Egyszerűen annak a folyamata, hogy a bemeneti dokumentumban minden szó a beszédnek melyik része.

nyelvtani elemzés a mondatban található összes szó elemzésére és azok formális nyelvtani címkéivel való összekapcsolására vonatkozik, vagy az összes szó grammatikai elemzésére.

Mondattörés, ill mondathatár tagolás, arra utal, hogy eldöntsük, hol kezdődik és hol végződik egy mondat.

fakadó az a folyamat, amely a szavakat a szó gyökérformájáig redukálja. Például a csatlakoztatott, a kapcsolat és a kapcsolatok mind a „csatlakozás”-ra vezethetők vissza.

Szószegmentálás A nagy szövegrészek kis egységekre történő felosztásának folyamata, amelyek lehetnek szavak vagy törzsű/lemmatizált egységek.

Szemantikus NLP technikák

A szemantikus NLP technikák közé tartoznak a következők:

Elnevezett entitás-felismerés
Természetes nyelv generáció
Word-Sense egyértelműsítés

Elnevezett entitás felismerés bizonyos szövegrészek címkézését foglalja magában, amelyek számos különböző előre beállított csoport egyikébe helyezhetők. Az előre meghatározott kategóriák olyan dolgokat tartalmaznak, mint a dátumok, városok, helyek, cégek és személyek.

Természetes nyelvgenerálás az adatbázisok felhasználásának folyamata a strukturált adatok természetes nyelvre való átalakítására. Például az időjárásra vonatkozó statisztikákat, például a hőmérsékletet és a szélsebességet természetes nyelven lehetne összefoglalni.

A szóértelmi egyértelműsítés az a folyamat, amelynek során a szövegben lévő szavakhoz jelentést rendelnek az alapján, hogy a szavak milyen környezetben jelennek meg.

Mély tanulási modellek az NLP-hez

A reguláris többrétegű perceptronok nem képesek kezelni a szekvenciális adatok értelmezését, ahol az információk sorrendje fontos. A szekvenciális adatokban a sorrend fontosságának kezelése érdekében egy olyan típusú neurális hálózatot használnak, amely megőrzi a képzés korábbi időlépéseiből származó információkat.

Ismétlődő neurális hálózatok olyan típusú neurális hálózatok, amelyek áthurkolja a korábbi időlépések adatait, figyelembe véve azokat az aktuális időlépés súlyainak kiszámításakor. Lényegében az RNN-nek három paramétere van, amelyeket a továbbképzés során használnak: egy mátrix az előző rejtett állapoton, egy mátrix az aktuális bemeneten, és egy mátrix, amely a rejtett állapot és a kimenet között van. Mivel az RNN-ek figyelembe tudják venni a korábbi időlépésekből származó információkat, releváns mintákat tudnak kinyerni a szöveges adatokból azáltal, hogy figyelembe veszik a mondat korábbi szavait egy szó jelentésének értelmezésekor.

A szöveges adatok feldolgozására használt mély tanulási architektúra másik típusa az hosszú rövid távú memória (LSTM) hálózat. Az LSTM-hálózatok szerkezetükben hasonlóak az RNN-ekhez, de az architektúrájuk bizonyos eltérései miatt általában jobban teljesítenek, mint az RNN-ek. Megakadályozzák az RNN-ek használatakor gyakran előforduló speciális problémát kirobbanó gradiens probléma.

Ezek a mély neurális hálózatok lehetnek egyirányúak vagy kétirányúak. A kétirányú hálózatok nemcsak az aktuális szót megelőző szavakat képesek figyelembe venni, hanem az azt követő szavakat is. Ez ugyan nagyobb pontosságot eredményez, de számítási szempontból drágább.

Használati esetek természetes nyelvi feldolgozáshoz (NLP)

Fotó: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Mivel a Natural Language Processing magában foglalja az emberi nyelvek elemzését és manipulálását, hihetetlenül széles körű alkalmazásai vannak. Az NLP lehetséges alkalmazásai közé tartoznak a chatbotok, a digitális asszisztensek, a hangulatelemzés, a dokumentumszervezés, a tehetségek toborzása és az egészségügy.

A chatbotok és digitális asszisztensek, mint például az Amazon Alexa és a Google Assistant, olyan hangfelismerő és szintézis platformok példái, amelyek az NLP-t használják a hangparancsok értelmezésére és reagálására. Ezek a digitális asszisztensek sokféle feladatban segítenek az embereknek, lehetővé téve számukra, hogy kognitív feladataik egy részét egy másik eszközre töltsék át, és felszabadítsák agyuk egy részét más, fontosabb dolgokra. Ahelyett, hogy egy mozgalmas reggelen megkeresnénk a legjobb útvonalat a bankhoz, megkérhetjük digitális asszisztensünket, hogy megcsinálja.

Hangulatelemzés az NLP technikák használata az emberek egy jelenségre adott reakcióinak és érzéseinek tanulmányozására, ahogyan azt nyelvhasználatuk közvetíti. Egy kijelentés hangulatának rögzítése, például annak értelmezése, hogy egy termékről szóló vélemény jó vagy rossz, lényeges információkkal szolgálhat a vállalatok számára arról, hogyan fogadják termékeiket.

A szöveges dokumentumok automatikus rendszerezése az NLP másik alkalmazása. Az olyan cégek, mint a Google és a Yahoo, NLP-algoritmusokat használnak az e-mail dokumentumok osztályozására, és a megfelelő tárolókba helyezik azokat, például a „közösségi” vagy a „promóciók” mappába. Ők is használják ezeket a technikákat azonosítani a spamet és megakadályozza, hogy eljusson a postaládájába.

A csoportok olyan NLP-technikákat is kifejlesztettek, amelyek segítségével azonosítják a potenciális állásokat, és megtalálják őket a releváns készségek alapján. A munkaerő-felvételi menedzserek NLP-technikákat is alkalmaznak, hogy segítsenek nekik rendezni a jelentkezők listáját.

Az NLP technikákat az egészségügyi ellátás javítására is használják. Az NLP segítségével javítható a betegségek felismerése. Az egészségügyi feljegyzések elemezhetők és a tünetek kinyerhetők NLP-algoritmusokkal, amelyek azután felhasználhatók a lehetséges diagnózisok javaslatára. Ennek egyik példája az Amazon Comprehend Medical platformja, amely elemzi az egészségügyi feljegyzéseket, és kivonatolja a betegségeket és a kezeléseket. Az NLP egészségügyi alkalmazásai kiterjednek a mentális egészségre is. Vannak alkalmazások mint például a WoeBot, amely a kognitív viselkedésterápián alapuló különféle szorongáskezelési technikákról beszél a felhasználókkal.

Kapcsolódó témák:természetes nyelvfeldolgozás NLP

Up Next

A korábbi hírszerzési szakemberek mesterséges intelligenciát használnak az embercsempészet felderítésére

Ne hagyd ki

A GPT-2, mesterséges intelligencia szöveggenerátor teljes terjedelmében megjelenik

Daniel Nelson

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.