Sztuczna inteligencja
Co to jest NLP (Przetwarzanie Języka Naturalnego)?
Przetwarzanie Języka Naturalnego (NLP) jest badaniem i stosowaniem technik i narzędzi, które umożliwiają komputerom przetwarzanie, analizowanie, interpretowanie i rozumienie języka ludzkiego. NLP jest dziedziną interdyscyplinarną i łączy techniki ustanowione w dziedzinach takich jak lingwistyka i informatyka. Te techniki są stosowane w połączeniu z AI w celu tworzenia czatbotów i asystentów cyfrowych, takich jak Google Assistant i Amazon’s Alexa.
Zajmijmy się bliżej racjonalnością za Przetwarzaniem Języka Naturalnego, niektórymi technikami stosowanymi w NLP oraz przypadkami użycia NLP.
Dlaczego Przetwarzanie Języka Naturalnego (NLP) jest ważne
Aby komputery mogły interpretować język ludzki, muszą być przekształcone w formę, którą komputer może manipulować. Nie jest to jednak tak proste, jak przekształcenie danych tekstowych w liczby. Aby wywnioskować znaczenie z języka ludzkiego, muszą być wyodrębnione wzorce z setek lub tysięcy słów, które tworzą dokument tekstowy. Nie jest to łatwe zadanie. Istnieją niewiele twardej i szybkiej reguły, które mogą być stosowane do interpretacji języka ludzkiego. Na przykład, ten sam zestaw słów może oznaczać różne rzeczy w zależności od kontekstu. Język ludzki jest złożonym i często niejednoznacznym, a oświadczenie może być wypowiedziane z szczerością lub sarkazmem.
Pomimo tego, istnieją pewne wytyczne, które mogą być stosowane przy interpretowaniu słów i znaków, takich jak znak „s” używany do oznaczenia, że przedmiot jest liczby mnogiej. Te ogólne wytyczne muszą być stosowane w połączeniu z sobą, aby wywnioskować znaczenie z tekstu, tworząc funkcje, które algorytm uczenia maszynowego może interpretować.
Przetwarzanie Języka Naturalnego obejmuje stosowanie różnych algorytmów zdolnych do pobierania nieustrukturyzowanych danych i przekształcania ich w ustrukturyzowane dane. Jeśli te algorytmy są stosowane w niewłaściwy sposób, komputer często nie jest w stanie wywnioskować poprawnego znaczenia z tekstu. Może to być często obserwowane w tłumaczeniu tekstu między językami, gdzie dokładne znaczenie zdania jest często tracone. Chociaż tłumaczenie maszynowe znacznie poprawiło się w ciągu ostatnich kilku lat, błędy tłumaczenia maszynowego nadal występują często.
Techniki Przetwarzania Języka Naturalnego (NLP)

Photo: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)
Wiele technik stosowanych w przetwarzaniu języka naturalnego może być umieszczone w jednej z dwóch kategorii: składnia lub semantyka. Techniki składniowe są tymi, które zajmują się układem słów, podczas gdy techniki semantyczne są technikami, które dotyczą znaczenia słów.
Techniki składniowe NLP
Przykłady składni obejmują:
- Lematyzacja
- Morfologiczna segmentacja
- Oznaczanie części mowy
- Parsowanie
- Podział zdania
- Stemming
- Segmentacja słowa
Lematyzacja odnosi się do destylacji różnych fleksji słowa do jednej postaci. Lematyzacja bierze rzeczy takie jak czasy i liczby mnogie i upraszcza je, na przykład „feet” mogą stać się „foot”, a „stripes” mogą stać się „stripe”. Ta uproszczona postać słowa ułatwia algorytmowi interpretowanie słów w dokumencie.
Morfologiczna segmentacja jest procesem dzielenia słów na morfemy lub podstawowe jednostki słowa. Te jednostki są rzeczami takimi jak wolne morfemy (które mogą samodzielnie funkcjonować jako słowa) i przedrostki lub przyrostki.
Oznaczanie części mowy jest po prostu procesem identyfikacji, jaka część mowy jest każde słowo wejściowego dokumentu.
Parsowanie odnosi się do analizy wszystkich słów w zdaniu i skorelowania ich z formalnymi etykietami gramatycznymi lub wykonywania analizy gramatycznej dla wszystkich słów.
Podział zdania, lub segmentacja granicy zdania, odnosi się do decydowania, gdzie zdanie zaczyna się i kończy.
Stemming jest procesem redukowania słów do postaci rdzennej słowa. Na przykład, connected, connection i connections zostałyby zredukowane do „connect”.
Segmentacja słowa jest procesem dzielenia dużych fragmentów tekstu na małe jednostki, które mogą być słowami lub zredukowanymi/lematyzowanymi jednostkami.
Techniki semantyczne NLP
Techniki semantyczne NLP obejmują techniki takie jak:
- Rozpoznawanie nazwanych encji
- Generowanie języka naturalnego
- Rozróżnianie znaczenia słów
Rozpoznawanie nazwanych encji obejmuje oznaczanie pewnych części tekstu, które mogą być umieszczone w jednej z kilku wstępnie zdefiniowanych grup. Wstępnie zdefiniowane kategorie obejmują rzeczy takie jak daty, miasta, miejsca, firmy i osoby.
Generowanie języka naturalnego jest procesem wykorzystania baz danych do przekształcenia ustrukturyzowanych danych w język naturalny. Na przykład, statystyki o pogodzie, takie jak temperatura i prędkość wiatru, mogą być podsumowane w języku naturalnym.
Rozróżnianie znaczenia słów jest procesem przypisywania znaczenia słowom w tekście na podstawie kontekstu, w którym słowa występują.
Głębokie modele uczenia maszynowego dla NLP
Regularne wielowarstwowe perceptrony nie są w stanie poradzić sobie z interpretacją sekwencyjnych danych, gdzie kolejność informacji jest ważna. Aby poradzić sobie z ważnością kolejności w sekwencyjnych danych, stosuje się typ sieci neuronowej, który zachowuje informacje z poprzednich kroków czasowych podczas treningu.
Sieci neuronowe rekurencyjne są typem sieci neuronowych, które pętlują się przez dane z poprzednich kroków czasowych, biorąc je pod uwagę przy obliczaniu wag bieżącego kroku czasowego. Podstawowo, sieci neuronowe rekurencyjne mają trzy parametry, które są stosowane podczas przodu treningu: macierz oparta na poprzednim ukrytym stanie, macierz oparta na bieżącym wejściu i macierz między stanem ukrytym a wyjściem. Ponieważ sieci neuronowe rekurencyjne mogą brać pod uwagę informacje z poprzednich kroków czasowych, mogą wyodrębnić istotne wzorce z danych tekstowych, biorąc pod uwagę wcześniejsze słowa w zdaniu przy interpretowaniu znaczenia słowa.
Innym typem głębokiej architektury uczenia maszynowego stosowanej do przetwarzania danych tekstowych jest sieć pamięciowa o krótkim i długim okresie (LSTM). Sieci LSTM są podobne do sieci neuronowych rekurencyjnych w strukturze, ale dzięki pewnym różnicom w ich architekturze tendencja do lepszego działania niż sieci neuronowe rekurencyjne. Unikają one określonego problemu, który często występuje podczas stosowania sieci neuronowych rekurencyjnych, zwanego problemem wybuchających gradientów.
Te głębokie sieci neuronowe mogą być albo jednokierunkowe, albo dwukierunkowe. Sieci dwukierunkowe są w stanie brać pod uwagę nie tylko słowa, które występują przed bieżącym słowem, ale także słowa, które występują po nim. Chociaż prowadzi to do większej dokładności, jest to bardziej kosztowne obliczeniowo.
Przypadki użycia Przetwarzania Języka Naturalnego (NLP)

Photo: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)
Ponieważ Przetwarzanie Języka Naturalnego obejmuje analizę i manipulację językami ludzkimi, ma niesamowicie szeroki zakres zastosowań. Możliwe zastosowania NLP obejmują czatboty, asystentów cyfrowych, analizę sentymentu, organizację dokumentów, rekrutację talentów i opiekę zdrowotną.
Czatboty i asystenci cyfrowi, takie jak Amazon’s Alexa i Google Assistant, są przykładami platform rozpoznawania i syntezowania mowy, które wykorzystują NLP do interpretowania i reagowania na polecenia głosowe. Ci asystenci cyfrowi pomagają ludziom w szerokim zakresie zadań, pozwalając im przerzucić niektóre z ich zadań poznawczych na inny urządzenie i uwolnić niektóre z ich mocy mózgu na inne, ważniejsze rzeczy. Zamiast szukać najlepszej trasy do banku w zajętym poranku, możemy po prostu poprosić naszego asystenta cyfrowego, aby to zrobił.
Analiza sentymentu jest użyciem technik NLP do badania reakcji i uczuć ludzi na zjawisko, tak jak jest ono komunikowane przez ich użycie języka. Uchwycenie sentymentu oświadczenia, takiego jak interpretowanie, czy recenzja produktu jest dobra czy zła, może dostarczyć firmom znacznych informacji dotyczących tego, jak ich produkt jest odbierany.
Automatyczne organizowanie dokumentów tekstowych jest innym zastosowaniem NLP. Firmy takie jak Google i Yahoo stosują algorytmy NLP do klasyfikacji dokumentów e-mail, umieszczając je w odpowiednich kategoriach, takich jak „społeczne” lub „promocje”. Stosują również te techniki do identyfikacji spamu i zapobiegania jego dostarczaniu do skrzynki odbiorczej.
Grupy również opracowały techniki NLP, które są stosowane do identyfikacji potencjalnych kandydatów do pracy, znajdując ich na podstawie odpowiednich umiejętności. Menadżerowie rekrutacji również stosują techniki NLP, aby pomóc im przeglądać listy aplikantów.
Techniki NLP są również stosowane w celu poprawy opieki zdrowotnej. NLP może być stosowany w celu poprawy wykrywania chorób. Rejestracje zdrowia mogą być analizowane, a objawy mogą być wyodrębnione przez algorytmy NLP, które mogą być następnie stosowane do sugerowania możliwych diagnoz. Jednym z przykładów jest platforma Amazon Comprehend Medical, która analizuje rejestracje zdrowia i wyodrębnia choroby i leczenia. Zastosowania opieki zdrowotnej NLP sięgają również do zdrowia psychicznego. Istnieją aplikacje, takie jak WoeBot, które prowadzą użytkowników przez różne techniki zarządzania lękami oparte na terapii poznawczo-behawioralnej.










