Изкуствен интелект

Какво е NLP (обработка на естествен език)?

Обновено on Март 20, 2024

Обработка на естествен език (NLP) е изучаването и прилагането на техники и инструменти, които позволяват на компютрите да обработват, анализират, интерпретират и разсъждават относно човешкия език. НЛП е интердисциплинарна област и съчетава техники, установени в области като лингвистика и компютърни науки. Тези техники се използват съвместно с AI за създаване на чатботове и дигитални асистенти като Google Assistant и Alexa на Amazon.

Нека отделим малко време, за да проучим обосновката зад обработката на естествения език, някои от техниките, използвани в НЛП, и някои често срещани случаи на употреба на НЛП.

Защо обработката на естествен език (NLP) има значение

За да могат компютрите да интерпретират човешкия език, те трябва да бъдат преобразувани във форма, която компютърът може да манипулира. Това обаче не е толкова просто, колкото преобразуването на текстови данни в числа. За да се извлече значение от човешкия език, моделите трябва да бъдат извлечени от стотиците или хилядите думи, които съставляват текстов документ. Това не е лесна задача. Има няколко твърди и бързи правила, които могат да бъдат приложени към тълкуването на човешкия език. Например, един и същи набор от думи може да означава различни неща в зависимост от контекста. Човешкият език е сложно и често двусмислено нещо и едно твърдение може да бъде изречено с искреност или сарказъм.

Въпреки това има някои общи насоки, които могат да се използват при тълкуване на думи и знаци, като например знакът „s“, използван за означаване, че даден елемент е множествено число. Тези общи насоки трябва да се използват съвместно, за да се извлече смисъл от текста, за да се създадат функции, които алгоритъмът за машинно обучение може да интерпретира.

Обработката на естествен език включва прилагането на различни алгоритми, способни да вземат неструктурирани данни и да ги преобразуват в структурирани данни. Ако тези алгоритми се прилагат по грешен начин, компютърът често няма да успее да извлече правилното значение от текста. Това често може да се види при превода на текст между езици, където точното значение на изречението често се губи. Докато машинният превод се подобри значително през последните няколко години, грешките в машинния превод все още се появяват често.

Техники за обработка на естествен език (НЛП).

Снимка: Tamur чрез WikiMedia Commons, обществено достояние (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Много от техники които се използват при обработка на естествен език, могат да бъдат поставени в една от двете категории: синтаксис или семантика. Синтаксичните техники са тези, които се занимават с подреждането на думите, докато семантичните техники са техниките, които включват значението на думите.

Синтаксис НЛП техники

Примерите за синтаксис включват:

Лематизация
Морфологична сегментация
Маркиране на част от речта
морфологичен разбор
Нарушаване на изречението
Изхождайки
Сегментиране на думи

Лематизацията се отнася до дестилирането на различните флексии на една дума до една форма. Лематизацията взема неща като времена и множествени числа и ги опростява, например „крака“ може да стане „крак“, а „ленти“ може да стане „ивица“. Тази опростена форма на дума улеснява алгоритъма да интерпретира думите в документ.

Морфологичната сегментация е процес на разделяне на думите на морфеми или основни единици на една дума. Тези единици са неща като безплатни морфеми (които могат да стоят самостоятелно като думи) и префикси или наставки.

Маркиране на част от речта е просто процес на идентифициране коя част от речта е всяка дума във входен документ.

морфологичен разбор се отнася до анализиране на всички думи в изречение и съотнасянето им с техните официални граматични етикети или извършване на граматичен анализ за всички думи.

Нарушаване на изречение, или сегментиране на границата на изречението, се отнася до решаването къде започва и къде завършва изречението.

Изхождайки е процесът на редуциране на думите до коренната форма на думата. Например свързани, връзка и връзки ще бъдат свързани с „свързване“.

Сегментиране на думи е процесът на разделяне на големи части от текст на малки единици, които могат да бъдат думи или свързани с основа/лематизирани единици.

Семантични НЛП техники

Семантичните НЛП техники включват техники като:

Разпознаване на име на обект
Поколение на естествен език
Разграничаване на думата и смисъла

Разпознаване на именуван обект включва маркиране на определени текстови части, които могат да бъдат поставени в една от редица различни предварително зададени групи. Предварително дефинираните категории включват неща като дати, градове, места, компании и лица.

Поколение на естествен език е процес на използване на бази данни за трансформиране на структурирани данни в естествен език. Например статистически данни за времето, като температура и скорост на вятъра, могат да бъдат обобщени с естествен език.

Разграничаването на смисъла на думите е процесът на придаване на значение на думите в рамките на текст въз основа на контекста, в който се появяват думите.

Модели на дълбоко обучение за НЛП

Обикновените многослойни перцептрони не са в състояние да се справят с интерпретацията на последователни данни, където редът на информацията е важен. За да се справим с важността на реда в последователните данни, се използва тип невронна мрежа, която запазва информация от предишни времеви стъпки в обучението.

Повтарящи се невронни мрежи са видове невронни мрежи, които обхождане на данни от предишни времеви стъпки, като ги вземе предвид при изчисляване на теглата на текущата времева стъпка. По същество RNN имат три параметъра, които се използват по време на преминаването на обучение напред: матрица, базирана на предишното скрито състояние, матрица, базирана на текущия вход, и матрица, която е между скритото състояние и изхода. Тъй като RNN могат да вземат под внимание информация от предишни времеви стъпки, те могат да извличат подходящи модели от текстови данни, като вземат под внимание по-ранни думи в изречението, когато интерпретират значението на дадена дума.

Друг тип архитектура за дълбоко обучение, използвана за обработка на текстови данни, е мрежа с дълга краткосрочна памет (LSTM).. Мрежите LSTM са подобни на RNN по структура, но поради някои разлики в тяхната архитектура те са склонни да се представят по-добре от RNN. Те избягват специфичен проблем, който често възниква при използване на RNN, наречен проблем с експлодиращ градиент.

Тези дълбоки невронни мрежи могат да бъдат еднопосочни или двупосочни. Двупосочните мрежи са в състояние да вземат под внимание не само думите, които идват преди текущата дума, но и думите, които идват след нея. Въпреки че това води до по-висока точност, е по-скъпо от изчислителна гледна точка.

Случаи на използване за обработка на естествен език (NLP)

Снимка: mohammed_hassan чрез Pixabay, лиценз на Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Тъй като обработката на естествен език включва анализ и манипулиране на човешки езици, тя има невероятно широк спектър от приложения. Възможните приложения за НЛП включват чатботове, дигитални асистенти, анализ на настроението, организация на документи, набиране на таланти и здравеопазване.

Чатботове и дигитални асистенти като Alexa на Amazon и Google Assistant са примери за платформи за гласово разпознаване и синтез, които използват NLP за интерпретиране и отговаряне на гласови команди. Тези дигитални асистенти помагат на хората с голямо разнообразие от задачи, като им позволяват да прехвърлят някои от когнитивните си задачи на друго устройство и да освободят част от мозъчната си сила за други, по-важни неща. Вместо да търсим най-добрия маршрут до банката в натоварена сутрин, можем просто да накараме нашия дигитален асистент да го направи.

Анализ на настроението е използването на НЛП техники за изучаване на реакциите и чувствата на хората към дадено явление, както се предава чрез използването на езика. Улавянето на настроението на дадено изявление, като тълкуването дали прегледът на даден продукт е добър или лош, може да предостави на компаниите значителна информация относно това как техният продукт се приема.

Автоматичното организиране на текстови документи е друго приложение на НЛП. Компании като Google и Yahoo използват NLP алгоритми, за да класифицират имейл документи, като ги поставят в съответните кошчета като „социални“ или „промоции“. Те също използват тези техники за идентифицирайте спама и да го предотвратите да достигне до входящата ви кутия.

Групите също така са разработили НЛП техники, които се използват за идентифициране на потенциални служители за работа, като ги намират въз основа на съответните умения. Мениджърите по наемане също използват НЛП техники, за да им помогнат да сортират списъците с кандидати.

Техниките на НЛП също се използват за подобряване на здравеопазването. НЛП може да се използва за подобряване на откриването на заболявания. Здравните досиета могат да бъдат анализирани и симптомите извлечени от NLP алгоритми, които след това могат да бъдат използвани за предлагане на възможни диагнози. Един пример за това е платформата Comprehend Medical на Amazon, която анализира здравни досиета и извлича болести и лечения. Приложенията на НЛП в здравеопазването се простират и до психичното здраве. Има приложения като WoeBot, който говори на потребителите чрез различни техники за управление на тревожността, базирани на когнитивно-поведенческата терапия.

Свързани теми:обработка на естествен език НЛП

Следва

Бивши професионалисти от разузнаването използват AI, за да разкрият трафика на хора

Не пропускайте

GPT-2, генераторът на текст с изкуствен интелект се пуска изцяло

Даниел Нелсън

Блогър и програмист със специалности в Machine Learning намлява Дълбоко обучение теми. Даниел се надява да помогне на другите да използват силата на ИИ за социално благо.