Вештачка интелигенција

Што е НЛП (обработка на природен јазик)?

Ажурирани on Март 20, 2024

Обработка на природен јазик (НЛП) е проучување и примена на техники и алатки кои им овозможуваат на компјутерите да обработуваат, анализираат, толкуваат и расудуваат за човечкиот јазик. НЛП е интердисциплинарна област и комбинира техники воспоставени во области како лингвистиката и компјутерската наука. Овие техники се користат заедно со вештачката интелигенција за создавање чет-ботови и дигитални асистенти како Google Assistant и Alexa на Amazon.

Ајде да одвоиме малку време за да го истражиме образложението зад обработката на природниот јазик, некои од техниките што се користат во НЛП и некои случаи за вообичаени употреби за НЛП.

Зошто е важна обработката на природниот јазик (НЛП).

Со цел компјутерите да го толкуваат човечкиот јазик, тие мора да се претворат во форма со која компјутерот може да манипулира. Сепак, ова не е толку едноставно како конвертирање на текстуални податоци во бројки. За да се добие значење од човечкиот јазик, мора да се извлечат обрасци од стотиците или илјадниците зборови што го сочинуваат текстуалниот документ. Ова не е лесна задача. Постојат неколку тешки и брзи правила кои можат да се применат при толкувањето на човечкиот јазик. На пример, истиот сет на зборови може да значи различни работи во зависност од контекстот. Човечкиот јазик е сложена и често двосмислена работа, а изјавата може да се изговори со искреност или сарказам.

И покрај ова, постојат некои општи упатства што може да се користат при толкување на зборови и знаци, како што е знакот „s“ што се користи за да се означи дека ставката е множина. Овие општи насоки треба да се користат заедно едни со други за да се извлече значење од текстот, за да се создадат карактеристики што алгоритам за машинско учење може да ги интерпретира.

Обработката на природен јазик вклучува примена на различни алгоритми способни да земаат неструктурирани податоци и да ги претворат во структурирани податоци. Ако овие алгоритми се применат на погрешен начин, компјутерот честопати нема да успее да го изведе правилното значење од текстот. Ова често може да се види во преводот на текст меѓу јазиците, каде што често се губи прецизното значење на реченицата. Иако машинското преведување е значително подобрено во текот на изминатите неколку години, грешките во машинското преведување сè уште се појавуваат често.

Техники за обработка на природен јазик (НЛП).

Фото: Тамур преку WikiMedia Commons, јавен домен (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Многу од техники кои се користат во обработката на природниот јазик може да се сместат во една од двете категории: синтакса или семантика. Синтаксните техники се оние кои се занимаваат со подредување на зборовите, додека семантичките техники се техники кои го вклучуваат значењето на зборовите.

Синтакса НЛП техники

Примери за синтакса вклучуваат:

Лематизација
Морфолошка сегментација
Означување на дел од говорот
Парсирање
Прекршување на реченицата
Матење
Сегментација на зборови

Лематизацијата се однесува на дестилирање на различните флексии на зборот до една форма. Лематизацијата зема работи како времиња и множина и ги поедноставува, на пример, „стапалата“ може да станат „стапала“, а „лентите“ може да станат „лента“. Оваа поедноставена форма на зборови го олеснува алгоритмот да ги толкува зборовите во документот.

Морфолошка сегментација е процес на делење на зборовите на морфеми или основни единици на зборот. Овие единици се работи како бесплатни морфеми (што може да стои само како зборови) и префикси или суфикси.

Означување на дел од говорот е едноставно процес на идентификување кој дел од говорот е секој збор во влезен документ.

Парсирање се однесува на анализа на сите зборови во реченицата и нивна корелација со нивните формални граматички етикети или правење граматичка анализа за сите зборови.

Прекршување на реченицата или сегментација на границата на реченицата, се однесува на одлучување каде започнува и завршува реченицата.

Матење е процес на намалување на зборовите до коренската форма на зборот. На пример, поврзаните, конекциите и врските би требало да се „поврзат“.

Сегментација на зборови е процес на делење на големи делови од текст на мали единици, кои можат да бидат зборови или матични/лематизирани единици.

Семантички НЛП техники

Семантичките НЛП техники вклучуваат техники како што се:

Именувано признавање на субјектот
Генерација на природен јазик
Појаснување на збор-смисла

Препознавање на именуван ентитет вклучува означување на одредени делови од текстот што може да се стават во една од повеќе различни претходно поставени групи. Однапред дефинираните категории вклучуваат работи како датуми, градови, места, компании и поединци.

Генерација на природен јазик е процес на користење на бази на податоци за трансформација на структурирани податоци во природен јазик. На пример, статистиката за времето, како што се температурата и брзината на ветерот, може да се сумираат со природен јазик.

Појаснување на смислата на зборот е процес на доделување значење на зборовите во текстот врз основа на контекстот во кој се појавуваат зборовите.

Модели за длабоко учење за НЛП

Редовните повеќеслојни перцептрони не се во состојба да се справат со толкувањето на секвенцијалните податоци, каде што е важен редоследот на информациите. Со цел да се справиме со важноста на редот во секвенцијалните податоци, се користи тип на невронска мрежа која ги зачувува информациите од претходните временски чекори во обуката.

Рекурентни невронски мрежи се видови на невронски мрежи кои јамка преку податоците од претходните временски чекори, земајќи ги предвид при пресметување на тежините на тековниот временски чекор. Во суштина, RNN има три параметри кои се користат за време на напредната обука: матрица базирана на претходната скриена состојба, матрица базирана на Тековниот влез и матрица што е помеѓу скриената состојба и излезот. Бидејќи RNN може да ги земат предвид информациите од претходните временски чекори, тие можат да извлечат релевантни обрасци од текстуалните податоци земајќи ги предвид претходните зборови во реченицата кога го толкуваат значењето на зборот.

Друг тип на архитектура за длабоко учење што се користи за обработка на текстуални податоци е мрежа со долга краткорочна меморија (LSTM).. LSTM мрежите се слични на RNN во структурата, но поради некои разлики во нивната архитектура тие имаат тенденција да работат подобро од RNN. Тие избегнуваат специфичен проблем што често се јавува при користење на RNN наречени проблем со градиент со експлозија.

Овие длабоки невронски мрежи можат да бидат или еднонасочни или двонасочни. Двонасочните мрежи се способни да ги земат предвид не само зборовите што доаѓаат пред тековниот збор, туку и зборовите што доаѓаат после него. Иако ова води до поголема точност, тоа е поскапо од пресметковно.

Случаи за употреба за обработка на природен јазик (НЛП)

Фото: mohammed_hassan преку Pixabay, лиценца Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Бидејќи обработката на природниот јазик вклучува анализа и манипулација со човечки јазици, има неверојатно широк опсег на апликации. Можните апликации за НЛП вклучуваат чет-ботови, дигитални асистенти, анализа на чувствата, организација на документи, регрутирање таленти и здравствена заштита.

Chatbots и дигиталните асистенти како Amazon's Alexa и Google Assistant се примери на платформи за препознавање и синтеза на глас кои користат NLP за интерпретација и одговор на гласовните команди. Овие дигитални асистенти им помагаат на луѓето со широк спектар на задачи, дозволувајќи им да преземат некои од нивните когнитивни задачи на друг уред и да ослободат дел од нивниот мозок за други, поважни работи. Наместо да ја бараме најдобрата рута до банката во напорно утро, можеме само да го натераме нашиот дигитален асистент да го направи тоа.

Анализа на чувства е употребата на НЛП техники за проучување на реакциите и чувствата на луѓето на некој феномен, како што е соопштено со нивната употреба на јазикот. Доловувањето на чувството на изјава, како што е толкувањето дали прегледот на производот е добар или лош, може да им обезбеди на компаниите значителни информации за тоа како се прима нивниот производ.

Автоматското организирање текстуални документи е уште една апликација на НЛП. Компаниите како Google и Yahoo користат NLP алгоритми за да ги класифицираат документите за е-пошта, ставајќи ги во соодветните корпи како „социјални“ или „промоции“. Тие исто така ги користат овие техники за да идентификувајте спам и спречете го да стигне до вашето сандаче.

Групите развиле и НЛП техники кои се користат за да се идентификуваат потенцијалните вработувања, наоѓајќи ги врз основа на соодветните вештини. Менаџерите за вработување исто така користат НЛП техники за да им помогнат да сортираат списоци на апликанти.

Техниките на НЛП исто така се користат за подобрување на здравствената заштита. НЛП може да се користи за да се подобри откривањето на болестите. Здравствените досиеја може да се анализираат и симптомите да се извлечат со НЛП алгоритми, кои потоа може да се користат за да се предложат можни дијагнози. Еден пример за ова е платформата Comprehend Medical на Amazon, која ги анализира здравствените досиеја и извлекува болести и третмани. Здравствените апликации на НЛП се прошируваат и на менталното здравје. Има апликации како WoeBot, кој ги зборува корисниците преку различни техники за управување со анксиозност базирани на когнитивна бихејвиорална терапија.

Поврзани теми:обработка на природен јазик nlp

Следно

Поранешни разузнавачи користат вештачка интелигенција за да откријат трговија со луѓе

Не ја пропуштајте

GPT-2, генератор на текст за вештачка интелигенција се објавува целосно

Даниел Нелсон

Блогер и програмер со специјалитети во Машинско учење Длабоко учење теми. Даниел се надева дека ќе им помогне на другите да ја искористат моќта на вештачката интелигенција за општествено добро.