Intel·ligència Artificial

Què és el processament del llenguatge natural (PNL)?

actualitzat on Març 20, 2024

Processament del llenguatge natural (PNL) és l'estudi i l'aplicació de tècniques i eines que permeten als ordinadors processar, analitzar, interpretar i raonar sobre el llenguatge humà. La PNL és un camp interdisciplinari i combina tècniques establertes en camps com la lingüística i la informàtica. Aquestes tècniques s'utilitzen conjuntament amb la IA per crear chatbots i assistents digitals com Google Assistant i Alexa d'Amazon.

Dediquem una estona a explorar la raó del processament del llenguatge natural, algunes de les tècniques utilitzades a la PNL i alguns casos d'ús habituals de la PNL.

Per què és important el processament del llenguatge natural (PNL).

Perquè els ordinadors interpretin el llenguatge humà, s'han de convertir en una forma que un ordinador pugui manipular. Tanmateix, això no és tan senzill com convertir dades de text en números. Per tal de derivar el significat del llenguatge humà, cal extreure patrons dels centenars o milers de paraules que formen un document de text. Aquesta no és una tasca fàcil. Hi ha poques regles dures i ràpides que es poden aplicar a la interpretació del llenguatge humà. Per exemple, el mateix conjunt de paraules pot significar coses diferents segons el context. El llenguatge humà és una cosa complexa i sovint ambigua, i una afirmació es pot pronunciar amb sinceritat o sarcasme.

Malgrat això, hi ha algunes pautes generals que es poden utilitzar a l'hora d'interpretar paraules i caràcters, com ara el caràcter "s" que s'utilitza per indicar que un ítem és plural. Aquestes directrius generals s'han d'utilitzar conjuntament per extreure el significat del text, per crear funcions que un algorisme d'aprenentatge automàtic pugui interpretar.

El processament del llenguatge natural implica l'aplicació de diversos algorismes capaços d'agafar dades no estructurades i convertir-les en dades estructurades. Si aquests algorismes s'apliquen de manera incorrecta, sovint l'ordinador no pot obtenir el significat correcte del text. Això sovint es pot veure en la traducció de text entre llengües, on sovint es perd el significat precís de la frase. Tot i que la traducció automàtica ha millorat substancialment durant els últims anys, els errors de traducció automàtica encara es produeixen amb freqüència.

Tècniques de processament del llenguatge natural (PNL).

Foto: Tamur via WikiMedia Commons, domini públic (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Molts dels tècniques que s'utilitzen en el processament del llenguatge natural es poden situar en una d'aquestes dues categories: sintaxi o semàntica. Les tècniques de sintaxi són les que s'ocupen de l'ordenació de les paraules, mentre que les tècniques semàntiques són les tècniques que impliquen el significat de les paraules.

Tècniques de PNL de sintaxi

Alguns exemples de sintaxi inclouen:

Lematització
Segmentació morfològica
Etiquetatge de part de la parla
Anàlisi
Trencament de la sentència
stemming
Segmentació de paraules

La lematització es refereix a destil·lar les diferents flexions d'una paraula en una sola forma. La lematització pren coses com els temps i els plurals i els simplifica, per exemple, "peus" es pot convertir en "peu" i "ratlles" poden convertir-se en "banda". Aquesta forma de paraula simplificada facilita que un algorisme interpreti les paraules d'un document.

La segmentació morfològica és el procés de dividir paraules en morfemes o unitats base d'una paraula. Aquestes unitats són coses com ara gratuïtes morfemes (que poden ser soles com a paraules) i prefixos o sufixos.

Etiquetatge de part del discurs és simplement el procés d'identificar quina part del discurs és cada paraula d'un document d'entrada.

Anàlisi es refereix a analitzar totes les paraules d'una frase i correlacionar-les amb les seves etiquetes gramaticals formals o fer anàlisi gramatical de totes les paraules.

Trencament de la frase, o segmentació del límit de la frase, fa referència a decidir on comença i on acaba una frase.

stemming és el procés de reduir les paraules a la forma arrel de la paraula. Per exemple, connectat, connexió i connexions es derivarien de "connectar".

Segmentació de paraules és el procés de dividir grans fragments de text en petites unitats, que poden ser paraules o unitats derivades/lematitzades.

Tècniques de PNL semàntica

Les tècniques de PNL semàntica inclouen tècniques com:

Reconeixement d'entitats anomenades
Generació de Llenguatge Natural
Desambiguació paraula-sentit

Reconeixement de l'entitat anomenada implica etiquetar determinades parts de text que es poden col·locar en un dels diferents grups preestablerts. Les categories predefinides inclouen coses com ara dates, ciutats, llocs, empreses i persones.

Generació de llenguatge natural és el procés d'utilitzar bases de dades per transformar dades estructurades en llenguatge natural. Per exemple, les estadístiques sobre el temps, com la temperatura i la velocitat del vent, es podrien resumir amb llenguatge natural.

La desambiguació del sentit de la paraula és el procés d'assignar significat a les paraules dins d'un text en funció del context en què apareixen les paraules.

Models d'aprenentatge profund per a la PNL

Els perceptrons multicapa regulars són incapaços de gestionar la interpretació de dades seqüencials, on l'ordre de la informació és important. Per tal de tractar la importància de l'ordre en les dades seqüencials, s'utilitza un tipus de xarxa neuronal que conserva la informació dels passos anteriors de l'entrenament.

Xarxes neuronals recurrents són tipus de xarxes neuronals que bucle sobre dades de passos de temps anteriors, tenint-los en compte a l'hora de calcular els pesos del pas de temps actual. Essencialment, els RNN tenen tres paràmetres que s'utilitzen durant la passada d'entrenament: una matriu basada en l'estat ocult anterior, una matriu basada en l'entrada actual i una matriu que es troba entre l'estat ocult i la sortida. Com que els RNN poden tenir en compte la informació dels passos de temps anteriors, poden extreure patrons rellevants de dades de text tenint en compte les paraules anteriors de la frase quan interpreten el significat d'una paraula.

Un altre tipus d'arquitectura d'aprenentatge profund utilitzat per processar dades de text és una xarxa de memòria a llarg termini (LSTM).. Les xarxes LSTM són similars a les RNN en l'estructura, però a causa d'algunes diferències en la seva arquitectura tendeixen a tenir un millor rendiment que les RNN. Eviten un problema específic que sovint es produeix quan s'utilitzen RNN anomenats problema de gradient explosiu.

Aquestes xarxes neuronals profundes poden ser unidireccionals o bidireccionals. Les xarxes bidireccionals són capaços de tenir en compte no només les paraules anteriors a la paraula actual, sinó també les paraules que la segueixen. Tot i que això condueix a una precisió més alta, és més car computacionalment.

Casos d'ús per al processament del llenguatge natural (PNL)

Foto: mohammed_hassan a través de Pixabay, llicència de Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Com que el processament del llenguatge natural implica l'anàlisi i la manipulació de llenguatges humans, té una gamma d'aplicacions increïblement àmplia. Les possibles aplicacions de PNL inclouen chatbots, assistents digitals, anàlisi de sentiments, organització de documents, captació de talent i assistència sanitària.

Els chatbots i els assistents digitals com Alexa d'Amazon i Google Assistant són exemples de plataformes de reconeixement i síntesi de veu que utilitzen NLP per interpretar i respondre a ordres vocals. Aquests assistents digitals ajuden les persones amb una gran varietat de tasques, permetent-los descarregar algunes de les seves tasques cognitives a un altre dispositiu i alliberar part del seu cervell per a altres coses més importants. En lloc de buscar la millor ruta al banc en un matí ocupat, només podem fer que el nostre assistent digital ho faci.

Anàlisi de sentiments és l'ús de tècniques de PNL per estudiar les reaccions i els sentiments de les persones davant un fenomen, tal com es comunica mitjançant l'ús del llenguatge. Captar el sentiment d'una declaració, com interpretar si una revisió d'un producte és bona o dolenta, pot proporcionar a les empreses informació substancial sobre com es rep el seu producte.

L'organització automàtica de documents de text és una altra aplicació de la PNL. Empreses com Google i Yahoo utilitzen algorismes de PNL per classificar els documents de correu electrònic, posant-los als contenidors adequats com ara "socials" o "promocions". També utilitzen aquestes tècniques per identificar el correu brossa i evitar que arribi a la safata d'entrada.

Els grups també han desenvolupat tècniques de PNL per identificar possibles contractacions de feina, trobant-les en funció de les habilitats rellevants. Els gestors de contractació també utilitzen tècniques de PNL per ajudar-los a ordenar les llistes de sol·licitants.

Les tècniques de PNL també s'estan utilitzant per millorar l'assistència sanitària. La PNL es pot utilitzar per millorar la detecció de malalties. Els registres de salut es poden analitzar i extreure els símptomes mitjançant algorismes de PNL, que després es poden utilitzar per suggerir possibles diagnòstics. Un exemple d'això és la plataforma Comprehend Medical d'Amazon, que analitza els registres de salut i extreu malalties i tractaments. Les aplicacions sanitàries de la PNL també s'estenen a la salut mental. Hi ha aplicacions com ara WoeBot, que parla als usuaris a través d'una varietat de tècniques de gestió de l'ansietat basades en la Teràpia Cognitiu Conductual.

Temes relacionats:processament del llenguatge natural nlp

Fins a la propera

Els antics professionals de la intel·ligència utilitzen la IA per descobrir el tràfic de persones

No et perdis

GPT-2, el generador de text d'intel·ligència artificial s'està llançant íntegrament

Daniel Nelson

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.