Connect with us

Kunstig intelligens

Hva er NLP (Naturlig Språkbehandling)?

mm

Naturlig Språkbehandling (NLP) er studiet og anvendelsen av teknikkene og verktøyene som muliggjør at datamaskiner kan prosessere, analysere, tolke og resonere om menneskespråk. NLP er et tverrfaglig felt og kombinerer teknikker etablert i fag som lingvistikk og datavitenskap. Disse teknikker brukes i kombinasjon med AI til å lage chatboter og digitale assistenter som Google Assistant og Amazon’s Alexa.

La oss ta noen tid til å utforske grunnene bak Naturlig Språkbehandling, noen av teknikken som brukes i NLP og noen vanlige bruksområder for NLP.

Hvorfor Naturlig Språkbehandling (NLP) er viktig

For at datamaskiner skal kunne tolke menneskespråk, må de konverteres til en form som en datamaskin kan manipulere. Men dette er ikke så enkelt som å konvertere tekstdata til tall. For å kunne utlede mening fra menneskespråk, må mønster trekkes ut fra de hundre eller tusen ord som utgjør en tekst. Dette er ingen enkel oppgave. Det finnes få harde og raske regler som kan brukes til å tolke menneskespråk. For eksempel kan samme sett med ord bety forskjellige ting avhengig av konteksten. Menneskespråk er et komplekst og ofte tvetydig fenomen, og en uttalelse kan uttrykkes med ærlighet eller sarkasme.

Til tross for dette, finnes det noen generelle retningslinjer som kan brukes når man tolker ord og tegn, som for eksempel tegnet “s” som brukes til å angi at et objekt er flertall. Disse generelle retningslinjene må brukes i kombinasjon med hverandre for å utlede mening fra teksten, og for å skape egenskaper som en maskinlæringsalgoritme kan tolke.

Naturlig Språkbehandling innebærer anvendelsen av ulike algoritmer som kan ta ustukt data og konvertere dem til strukturert data. Hvis disse algoritmene anvendes på feil måte, vil datamaskinen ofte feile i å utlede riktig mening fra teksten. Dette kan ofte sees i oversettelse av tekst mellom språk, hvor den nøyaktige betydningen av setningen ofte går tapt. Mens maskinoversettelse har forbedret seg betraktelig de siste årene, skjer maskinoversettelsesfeil likevel ofte.

Naturlig Språkbehandling (NLP) Teknikker

Photo: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Mange av teknikken som brukes i naturlig språkbehandling kan plasseres i en av to kategorier: syntaks eller semantikk. Syntaks-teknikker er de som handler om ordens rekkefølge, mens semantiske teknikker er teknikker som handler om ordens betydning.

Syntaks NLP Teknikker

Eksempler på syntaks inkluderer:

  • Lematisering
  • Morfologisk segmentering
  • Del-av-tale-tagging
  • Parsing
  • Setningsdeling
  • Stamming
  • Ordsegmentering

Lematisering refererer til å destillere de forskjellige bøyningene av et ord ned til en enkelt form. Lematisering tar ting som tid og flertall og forenkler dem, for eksempel kan “føtter” bli “fot” og “striper” kan bli “stripe”. Denne forenklede ordformen gjør det lettere for en algoritme å tolke ordene i en dokument.

Morfologisk segmentering er prosessen med å dele ord inn i morfemer eller de grunnleggende enhetene i et ord. Disse enhetene er ting som frie morfemer (som kan stå alene som ord) og prefikser eller suffikser.

Del-av-tale-tagging er bare prosessen med å identifisere hvilken del av tale hvert ord i en inndata-dokument er.

Parsing refererer til å analysere alle ordene i en setning og korrelere dem med deres formelle grammatikklammer eller gjøre grammatisk analyse for alle ordene.

Setningsdeling, eller setningsgrense-segmentering, refererer til å bestemme hvor en setning begynner og slutter.

Stamming er prosessen med å redusere ord ned til roten av ordet. For eksempel ville “koblet”, “kobling” og “koblinger” alle bli stammet til “koble”.

Ordsegmentering er prosessen med å dele store tekststykker ned i små enheter, som kan være ord eller stammet/lematiserte enheter.

Semantiske NLP Teknikker

Semantiske NLP-teknikker inkluderer teknikker som:

  • Navngitt enhetsgjenkjenning
  • Naturlig språkgenerering
  • Ord-betydning-uskillelse

Navngitt enhetsgjenkjenning innebærer å merke bestemte tekststykker som kan plasseres i en av en rekke forhåndsdefinerte grupper. Forhåndsdefinerte kategorier inkluderer ting som datoer, byer, steder, selskaper og personer.

Naturlig språkgenerering er prosessen med å bruke databaser til å omforme strukturert data til naturlig språk. For eksempel kunne statistikk om været, som temperatur og vindhastighet, sammenfattes med naturlig språk.

Ord-betydning-uskillelse er prosessen med å tildele betydning til ord innen en tekst basert på konteksten ordene opptrer i.

Dype Læringsmodeller For NLP

Vanlige multilag-perceptron er ikke i stand til å håndtere tolkningen av sekvensiell data, hvor rekkefølgen av informasjonen er viktig. For å håndtere viktigheten av rekkefølge i sekvensiell data, brukes en type neuralnettverk som bevarer informasjon fra tidligere tidspunkter i treningen.

Rekurrente Neuralnettverk er typer neuralnettverk som løper over data fra tidligere tidspunkter, og tar dem med i betraktning når de beregner vektene for det nåværende tidspunktet. I virkeligheten har RNN-er tre parametre som brukes under fremover-treningen: en matrise basert på den forrige skjulte tilstanden, en matrise basert på den nåværende inndata, og en matrise som er mellom den skjulte tilstanden og utdata. Fordi RNN-er kan ta informasjon fra tidligere tidspunkter med i betraktning, kan de trekke ut relevante mønster fra tekstdata ved å ta tidligere ord i setningen med i betraktning når de tolker betydningen av et ord.

En annen type dyp læringsarkitektur som brukes til å prosessere tekstdata er en Long Short-Term Memory (LSTM) nettverk. LSTM-nettverk er lignende på RNN-er i struktur, men på grunn av noen forskjeller i deres arkitektur, tendrer de til å fungere bedre enn RNN-er. De unngår et bestemt problem som ofte oppstår når man bruker RNN-er, kalt eksploderende gradient-problemet.

Disse dype neuralnettverkene kan være enten unidireksjonale eller bidireksjonale. Bidireksjonale nettverk er i stand til å ta ikke bare ordene som kommer før det nåværende ordet med i betraktning, men også ordene som kommer etter det. Mens dette fører til høyere nøyaktighet, er det mer komputasjonskrevende.

Bruksområder For Naturlig Språkbehandling (NLP)

Photo: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Fordi Naturlig Språkbehandling innebærer analysen og manipuleringen av menneskespråk, har det en usedvanlig bred rekke av anvendelser. Mulige anvendelser for NLP inkluderer chatboter, digitale assistenter, holdningsanalyse, dokumentorganisering, rekruttering og helse.

Chatboter og digitale assistenter som Amazon’s Alexa og Google Assistant er eksempler på talegjenkjenning og syntese-plattformer som bruker NLP til å tolke og svare på talekommandoer. Disse digitale assistentene hjelper mennesker med en rekke oppgaver, og lar dem avlaste noen av deres kognitive oppgaver til en annen enhet og frigjøre litt av deres hjernekapasitet til andre, viktigere ting. I stedet for å søke opp den beste ruten til banken på en travel morgen, kan vi bare la vår digitale assistent gjøre det.

Holdningsanalyse er bruken av NLP-teknikker til å studere menneskers reaksjoner og følelser på et fenomen, som kommunisert gjennom deres bruk av språk. Å fange holdningen til en uttalelse, som å tolke om en anmeldelse av et produkt er god eller dårlig, kan gi selskaper betydelig informasjon om hvordan deres produkt mottas.

Automatisk organisering av tekst-dokumenter er en annen anvendelse av NLP. Selskaper som Google og Yahoo bruker NLP-algoritmer til å klassifisere e-postdokumenter, og plassere dem i de riktige boksene, som “sociale” eller “fremmings”. De bruker også disse teknikker til å identifisere spam og forhindre at det når innboksen din.

Grupper har også utviklet NLP-teknikker som brukes til å identifisere potensielle jobbkandidater, og finne dem basert på relevante ferdigheter. Rekrutterere bruker også NLP-teknikker til å hjelpe dem sortere gjennom lister over søkere.

NLP-teknikker brukes også til å forbedre helsen. NLP kan brukes til å forbedre sykdomsdeteksjonen. Helsejournaler kan analyseres og symptomer trekkes ut av NLP-algoritmer, som kan brukes til å foreslå mulige diagnoser. Et eksempel på dette er Amazon’s Comprehend Medical-plattform, som analyserer helsejournaler og trekker ut sykdommer og behandlinger. Helseanvendelser av NLP omfatter også mental helse. Det finnes apper som WoeBot, som fører brukerne gjennom en rekke angstbehandlings-teknikker basert på kognitiv atferdsterapi.

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.