Artificial Intelligence

Wat is NLP (Natural Language Processing)?

Bijgewerkt on 20 maart 2024

Natuurlijke taalverwerking (NLP) is de studie en toepassing van technieken en hulpmiddelen waarmee computers menselijke taal kunnen verwerken, analyseren, interpreteren en beredeneren. NLP is een interdisciplinair veld en het combineert technieken die zijn gevestigd op gebieden als taalkunde en informatica. Deze technieken worden samen met AI gebruikt om chatbots en digitale assistenten zoals Google Assistant en Alexa van Amazon te maken.

Laten we even de tijd nemen om de grondgedachte achter natuurlijke taalverwerking, enkele van de technieken die in NLP worden gebruikt, en enkele veelvoorkomende toepassingen van NLP te verkennen.

Waarom natuurlijke taalverwerking (NLP) ertoe doet

Om computers menselijke taal te laten interpreteren, moeten ze worden omgezet in een vorm die een computer kan manipuleren. Dit is echter niet zo eenvoudig als het omzetten van tekstgegevens in getallen. Om betekenis te ontlenen aan menselijke taal, moeten patronen worden geëxtraheerd uit de honderden of duizenden woorden waaruit een tekstdocument bestaat. Dit is geen gemakkelijke taak. Er zijn weinig harde en snelle regels die kunnen worden toegepast op de interpretatie van menselijke taal. Exact dezelfde reeks woorden kan bijvoorbeeld verschillende dingen betekenen, afhankelijk van de context. Menselijke taal is een complex en vaak dubbelzinnig iets, en een verklaring kan worden uitgesproken met oprechtheid of sarcasme.

Desondanks zijn er enkele algemene richtlijnen die kunnen worden gebruikt bij het interpreteren van woorden en karakters, zoals het teken “s” dat wordt gebruikt om aan te geven dat een item meervoud is. Deze algemene richtlijnen moeten in samenhang met elkaar worden gebruikt om betekenis uit de tekst te halen, om kenmerken te creëren die een machine learning-algoritme kan interpreteren.

Natuurlijke taalverwerking omvat de toepassing van verschillende algoritmen die in staat zijn om ongestructureerde gegevens te verwerken en deze om te zetten in gestructureerde gegevens. Als deze algoritmen op de verkeerde manier worden toegepast, zal de computer er vaak niet in slagen de juiste betekenis uit de tekst te halen. Dit is vaak te zien bij het vertalen van tekst tussen talen, waarbij de precieze betekenis van de zin vaak verloren gaat. Hoewel machinevertalingen de afgelopen jaren aanzienlijk zijn verbeterd, komen machinevertaalfouten nog steeds regelmatig voor.

Technieken voor natuurlijke taalverwerking (NLP).

Foto: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Veel van de technieken die worden gebruikt bij de verwerking van natuurlijke taal kunnen in twee categorieën worden ingedeeld: syntaxis of semantiek. Syntaxistechnieken zijn technieken die te maken hebben met de volgorde van woorden, terwijl semantische technieken de technieken zijn die betrekking hebben op de betekenis van woorden.

Syntaxis NLP-technieken

Voorbeelden van syntaxis zijn:

Lemmatisering
Morfologische segmentatie
Deel-van-spraak tagging
Parsing
Zin breken
stammend
Woordsegmentatie

Lemmatisering verwijst naar het destilleren van de verschillende verbuigingen van een woord tot een enkele vorm. Lemmatisering neemt dingen als tijden en meervouden en vereenvoudigt ze, bijvoorbeeld, "voeten" kunnen "voet" worden en "strepen" kunnen "streep" worden. Deze vereenvoudigde woordvorm maakt het voor een algoritme gemakkelijker om de woorden in een document te interpreteren.

Morfologische segmentatie is het proces van het verdelen van woorden in morfemen of de basiseenheden van een woord. Deze eenheden zijn dingen als gratis morfemen (die op zichzelf kunnen staan als woorden) en voorvoegsels of achtervoegsels.

Gedeeltelijk taggen is gewoon het proces om te identificeren welk deel van de spraak elk woord in een invoerdocument is.

Parsing verwijst naar het analyseren van alle woorden in een zin en het correleren ervan met hun formele grammaticalabels of het doen van grammaticale analyse voor alle woorden.

Zin breken, of segmentatie van zinsgrenzen, verwijst naar het beslissen waar een zin begint en eindigt.

stammend is het proces van het reduceren van woorden tot de grondvorm van het woord. Verbonden, verbinding en verbindingen zouden bijvoorbeeld allemaal worden afgeleid uit "verbinden".

Woordsegmentatie is het proces van het opdelen van grote stukken tekst in kleine eenheden, die woorden kunnen zijn of gestampte/gelemmatiseerde eenheden.

Semantische NLP-technieken

Semantische NLP-technieken omvatten technieken zoals:

Erkende entiteitsherkenning
Natuurlijke taalgeneratie
Word-Sense ondubbelzinnig

Benoemde entiteitsherkenning omvat het taggen van bepaalde tekstgedeelten die in een van een aantal verschillende vooraf ingestelde groepen kunnen worden geplaatst. Vooraf gedefinieerde categorieën omvatten zaken als datums, steden, plaatsen, bedrijven en individuen.

Natuurlijke taalontwikkeling is het proces waarbij databases worden gebruikt om gestructureerde gegevens om te zetten in natuurlijke taal. Statistieken over het weer, zoals temperatuur en windsnelheid, kunnen bijvoorbeeld worden samengevat in natuurlijke taal.

Word-sense disambiguation is het proces van het toekennen van betekenis aan woorden in een tekst op basis van de context waarin de woorden voorkomen.

Deep Learning-modellen voor NLP

Reguliere meerlaagse perceptrons zijn niet in staat om de interpretatie van sequentiële gegevens aan te kunnen, waarbij de volgorde van de informatie belangrijk is. Om rekening te houden met het belang van volgorde in sequentiële gegevens, wordt een type neuraal netwerk gebruikt dat informatie uit eerdere tijdstappen in de training bewaart.

Terugkerende neurale netwerken zijn soorten neurale netwerken die lus over gegevens van eerdere tijdstappen, waarbij hiermee rekening wordt gehouden bij het berekenen van de gewichten van de huidige tijdstap. In wezen hebben RNN's drie parameters die worden gebruikt tijdens de voorwaartse trainingspas: een matrix gebaseerd op de vorige verborgen status, een matrix gebaseerd op de huidige invoer en een matrix die zich tussen de verborgen status en de uitvoer bevindt. Omdat RNN's rekening kunnen houden met informatie uit eerdere tijdstappen, kunnen ze relevante patronen uit tekstgegevens halen door eerdere woorden in de zin in aanmerking te nemen bij het interpreteren van de betekenis van een woord.

Een ander type deep learning-architectuur dat wordt gebruikt om tekstgegevens te verwerken, is een Long Short-Term Memory (LSTM) netwerk. LSTM-netwerken lijken qua structuur op RNN's, maar vanwege enkele verschillen in hun architectuur presteren ze beter dan RNN's. Ze vermijden een specifiek probleem dat vaak voorkomt bij het gebruik van RNN's, de exploderend gradiëntprobleem.

Deze diepe neurale netwerken kunnen unidirectioneel of bidirectioneel zijn. Bidirectionele netwerken kunnen niet alleen rekening houden met de woorden die vóór het huidige woord komen, maar ook met de woorden die erna komen. Hoewel dit tot een hogere nauwkeurigheid leidt, is het rekenkundig duurder.

Gebruiksgevallen voor natuurlijke taalverwerking (NLP)

Foto: mohammed_hassan via Pixabay, Pixabay-licentie (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Omdat Natural Language Processing de analyse en manipulatie van menselijke talen inhoudt, heeft het een ongelooflijk breed scala aan toepassingen. Mogelijke toepassingen voor NLP zijn onder meer chatbots, digitale assistenten, sentimentanalyse, documentorganisatie, talentwerving en gezondheidszorg.

Chatbots en digitale assistenten zoals Amazon's Alexa en Google Assistant zijn voorbeelden van spraakherkennings- en syntheseplatforms die NLP gebruiken om vocale commando's te interpreteren en erop te reageren. Deze digitale assistenten helpen mensen met een breed scala aan taken, waardoor ze een deel van hun cognitieve taken naar een ander apparaat kunnen verplaatsen en een deel van hun denkkracht kunnen vrijmaken voor andere, belangrijkere dingen. In plaats van op een drukke ochtend de beste route naar de bank op te zoeken, kunnen we dat gewoon door onze digitale assistent laten doen.

Sentiment analyse is het gebruik van NLP-technieken om de reacties en gevoelens van mensen op een fenomeen te bestuderen, zoals gecommuniceerd door hun taalgebruik. Het vastleggen van het sentiment van een verklaring, zoals interpreteren of een beoordeling van een product goed of slecht is, kan bedrijven substantiële informatie verschaffen over hoe hun product wordt ontvangen.

Het automatisch organiseren van tekstdocumenten is een andere toepassing van NLP. Bedrijven zoals Google en Yahoo gebruiken NLP-algoritmen om e-maildocumenten te classificeren en ze in de juiste bakken te plaatsen, zoals 'sociaal' of 'promoties'. Ze gebruiken deze technieken ook om spam identificeren en voorkomen dat het uw inbox bereikt.

Groepen hebben ook NLP-technieken ontwikkeld die worden gebruikt om potentiële vacatures te identificeren en ze te vinden op basis van relevante vaardigheden. Wervingsmanagers gebruiken ook NLP-technieken om lijsten met sollicitanten te doorzoeken.

NLP-technieken worden ook gebruikt om de gezondheidszorg te verbeteren. NLP kan worden gebruikt om de detectie van ziekten te verbeteren. Gezondheidsdossiers kunnen worden geanalyseerd en symptomen kunnen worden geëxtraheerd door NLP-algoritmen, die vervolgens kunnen worden gebruikt om mogelijke diagnoses voor te stellen. Een voorbeeld hiervan is het Comprehend Medical-platform van Amazon, dat gezondheidsdossiers analyseert en ziekten en behandelingen eruit haalt. Gezondheidszorgtoepassingen van NLP strekken zich ook uit tot de geestelijke gezondheid. Er zijn apps zoals WoeBot, dat gebruikers door verschillende technieken voor angstbeheersing leidt die zijn gebaseerd op cognitieve gedragstherapie.

Gerelateerde onderwerpen:natuurlijke taalverwerking nlp

Voormalige inlichtingenprofessionals gebruiken AI om mensenhandel aan het licht te brengen

Mis het niet

GPT-2, tekstgenerator voor kunstmatige intelligentie wordt volledig vrijgegeven

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.