Kënschtlech Intelligenz

Wat ass NLP (Natural Language Processing)?

aktualiséiert on Mäerz 20, 2024

Natierlech Sproochveraarbechtung (NLP) ass d'Studie an d'Uwendung vun Techniken an Tools, déi Computeren erméigleche fir d'Mënschlech Sprooch ze veraarbechten, analyséieren, interpretéieren an ze begrënnen. NLP ass en interdisziplinärt Feld an et kombinéiert Techniken etabléiert a Felder wéi Linguistik a Informatik. Dës Technike ginn a Konzert mat AI benotzt fir Chatbots an digital Assistenten wéi Google Assistant an Amazon's Alexa ze kreéieren.

Loosst eis e bëssen Zäit huelen fir d'Begrënnung hannert Natural Language Processing ze entdecken, e puer vun den Techniken, déi an NLP benotzt ginn, an e puer allgemeng Benotzungsfäll fir NLP.

Firwat Natural Language Processing (NLP) wichteg ass

Fir datt Computere mënschlech Sprooch interpretéiere kënnen, musse se an eng Form ëmgewandelt ginn, déi e Computer manipuléiere kann. Wéi och ëmmer, dëst ass net sou einfach wéi Textdaten an Zuelen ëmsetzen. Fir Sënn aus der mënschlecher Sprooch ze kréien, musse Mustere vun den Honnerte oder Dausende vu Wierder extrahéiert ginn, déi en Textdokument ausmaachen. Dëst ass keng einfach Aufgab. Et gi wéineg schwéier a séier Regelen, déi op d'Interpretatioun vun der mënschlecher Sprooch applizéiert kënne ginn. Zum Beispill kann dee genaue selwechte Set vu Wierder verschidde Saache bedeiten ofhängeg vum Kontext. Mënschlech Sprooch ass eng komplex an dacks zweedeiteg Saach, an eng Ausso kann mat Oprecht oder Sarkasmus geäussert ginn.

Trotzdem ginn et e puer allgemeng Richtlinnen déi kënne benotzt ginn wann Dir Wierder a Charaktere interpretéiert, sou wéi de Charakter "s" benotzt gëtt fir ze bezeechnen datt en Element Plural ass. Dës allgemeng Richtlinnen mussen a Konzert matenee benotzt ginn fir Bedeitung aus dem Text ze extrahieren, fir Features ze kreéieren déi e Maschinnléier Algorithmus interpretéiere kann.

Natierlech Sproochveraarbechtung beinhalt d'Applikatioun vu verschiddenen Algorithmen, déi fäeg sinn onstrukturéiert Donnéeën ze huelen an a strukturéiert Daten ëmzewandelen. Wann dës Algorithmen op déi falsch Manéier applizéiert ginn, wäert de Computer dacks net déi richteg Bedeitung aus dem Text ofleeën. Dëst kann dacks an der Iwwersetzung vum Text tëscht Sproochen gesi ginn, wou déi präzis Bedeitung vum Saz dacks verluer geet. Wärend d'Maschinn Iwwersetzung an de leschte Jore wesentlech verbessert huet, komme Maschinn Iwwersetzungsfehler ëmmer nach dacks.

Natural Language Processing (NLP) Techniken

Foto: Tamur iwwer WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Vill vun der Techniken déi an der natierlecher Sproochveraarbechtung benotzt ginn, kënnen an eng vun zwou Kategorien plazéiert ginn: Syntax oder Semantik. Syntax Technike sinn déi, déi sech mat der Uerdnung vu Wierder beschäftegen, während semantesch Techniken d'Techniken sinn, déi d'Bedeitung vu Wierder involvéieren.

Syntax NLP Techniken

Beispiller vu Syntax enthalen:

Lemmatiséierung
Morphologesch Segmentatioun
Part-of-Speech Tagging
Analyséiere
Satz Breaking
Stemmung
Wuert Segmentatioun

Lemmatiséierung bezitt sech op d'Distillatioun vun de verschiddene Béiungen vun engem Wuert op eng eenzeg Form. Lemmatiséierung hëlt Saachen wéi Zäiten a Pluralen a vereinfacht se, zum Beispill, "Féiss" kënne "Fouss" ginn an "Sträifen" kënne "Sträifen" ginn. Dës vereinfacht Wuertform mécht et méi einfach fir en Algorithmus d'Wierder an engem Dokument ze interpretéieren.

Morphologesch Segmentatioun ass de Prozess fir Wierder a Morphemen oder d'Basis Eenheeten vun engem Wuert opzedeelen. Dës Unitéiten sinn Saachen wéi gratis Morphemen (déi eleng als Wierder kënne stoen) a Präfixe oder Suffixen.

Part-of-Speech Tagging ass einfach de Prozess fir z'identifizéieren wéi en Deel vun der Ried all Wuert an engem Inputdokument ass.

Analyséiere bezitt sech op d'Analyse vun all de Wierder an engem Saz a korreléiert se mat hire formelle Grammatiketiketten oder maacht eng grammatesch Analyse fir all d'Wierder.

Satz briechen, bzw Segmentéierung vu Sazgrenz, bezitt sech op d'Entscheedung wou e Saz ufänkt an ophält.

Stemmung ass de Prozess fir Wierder erof op d'Wuerzelform vum Wuert ze reduzéieren. Zum Beispill, verbonnen, Verbindung, a Verbindunge wieren all gestemmt fir "verbinden".

Wuert Segmentatioun ass de Prozess fir grouss Stécker vum Text a kleng Eenheeten opzedeelen, déi Wierder oder gestemmte/lemmatiséierter Eenheeten kënne sinn.

Semantesch NLP Techniken

Semantesch NLP Techniken enthalen Techniken wéi:

Genannt Entitéit Unerkennung
Natierlech Sprooch Generatioun
Wuert-Sënn Desambiguatioun

Benannt Entitéit Unerkennung involvéiert d'Tagéiere vu bestëmmten Textportiounen, déi an eng vun enger Rei vu verschiddene Presetgruppen plazéiert kënne ginn. Pre-definéiert Kategorien enthalen Saachen wéi Datumen, Stied, Plazen, Firmen an Individuen.

Natierlech Sprooch Generatioun ass de Prozess fir Datenbanken ze benotzen fir strukturéiert Daten an eng natierlech Sprooch ze transforméieren. Zum Beispill kënne Statistiken iwwer d'Wieder, wéi Temperatur a Wandgeschwindegkeet mat natierlecher Sprooch zesummegefaasst ginn.

Wuert-Sënn Desambiguatioun ass de Prozess fir Wierder an engem Text Bedeitung ze ginn op Basis vum Kontext an deem d'Wierder optrieden.

Deep Learning Modeller Fir NLP

Regelméisseg Multilayer Perceptronen sinn net fäeg d'Interpretatioun vu sequentiellen Donnéeën ze handhaben, wou d'Uerdnung vun der Informatioun wichteg ass. Fir mat der Wichtegkeet vun der Uerdnung a sequentiellen Donnéeën ze këmmeren, gëtt eng Zort neuralt Netzwierk benotzt, dat Informatioun vu fréiere Zäitstonnen am Training behält.

Widderhuelend Neural Netzwierker sinn Zorte vun neural Netzwierker déi Loop iwwer Daten aus fréieren Zäitschrëtt, andeems se se berücksichtegen wann Dir d'Gewiichter vum aktuellen Zäitschrëtt berechnen. Wesentlech hunn RNN's dräi Parameteren, déi während dem Forward Trainingspass benotzt ginn: eng Matrix baséiert op dem Previous Hidden State, eng Matrix baséiert op der aktueller Input, an eng Matrix déi tëscht dem verstoppte Staat an dem Output ass. Well RNNs Informatioune vu fréiere Zäitschrëtt berücksichtegen kënnen, kënne se relevant Mustere vun Textdaten extrahéieren andeems se fréier Wierder am Saz berücksichtegen wann Dir d'Bedeitung vun engem Wuert interpretéiert.

Eng aner Zort vun Deep Learning Architektur benotzt fir Textdaten ze veraarbecht ass e Long Short-Term Memory (LSTM) Netzwierk. LSTM Netzwierker sinn ähnlech wéi RNNs a Struktur, awer wéinst e puer Differenzen an hirer Architektur tendéieren se besser ze Leeschtunge wéi RNNs. Si vermeiden e spezifesche Problem, deen dacks geschitt wann Dir RNNs benotzt, déi den explodéierend Gradientproblem.

Dës déif neural Netzwierker kënnen entweder unidirektional oder bi-direktional sinn. Bi-Directional Netzwierker si fäeg net nëmmen d'Wierder ze berücksichtegen, déi virum aktuelle Wuert kommen, mee d'Wierder déi duerno kommen. Och wann dëst zu méi héijer Genauegkeet féiert, ass et méi computationally deier.

Benotzt Cases Fir Natural Language Processing (NLP)

Foto: mohammed_hassan iwwer Pixabay, Pixabay Lizenz (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Well Natural Language Processing d'Analyse an d'Manipulatioun vu mënschleche Sproochen involvéiert, huet et eng onheemlech breet Palette vun Uwendungen. Méiglech Uwendungen fir NLP enthalen Chatbots, digital Assistenten, Sentimentanalyse, Dokumentorganisatioun, Talentrekrutéierung a Gesondheetsariichtung.

Chatbots an digital Assistenten wéi Amazon's Alexa a Google Assistant si Beispiller vu Stëmmerkennungs- a Syntheseplattformen déi NLP benotze fir Stëmmbefehl ze interpretéieren an ze reagéieren. Dës digital Assistenten hëllefen d'Leit mat enger grousser Villfalt vun Aufgaben, loossen se e puer vun hire kognitiven Aufgaben op en aneren Apparat oflafen an e puer vun hirer Gehirkraaft befreien fir aner, méi wichteg Saachen. Amplaz de beschte Wee op d'Bank op engem beschäftegten Moien ze sichen, kënne mir einfach eisen digitale Assistent maachen.

Sentimentanalyse ass d'Benotzung vun NLP Techniken fir d'Reaktiounen an d'Gefiller vun de Leit op e Phänomen ze studéieren, wéi se duerch hir Sproochgebrauch kommunizéiert ginn. D'Gefill vun enger Ausso erfaassen, wéi z'interpretéieren ob eng Iwwerpréiwung vun engem Produkt gutt oder schlecht ass, kann Firmen substantiell Informatioun ubidden iwwer wéi hiert Produkt kritt gëtt.

Automatesch Textdokumenter organiséieren ass eng aner Applikatioun vun NLP. Firmen wéi Google an Yahoo benotzen NLP Algorithmen fir E-Mail-Dokumenter ze klassifizéieren, se an déi entspriechend Poubellen wéi "sozial" oder "Promotiounen" ze setzen. Si benotzen och dës Techniken ze z'identifizéieren Spam a verhënneren datt et Är Inbox erreecht.

Gruppen hunn och NLP Techniken entwéckelt ginn benotzt fir potenziell Aarbechtsplazen z'identifizéieren, se ze fannen baséiert op relevante Fäegkeeten. Hire Manager benotzen och NLP Techniken fir hinnen ze hëllefen Lëschte vun Bewerberinnen ze sortéieren.

NLP Technike ginn och benotzt fir d'Gesondheetsversuergung ze verbesseren. NLP ka benotzt ginn fir d'Erkennung vu Krankheeten ze verbesseren. Gesondheetsrecords kënnen analyséiert a Symptomer extrahéiert ginn duerch NLP Algorithmen, déi dann benotzt kënne fir méiglech Diagnosen ze proposéieren. E Beispill dovun ass Amazon's Comprehend Medical Plattform, déi Gesondheetsrecords analyséiert an Krankheeten a Behandlungen extrahéiert. Gesondheetsariichtungsapplikatioune vun NLP verlängeren och op mental Gesondheet. Et gi Apps wéi WoeBot, déi d'Benotzer duerch eng Vielfalt vun Besuergnëssmanagement Techniken schwätzt baséiert an der kognitiver Verhalenstherapie.

Verknäppt Themen:natierlech Sproochveraarbechtung PNL

No weider

Fréiere Intelligenz Professionnelen benotzen AI fir Mënschenhandel z'entdecken

Hu keng Miss

GPT-2, Kënschtlech Intelligenz Text-Generator gëtt komplett verëffentlecht

Daniel Nelson

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.