Künstliche Intelligenz
Was ist NLP (Natural Language Processing)?
Natural Language Processing (NLP) ist das Studium und die Anwendung von Techniken und Werkzeugen, die es Computern ermöglichen, menschliche Sprache zu verarbeiten, zu analysieren, zu interpretieren und darüber zu argumentieren. NLP ist ein interdisziplinäres Feld und kombiniert Techniken, die in Bereichen wie Linguistik und Informatik etabliert sind. Diese Techniken werden in Verbindung mit KI verwendet, um Chatbots und digitale Assistenten wie Google Assistant und Amazon’s Alexa zu erstellen.
Lassen Sie uns einige Zeit nehmen, um die Grundlagen hinter Natural Language Processing, einige der Techniken, die in NLP verwendet werden, und einige gängige Anwendungsfälle für NLP zu erkunden.
Warum Natural Language Processing (NLP) wichtig ist
Damit Computer menschliche Sprache interpretieren können, müssen sie in eine Form umgewandelt werden, die ein Computer manipulieren kann. Dies ist jedoch nicht so einfach wie die Umwandlung von Textdaten in Zahlen. Um Bedeutung aus menschlicher Sprache abzuleiten, müssen Muster aus den Hunderten oder Tausenden von Wörtern extrahiert werden, die ein Textdokument ausmachen. Dies ist keine leichte Aufgabe. Es gibt wenige harte und schnelle Regeln, die auf die Interpretation menschlicher Sprache angewendet werden können. Zum Beispiel kann dieselbe Wortfolge je nach Kontext unterschiedliche Bedeutungen haben. Menschliche Sprache ist ein komplexes und oft mehrdeutiges Ding, und eine Aussage kann mit Ernst oder Sarkasmus geäußert werden.
Trotzdem gibt es einige allgemeine Richtlinien, die bei der Interpretation von Wörtern und Zeichen verwendet werden können, wie zum Beispiel die Verwendung des Zeichens “s”, um anzugeben, dass ein Artikel im Plural steht. Diese allgemeinen Richtlinien müssen in Verbindung miteinander verwendet werden, um Bedeutung aus dem Text zu extrahieren, um Merkmale zu erstellen, die ein Machine-Learning-Algorithmus interpretieren kann.
Natural Language Processing umfasst die Anwendung verschiedener Algorithmen, die in der Lage sind, unstrukturierte Daten in strukturierte Daten umzuwandeln. Wenn diese Algorithmen auf die falsche Weise angewendet werden, wird der Computer oft nicht in der Lage sein, die richtige Bedeutung aus dem Text abzuleiten. Dies kann oft bei der Übersetzung von Texten zwischen Sprachen beobachtet werden, wo die genaue Bedeutung des Satzes oft verloren geht. Während die maschinelle Übersetzung in den letzten Jahren erheblich verbessert wurde, treten immer noch häufig Übersetzungsfehler auf.
Techniken des Natural Language Processing (NLP)

Photo: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)
Viele der Techniken, die in der natürlichen Sprachverarbeitung verwendet werden, können in eine von zwei Kategorien eingeordnet werden: Syntax oder Semantik. Syntax-Techniken sind diejenigen, die mit der Anordnung von Wörtern zu tun haben, während semantische Techniken die Techniken sind, die mit der Bedeutung von Wörtern zu tun haben.
Syntax-NLP-Techniken
Beispiele für Syntax sind:
- Lematisierung
- Morphologische Segmentierung
- Part-of-Speech-Tagging
- Parsing
- Satzunterbrechung
- Stemming
- Wortsegmentierung
Lematisierung bezieht sich auf die Reduzierung der verschiedenen Formen eines Wortes auf eine einzige Form. Lematisierung nimmt Dinge wie Tempus und Plural und vereinfacht sie, zum Beispiel könnte “Füße” zu “Fuß” und “Streifen” zu “Streif” werden. Diese vereinfachte Wortform macht es einem Algorithmus leichter, die Wörter in einem Dokument zu interpretieren.
Morphologische Segmentierung ist der Prozess der Aufteilung von Wörtern in Morpheme oder die BasisEinheiten eines Wortes. Diese Einheiten sind Dinge wie freie Morpheme (die als Wörter allein stehen können) und Präfixe oder Suffixe.
Part-of-Speech-Tagging ist einfach der Prozess der Identifizierung, welcher Teil der Rede jedes Wortes in einem Eingabedokument ist.
Parsing bezieht sich auf die Analyse aller Wörter in einem Satz und ihre Korrelation mit ihren formalen Grammatiklabels oder die grammatische Analyse aller Wörter.
Satzunterbrechung oder Satzgrenzen-Segmentierung bezieht sich auf die Entscheidung, wo ein Satz beginnt und endet.
Stemming ist der Prozess der Reduzierung von Wörtern auf die Wurzelform des Wortes. Zum Beispiel würden “verbunden”, “Verbindung” und “Verbindungen” alle auf “verbinden” reduziert.
Wortsegmentierung ist der Prozess der Aufteilung großer Textteile in kleine Einheiten, die Wörter oder gestemmte/lemmatisierte Einheiten sein können.
Semantische NLP-Techniken
Semantische NLP-Techniken umfassen Techniken wie:
- Benennung von Entitäten
- Natürliche Sprachgenerierung
- Wort-Sinn-Disambiguierung
Benennung von Entitäten umfasst das Markieren bestimmter Textteile, die in eine von mehreren vordefinierten Gruppen eingeordnet werden können. Vordefinierte Kategorien umfassen Dinge wie Daten, Städte, Orte, Unternehmen und Personen.
Natürliche Sprachgenerierung ist der Prozess der Verwendung von Datenbanken, um strukturierte Daten in natürliche Sprache umzuwandeln. Zum Beispiel könnten Statistiken über das Wetter, wie Temperatur und Windgeschwindigkeit, mit natürlicher Sprache zusammengefasst werden.
Wort-Sinn-Disambiguierung ist der Prozess der Zuweisung von Bedeutung zu Wörtern in einem Text basierend auf dem Kontext, in dem die Wörter erscheinen.
Tiefe Lernmodelle für NLP
Reguläre Multilayer-Perzeptrone sind nicht in der Lage, die Interpretation von sequenziellen Daten zu bewältigen, bei denen die Reihenfolge der Informationen wichtig ist. Um mit der Bedeutung der Reihenfolge in sequenziellen Daten umzugehen, wird eine Art von neuronalen Netzen verwendet, die Informationen aus vorherigen Zeitschritten im Training bewahrt.
Recurrent Neural Networks sind Arten von neuronalen Netzen, die über Daten aus vorherigen Zeitschritten schleifen und sie bei der Berechnung der Gewichte des aktuellen Zeitschritts berücksichtigen. Im Wesentlichen haben RNNs drei Parameter, die während des Vorwärts-Trainings verwendet werden: eine Matrix basierend auf dem vorherigen versteckten Zustand, eine Matrix basierend auf der aktuellen Eingabe und eine Matrix zwischen dem versteckten Zustand und der Ausgabe. Da RNNs Informationen aus vorherigen Zeitschritten berücksichtigen können, können sie relevante Muster aus Textdaten extrahieren, indem sie frühere Wörter im Satz bei der Interpretation der Bedeutung eines Wortes berücksichtigen.
Eine weitere Art von Deep-Learning-Architektur, die zur Verarbeitung von Textdaten verwendet wird, ist ein Long Short-Term Memory (LSTM)-Netzwerk. LSTM-Netzwerke sind in ihrer Struktur ähnlich wie RNNs, aber aufgrund einiger Unterschiede in ihrer Architektur tendieren sie dazu, besser als RNNs zu performen. Sie vermeiden ein bestimmtes Problem, das oft bei der Verwendung von RNNs auftritt, nämlich das explodierende Gradientenproblem.
Diese tiefen neuronalen Netze können entweder unidirektional oder bidirektional sein. Bidirektionale Netze sind in der Lage, nicht nur die Wörter, die vor dem aktuellen Wort stehen, zu berücksichtigen, sondern auch die Wörter, die nach ihm kommen. Während dies zu höherer Genauigkeit führt, ist es rechenintensiver.
Anwendungsfälle für Natural Language Processing (NLP)

Photo: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)
Da Natural Language Processing die Analyse und Manipulation menschlicher Sprachen umfasst, hat es eine unglaublich breite Palette von Anwendungen. Mögliche Anwendungen für NLP umfassen Chatbots, digitale Assistenten, Sentiment-Analyse, Dokumentenorganisation, Talentrekrutierung und Gesundheitswesen.
Chatbots und digitale Assistenten wie Amazon’s Alexa und Google Assistant sind Beispiele für Spracherkennungs- und Syntheseplattformen, die NLP verwenden, um vocale Befehle zu interpretieren und zu beantworten. Diese digitalen Assistenten helfen Menschen bei einer Vielzahl von Aufgaben, indem sie einige ihrer kognitiven Aufgaben auf ein anderes Gerät übertragen und so einige ihrer Gehirnkraft für andere, wichtigere Dinge freimachen. Anstatt die beste Route zur Bank an einem beschäftigten Morgen zu suchen, können wir einfach unseren digitalen Assistenten damit beauftragen.
Sentiment-Analyse ist die Verwendung von NLP-Techniken, um die Reaktionen und Gefühle von Menschen auf ein Phänomen zu untersuchen, wie sie durch ihre Sprachverwendung kommuniziert werden. Die Erfassung der Sentiment eines Statements, wie die Interpretation, ob eine Produktbewertung gut oder schlecht ist, kann Unternehmen mit erheblichen Informationen darüber verschaffen, wie ihr Produkt angenommen wird.
Die automatische Organisation von Textdokumenten ist eine weitere Anwendung von NLP. Unternehmen wie Google und Yahoo verwenden NLP-Algorithmen, um E-Mail-Dokumente zu klassifizieren und sie in die entsprechenden Ordner wie “Soziales” oder “Werbung” zu legen. Sie verwenden auch diese Techniken, um Spam zu identifizieren und zu verhindern, dass er den Posteingang erreicht.
Gruppen haben auch NLP-Techniken entwickelt, um potenzielle Jobkandidaten zu identifizieren und sie basierend auf relevanten Fähigkeiten zu finden. Personalverantwortliche verwenden auch NLP-Techniken, um durch Listen von Bewerbern zu sortieren.
NLP-Techniken werden auch verwendet, um die Gesundheitsversorgung zu verbessern. NLP kann verwendet werden, um die Erkennung von Krankheiten zu verbessern. Gesundheitsakten können analysiert und Symptome durch NLP-Algorithmen extrahiert werden, die dann verwendet werden können, um mögliche Diagnosen vorzuschlagen. Ein Beispiel dafür ist Amazon’s Comprehend Medical-Plattform, die Gesundheitsakten analysiert und Krankheiten und Behandlungen extrahiert. Die Anwendungen von NLP im Gesundheitswesen erstrecken sich auch auf die psychische Gesundheit. Es gibt Apps wie WoeBot, die Benutzer durch eine Vielzahl von Angstmanagement-Techniken führt, die auf der kognitiven Verhaltenstherapie basieren.










