Stummel Was sind RNNs und LSTMs im Deep Learning? - Unite.AI
Vernetzen Sie sich mit uns

AI 101

Was sind RNNs und LSTMs im Deep Learning?

mm
Aktualisiert on

Viele der beeindruckendsten Fortschritte in der Verarbeitung natürlicher Sprache und KI-Chatbots werden durch vorangetrieben Wiederkehrende neuronale Netze (RNNs) und Long Short-Term Memory (LSTM)-Netzwerke. RNNs und LSTMs sind spezielle neuronale Netzwerkarchitekturen, die in der Lage sind, sequentielle Daten zu verarbeiten, Daten, bei denen es auf die chronologische Reihenfolge ankommt. LSTMs sind wesentlich verbesserte Versionen von RNNs, in der Lage, längere Datensequenzen zu interpretieren. Werfen wir einen Blick darauf, wie RNNs und LSTMS strukturiert sind und wie sie die Erstellung anspruchsvoller Systeme zur Verarbeitung natürlicher Sprache ermöglichen.

Was sind Feed-Forward-Neuronale Netze?

Bevor wir also über die Funktionsweise von Long Short-Term Memory (LSTM) und Convolutional Neural Networks (CNN) sprechen, sollten wir das Format eines neuronalen Netzwerks im Allgemeinen besprechen.

Ein neuronales Netzwerk soll Daten untersuchen und relevante Muster lernen, damit diese Muster auf andere Daten angewendet und neue Daten klassifiziert werden können. Neuronale Netze sind in drei Abschnitte unterteilt: eine Eingabeschicht, eine verborgene Schicht (oder mehrere verborgene Schichten) und eine Ausgabeschicht.

Die Eingabeschicht übernimmt die Daten in das neuronale Netzwerk, während die verborgenen Schichten die Muster in den Daten lernen. Die verborgenen Ebenen im Datensatz sind durch „Gewichte“ und „Verzerrungen“ mit den Eingabe- und Ausgabeebenen verbunden. Hierbei handelt es sich lediglich um Annahmen darüber, wie die Datenpunkte miteinander in Beziehung stehen. Diese Gewichte werden während des Trainings angepasst. Während das Netzwerk trainiert, werden die Schätzungen des Modells zu den Trainingsdaten (die Ausgabewerte) mit den tatsächlichen Trainingsbezeichnungen verglichen. Im Laufe des Trainings sollte das Netzwerk (hoffentlich) genauer bei der Vorhersage von Beziehungen zwischen Datenpunkten werden, sodass es neue Datenpunkte genau klassifizieren kann. Tiefe neuronale Netze sind Netze, die mehr Schichten in der Mitte/mehr verborgene Schichten haben. Je mehr verborgene Schichten und mehr Neuronen/Knoten das Modell hat, desto besser kann das Modell Muster in den Daten erkennen.

Reguläre Feed-Forward-Neuronale Netze, wie die, die ich oben beschrieben habe, werden oft als „dichte neuronale Netze“ bezeichnet. Diese dichten neuronalen Netze werden mit verschiedenen Netzwerkarchitekturen kombiniert, die auf die Interpretation unterschiedlicher Datenarten spezialisiert sind.

Was sind RNNs (Recurrent Neural Networks)?

Rekurrente neuronale Netze nutzen das allgemeine Prinzip von Feed-Forward-Neuronalen Netzen und ermöglichen ihnen die Verarbeitung sequentieller Daten Geben Sie dem Modell einen internen Speicher. Der „rekurrente“ Teil des RNN-Namens ergibt sich aus der Tatsache, dass die Eingabe- und Ausgabeschleife erfolgt. Sobald die Ausgabe des Netzwerks erstellt wurde, wird die Ausgabe kopiert und als Eingabe an das Netzwerk zurückgegeben. Bei der Entscheidungsfindung werden nicht nur die aktuellen Inputs und Outputs analysiert, sondern auch die bisherigen Inputs berücksichtigt. Anders ausgedrückt: Wenn die anfängliche Eingabe für das Netzwerk X und die Ausgabe H ist, werden sowohl H als auch X1 (die nächste Eingabe in der Datensequenz) für die nächste Lernrunde in das Netzwerk eingespeist. Auf diese Weise bleibt der Kontext der Daten (die vorherigen Eingaben) während der Netzwerkzüge erhalten.

Das Ergebnis dieser Architektur ist, dass RNNs in der Lage sind, sequentielle Daten zu verarbeiten. RNNs weisen jedoch einige Probleme auf. RNNs leiden darunter Probleme mit verschwindendem Gradienten und explodierendem Gradienten.

Die Länge der Sequenzen, die ein RNN interpretieren kann, ist eher begrenzt, insbesondere im Vergleich zu LSTMs.

Was sind LSTMs (Long Short-Term Memory Networks)?

Lange-Kurzzeitgedächtnisnetzwerke können als Erweiterungen von RNNs betrachtet werden, wobei wiederum das Konzept der Beibehaltung des Kontexts von Eingaben angewendet wird. Allerdings wurden LSTMs in mehreren wichtigen Punkten modifiziert, die es ihnen ermöglichen, vergangene Daten mit überlegenen Methoden zu interpretieren. Die an LSTMs vorgenommenen Änderungen befassen sich mit dem Problem des verschwindenden Gradienten und ermöglichen es LSTMs, viel längere Eingabesequenzen zu berücksichtigen.

LSTM-Modelle bestehen aus drei verschiedene Komponenten oder Tore. Dort ist ein Ein Eingangsgatter, ein Ausgangsgatter und ein Vergessensgatter. Ähnlich wie RNNs berücksichtigen LSTMs Eingaben aus dem vorherigen Zeitschritt, wenn sie den Speicher und die Eingabegewichte des Modells ändern. Das Eingabegatter trifft Entscheidungen darüber, welche Werte wichtig sind und durch das Modell gelassen werden sollen. Im Eingangsgatter wird eine Sigmoidfunktion verwendet, die bestimmt, welche Werte über das rekurrente Netzwerk weitergeleitet werden sollen. Null lässt den Wert fallen, während 1 ihn beibehält. Auch hier kommt eine TanH-Funktion zum Einsatz, die entscheidet, wie wichtig die Eingabewerte im Bereich von -1 bis 1 für das Modell sind.

Nachdem die aktuellen Eingänge und der Speicherstatus berücksichtigt wurden, entscheidet das Ausgangsgatter, welche Werte in den nächsten Zeitschritt verschoben werden. Im Ausgangstor werden die Werte analysiert und ihnen eine Wichtigkeit im Bereich von -1 bis 1 zugewiesen. Dadurch werden die Daten geregelt, bevor sie zur nächsten Zeitschrittberechnung weitergeleitet werden. Schließlich besteht die Aufgabe des Vergessenstors darin, Informationen zu löschen, die das Modell für unnötig hält, um eine Entscheidung über die Art der Eingabewerte zu treffen. Das Vergessens-Gate verwendet eine Sigmoid-Funktion für die Werte und gibt Zahlen zwischen 0 (vergessen) und 1 (behalten) aus.

Ein neuronales LSTM-Netzwerk besteht sowohl aus speziellen LSTM-Schichten, die sequentielle Wortdaten interpretieren können, als auch aus dicht verbundenen Schichten wie oben beschrieben. Sobald die Daten die LSTM-Schichten durchlaufen, gelangen sie in die dicht verbundenen Schichten.

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.