Stummel Was ist Deep Learning? (2024) – Unite.AI
Vernetzen Sie sich mit uns

AI 101

Was ist Deep Learning?

mm
Aktualisiert on

Deep Learning ist einer der einflussreichsten und am schnellsten wachsenden Bereiche der künstlichen Intelligenz. Es kann jedoch schwierig sein, ein intuitives Verständnis von Deep Learning zu erlangen, da der Begriff Deep Learning eine Vielzahl unterschiedlicher Algorithmen und Techniken umfasst. Deep Learning ist auch eine Unterdisziplin des maschinellen Lernens im Allgemeinen, daher ist es wichtig zu verstehen, was maschinelles Lernen ist, um Deep Learning zu verstehen.

Was ist maschinelles Lernen?

Tiefes Lernen ist eine Erweiterung einiger Konzepte, die aus dem maschinellen Lernen stammen. Aus diesem Grund nehmen wir uns eine Minute Zeit, um zu erklären, was maschinelles Lernen ist.

Vereinfacht ausgedrückt ist maschinelles Lernen eine Methode, die es Computern ermöglicht, bestimmte Aufgaben auszuführen, ohne jede Zeile der zur Ausführung dieser Aufgaben verwendeten Algorithmen explizit zu codieren. Es gibt viele verschiedene Algorithmen für maschinelles Lernen, aber einer der am häufigsten verwendeten Algorithmen ist a mehrschichtiges Perzeptron. Ein mehrschichtiges Perzeptron wird auch als neuronales Netzwerk bezeichnet und besteht aus einer Reihe miteinander verbundener Knoten/Neuronen. In einem mehrschichtigen Perzeptron gibt es drei verschiedene Schichten: die Eingabeschicht, die verborgene Schicht und die Ausgabeschicht.

Die Eingabeschicht überträgt die Daten in das Netzwerk, wo sie von den Knoten in der mittleren/verborgenen Schicht bearbeitet werden. Die Knoten in der verborgenen Schicht sind mathematische Funktionen, die die von der Eingabeschicht kommenden Daten manipulieren und relevante Muster aus den Eingabedaten extrahieren können. So „lernt“ das neuronale Netzwerk. Neuronale Netze verdanken ihren Namen der Tatsache, dass sie von der Struktur und Funktion des menschlichen Gehirns inspiriert sind.

Die Verbindungen zwischen Knoten im Netzwerk haben Werte, die als Gewichte bezeichnet werden. Bei diesen Werten handelt es sich im Wesentlichen um Annahmen darüber, wie die Daten in einer Schicht mit den Daten in der nächsten Schicht zusammenhängen. Während das Netzwerk trainiert, werden die Gewichte angepasst, und das Ziel besteht darin, dass die Gewichte/Annahmen über die Daten schließlich zu Werten konvergieren, die die aussagekräftigen Muster in den Daten genau darstellen.

In den Knoten des Netzwerks sind Aktivierungsfunktionen vorhanden, und diese Aktivierungsfunktionen transformieren die Daten auf nichtlineare Weise, sodass das Netzwerk komplexe Darstellungen der Daten lernen kann. Aktivierungsfunktionen multiplizieren die Eingabewerte mit den Gewichtungswerten und fügen einen Bias-Term hinzu.

Was ist Deep Learning?

Als Deep Learning werden Architekturen für maschinelles Lernen bezeichnet, die viele mehrschichtige Perzeptrone miteinander verbinden, sodass es nicht nur eine verborgene Schicht, sondern viele verborgene Schichten gibt. Je „tiefer“ das tiefe neuronale Netzwerk ist, desto ausgefeiltere Muster kann das Netzwerk lernen.

Die aus Neuronen bestehenden Deep-Layer-Netzwerke werden manchmal als vollständig verbundene Netzwerke oder vollständig verbundene Schichten bezeichnet, was sich auf die Tatsache bezieht, dass ein bestimmtes Neuron eine Verbindung zu allen es umgebenden Neuronen aufrechterhält. Vollständig verbundene Netzwerke können mit anderen Funktionen des maschinellen Lernens kombiniert werden, um unterschiedliche Deep-Learning-Architekturen zu erstellen.

Verschiedene Arten von Deep Learning

Es gibt eine Vielzahl von Deep-Learning-Architekturen, die von Forschern und Ingenieuren verwendet werden, und jede der verschiedenen Architekturen hat ihren eigenen speziellen Anwendungsfall.

Convolutional Neuronale Netze

Faltungs-Neuronale Netzeoder CNNs sind die neuronalen Netzwerkarchitekturen, die üblicherweise bei der Erstellung von Computer-Vision-Systemen verwendet werden. Die Struktur von Faltungs-Neuronalen Netzen ermöglicht es ihnen, Bilddaten zu interpretieren und sie in Zahlen umzuwandeln, die ein vollständig verbundenes Netzwerk interpretieren kann. Ein CNN besteht aus vier Hauptkomponenten:

  • Faltungsschichten
  • Unterabtastungs-/Pooling-Ebenen
  • Aktivierungsfunktionen
  • Vollständig verbundene Schichten

Die Faltungsschichten nehmen die Bilder als Eingaben in das Netzwerk auf, analysieren die Bilder und ermitteln die Werte der Pixel. Bei der Unterabtastung oder dem Pooling werden die Bildwerte konvertiert/reduziert, um die Darstellung der Bilder zu vereinfachen und die Empfindlichkeit der Bildfilter gegenüber Rauschen zu verringern. Die Aktivierungsfunktionen steuern, wie die Daten von einer Schicht zur nächsten fließen, und die vollständig verbundenen Schichten analysieren die Werte, die das Bild darstellen, und lernen die in diesen Werten enthaltenen Muster.

RNNs/LSTMs

Wiederkehrende neuronale Netze, oder RNNs, sind beliebt für Aufgaben, bei denen die Reihenfolge der Daten von Bedeutung ist und bei denen das Netzwerk etwas über eine Datenfolge lernen muss. RNNs werden häufig auf Probleme wie die Verarbeitung natürlicher Sprache angewendet, da die Reihenfolge der Wörter bei der Dekodierung der Bedeutung eines Satzes eine Rolle spielt. Der „wiederkehrende“ Teil des Begriffs „Rekurrentes neuronales Netzwerk“ ergibt sich aus der Tatsache, dass die Ausgabe für ein bestimmtes Element in einer Sequenz sowohl von der vorherigen als auch von der aktuellen Berechnung abhängt. Im Gegensatz zu anderen Formen tiefer neuronaler Netze verfügen RNNs über „Gedächtnisse“, und die in den verschiedenen Zeitschritten der Sequenz berechneten Informationen werden zur Berechnung der Endwerte verwendet.

Es gibt mehrere Arten von RNNs, einschließlich bidirektionaler RNNs, die bei der Berechnung des Werts eines Elements zusätzlich zu den vorherigen Elementen auch zukünftige Elemente in der Sequenz berücksichtigen. Eine andere Art von RNN ist a Langes Kurzzeitgedächtnis oder LSTM, Netzwerk. LSTMs sind RNN-Typen, die lange Datenketten verarbeiten können. Reguläre RNNs können dem sogenannten „Exploding-Gradienten-Problem“ zum Opfer fallen. Dieses Problem tritt auf, wenn die Kette der Eingabedaten extrem lang wird. LSTMs verfügen jedoch über Techniken, um dieses Problem zu bekämpfen.

Autoencoder

Die meisten der bisher erwähnten Deep-Learning-Architekturen werden eher auf überwachte Lernprobleme als auf unüberwachte Lernaufgaben angewendet. Autoencoder sind in der Lage, unbeaufsichtigte Daten in ein überwachtes Format umzuwandeln, sodass neuronale Netze für das Problem verwendet werden können.

Autoencoder werden häufig verwendet, um Anomalien in Datensätzen zu erkennen. Dies ist ein Beispiel für unbeaufsichtigtes Lernen, da die Art der Anomalie nicht bekannt ist. Zu diesen Beispielen für die Erkennung von Anomalien gehört die Betrugserkennung für Finanzinstitute. In diesem Zusammenhang besteht der Zweck eines Autoencoders darin, eine Basislinie regelmäßiger Muster in den Daten zu ermitteln und Anomalien oder Ausreißer zu identifizieren.

Die Struktur eines Autoencoders ist häufig symmetrisch, wobei verborgene Schichten so angeordnet sind, dass die Ausgabe des Netzwerks der Eingabe ähnelt. Die vier Arten von Autoencodern, die häufig verwendet werden, sind:

  • Reguläre/einfache Autoencoder
  • Mehrschicht-Encoder
  • Faltungskodierer
  • Regularisierte Encoder

Reguläre/einfache Autoencoder sind lediglich neuronale Netze mit einer einzigen verborgenen Schicht, während mehrschichtige Autoencoder tiefe Netzwerke mit mehr als einer verborgenen Schicht sind. Faltungs-Autoencoder verwenden Faltungsschichten anstelle oder zusätzlich zu vollständig verbundenen Schichten. Regularisierte Autoencoder verwenden eine bestimmte Art von Verlustfunktion, die es dem neuronalen Netzwerk ermöglicht, komplexere Funktionen auszuführen, andere Funktionen als nur das Kopieren von Eingaben in Ausgaben.

Generative Adversarial Networks

Generative Adversarial Networks (GANs) Es handelt sich tatsächlich um mehrere tiefe neuronale Netze und nicht nur um ein einziges Netz. Zwei Deep-Learning-Modelle werden gleichzeitig trainiert und ihre Ergebnisse werden dem anderen Netzwerk zugeführt. Die Netzwerke stehen im Wettbewerb miteinander und da sie Zugriff auf die Ausgabedaten des anderen erhalten, lernen sie beide aus diesen Daten und verbessern sich. Die beiden Netzwerke spielen im Wesentlichen ein Fälschungs- und Aufdeckungsspiel, bei dem das generative Modell versucht, neue Instanzen zu schaffen, die das Detektivmodell/den Diskriminator täuschen. GANs sind im Bereich Computer Vision populär geworden.

Zusammenfassung des Deep Learning

Deep Learning erweitert die Prinzipien neuronaler Netze, um anspruchsvolle Modelle zu erstellen, die komplexe Muster lernen und diese Muster auf zukünftige Datensätze verallgemeinern können. Faltungs-Neuronale Netze werden zur Interpretation von Bildern verwendet, während RNNs/LSTMs zur Interpretation sequenzieller Daten verwendet werden. Autoencoder können unbeaufsichtigte Lernaufgaben in überwachte Lernaufgaben umwandeln. Schließlich handelt es sich bei GANs um mehrere gegeneinander antretende Netzwerke, die besonders für Computer-Vision-Aufgaben nützlich sind.

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.