AI 101

Was ist Deep Reinforcement Learning?

Veröffentlicht 17. April 2020

Aktualisiert August 2, 2021

Daniel Nelson

Was ist Deep Reinforcement Learning?

Neben unüberwachtem maschinellem Lernen und überwachtem Lernen ist Reinforcement Learning eine weitere gängige Form der KI-Erstellung. Über das regelmäßige Verstärkungslernen hinaus tiefes Lernen der Verstärkung kann zu erstaunlich beeindruckenden Ergebnissen führen, da es die besten Aspekte von Deep Learning und Reinforcement Learning kombiniert. Werfen wir einen Blick darauf, wie Deep Reinforcement Learning genau funktioniert.

Bevor wir uns intensiv mit dem Reinforcement Learning befassen, wäre es möglicherweise eine gute Idee, uns über die Regelmäßigkeit aufzufrischen Verstärkung lernen funktioniert. Beim Reinforcement Learning werden zielorientierte Algorithmen durch einen Versuch-und-Irrtum-Prozess entwickelt und für die Aktion optimiert, die zum besten Ergebnis führt bzw. die größte „Belohnung“ bringt. Wenn Reinforcement-Learning-Algorithmen trainiert werden, erhalten sie „Belohnungen“ oder „Strafen“, die Einfluss darauf haben, welche Maßnahmen sie in Zukunft ergreifen werden. Algorithmen versuchen, eine Reihe von Aktionen zu finden, die dem System die größte Belohnung bieten und dabei sowohl unmittelbare als auch zukünftige Belohnungen ausbalancieren.

Reinforcement-Learning-Algorithmen sind sehr leistungsfähig, da sie auf nahezu jede Aufgabe angewendet werden können und in der Lage sind, flexibel und dynamisch aus einer Umgebung zu lernen und mögliche Aktionen zu entdecken.

Überblick über Deep Reinforcement Learning

Foto: Megajuice über Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Beim Deep Reinforcement Learning wird die Umgebung typischerweise durch Bilder dargestellt. Ein Bild ist eine Aufnahme der Umgebung zu einem bestimmten Zeitpunkt. Der Agent muss die Bilder analysieren und daraus relevante Informationen extrahieren und anhand dieser Informationen festlegen, welche Maßnahmen er ergreifen sollte. Deep Reinforcement Learning wird typischerweise mit einer von zwei verschiedenen Techniken durchgeführt: wertbasiertes Lernen und richtlinienbasiertes Lernen.

Wertbasierte Lerntechniken nutzen Algorithmen und Architekturen wie Convolutional Neural Networks und Deep-Q-Networks. Diese Algorithmen konvertieren das Bild in Graustufen und entfernen unnötige Bildteile. Anschließend durchläuft das Bild verschiedene Faltungs- und Pooling-Operationen, um die relevantesten Bildteile zu extrahieren. Die relevanten Bildteile werden dann verwendet, um den Q-Wert für die verschiedenen Aktionen des Agenten zu berechnen. Q-Werte dienen dazu, die optimale Vorgehensweise für den Agenten zu bestimmen. Nach der Berechnung der initialen Q-Werte wird eine Backpropagation durchgeführt, um möglichst genaue Q-Werte zu ermitteln.

Richtlinienbasierte Methoden werden verwendet, wenn die Anzahl der möglichen Aktionen, die der Agent ausführen kann, extrem hoch ist, was typischerweise in realen Szenarien der Fall ist. Situationen wie diese erfordern einen anderen Ansatz, da die Berechnung der Q-Werte für alle einzelnen Aktionen nicht pragmatisch ist. Richtlinienbasierte Ansätze funktionieren ohne die Berechnung von Funktionswerten für einzelne Aktionen. Stattdessen übernehmen sie Richtlinien, indem sie die Richtlinie direkt erlernen, häufig mithilfe von Techniken, die als Policy Gradients bezeichnet werden.

Richtliniengradienten funktionieren, indem sie einen Zustand empfangen und Wahrscheinlichkeiten für Aktionen basierend auf den vorherigen Erfahrungen des Agenten berechnen. Anschließend wird die wahrscheinlichste Aktion ausgewählt. Dieser Vorgang wird bis zum Ende des Bewertungszeitraums wiederholt und die Belohnungen werden an den Agenten ausgezahlt. Nachdem die Belohnungen mit dem Agenten abgewickelt wurden, werden die Parameter des Netzwerks durch Backpropagation aktualisiert.

Was ist Q-Learning?

Parce que Q-Learning ist ein so großer Teil des Deep-Reinforcement-Learning-Prozesses. Nehmen wir uns etwas Zeit, um wirklich zu verstehen, wie das Q-Learning-System funktioniert.

Der Markov-Entscheidungsprozess

Ein Markov-Entscheidungsprozess. Foto: waldoalvarez über Pixabay, Pixbay-Lizenz (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Damit ein KI-Agent eine Reihe von Aufgaben ausführen und ein Ziel erreichen kann, muss der Agent in der Lage sein, mit einer Abfolge von Zuständen und Ereignissen umzugehen. Der Agent beginnt in einem Zustand und muss eine Reihe von Aktionen ausführen, um einen Endzustand zu erreichen. Zwischen dem Anfangs- und dem Endzustand kann eine große Anzahl von Zuständen vorhanden sein. Das Speichern von Informationen zu jedem Bundesstaat ist unpraktisch oder unmöglich, daher muss das System einen Weg finden, nur die relevantesten Bundesstaatsinformationen zu speichern. Dies wird durch die Verwendung von a erreicht Markov-Entscheidungsprozess, wodurch nur die Informationen zum aktuellen und vorherigen Status erhalten bleiben. Jeder Zustand folgt einer Markov-Eigenschaft, die verfolgt, wie der Agent vom vorherigen Zustand zum aktuellen Zustand wechselt.

Tiefes Q-Learning

Sobald das Modell Zugriff auf Informationen über die Zustände der Lernumgebung hat, können Q-Werte berechnet werden. Die Q-Werte sind die Gesamtbelohnung, die der Agent am Ende einer Aktionsfolge erhält.

Die Q-Werte werden mit einer Reihe von Belohnungen berechnet. Es gibt eine sofortige Belohnung, berechnet auf dem aktuellen Stand und abhängig von der aktuellen Aktion. Der Q-Wert für den nachfolgenden Zustand wird ebenfalls berechnet, zusammen mit dem Q-Wert für den darauf folgenden Zustand usw., bis alle Q-Werte für die verschiedenen Zustände berechnet wurden. Es gibt auch einen Gamma-Parameter, mit dem gesteuert wird, wie viel Gewicht zukünftige Belohnungen auf die Aktionen des Agenten haben. Richtlinien werden normalerweise berechnet, indem Q-Werte zufällig initialisiert werden und das Modell im Verlauf des Trainings in Richtung der optimalen Q-Werte konvergiert.

Tiefe Q-Netzwerke

Eines der grundlegenden Probleme dabei der Einsatz von Q-Learning Der Grund für das verstärkende Lernen liegt darin, dass die zum Speichern von Daten erforderliche Speichermenge mit zunehmender Anzahl von Zuständen schnell zunimmt. Deep-Q-Netzwerke lösen dieses Problem, indem sie neuronale Netzwerkmodelle mit Q-Werten kombinieren, sodass ein Agent aus Erfahrungen lernen und vernünftige Vermutungen über die besten Maßnahmen anstellen kann. Beim Deep Q-Learning werden die Q-Wert-Funktionen mit neuronalen Netzen geschätzt. Das neuronale Netzwerk übernimmt den Zustand als Eingabedaten und gibt den Q-Wert für alle verschiedenen möglichen Aktionen aus, die der Agent ausführen könnte.

Deep Q-Learning wird erreicht, indem alle vergangenen Erfahrungen im Speicher gespeichert, die maximalen Ausgaben für das Q-Netzwerk berechnet und dann mithilfe einer Verlustfunktion die Differenz zwischen aktuellen Werten und den theoretisch höchstmöglichen Werten berechnet werden.

Deep Reinforcement Learning vs. Deep Learning

Ein wichtiger Unterschied zwischen Deep Reinforcement Learning und regulärem Deep Learning besteht darin, dass sich bei ersterem die Eingaben ständig ändern, was beim traditionellen Deep Learning nicht der Fall ist. Wie kann das Lernmodell Inputs und Outputs berücksichtigen, die sich ständig ändern?

Um die Divergenz zwischen vorhergesagten Werten und Zielwerten zu berücksichtigen, können im Wesentlichen zwei neuronale Netze anstelle eines verwendet werden. Ein Netzwerk schätzt die Zielwerte, während das andere Netzwerk für die Vorhersagen verantwortlich ist. Die Parameter des Zielnetzwerks werden aktualisiert, während das Modell lernt, nachdem eine ausgewählte Anzahl von Trainingsiterationen durchlaufen wurde. Anschließend werden die Ausgänge der jeweiligen Netzwerke zusammengefügt, um die Differenz zu ermitteln.

Richtlinienbasiertes Lernen

Richtlinienbasiertes Lernen Ansätze funktionieren anders als Q-Wert-basierte Ansätze. Während Q-Wert-Ansätze eine Wertfunktion erstellen, die Belohnungen für Zustände und Aktionen vorhersagt, legen richtlinienbasierte Methoden eine Richtlinie fest, die Zustände Aktionen zuordnet. Mit anderen Worten: Die Richtlinienfunktion, die Aktionen auswählt, wird direkt optimiert, ohne Rücksicht auf die Wertfunktion.

Politische Gefälle

Eine Richtlinie für Deep Reinforcement Learning lässt sich in eine von zwei Kategorien einteilen: stochastisch oder deterministisch. Bei einer deterministischen Richtlinie werden Zustände Aktionen zugeordnet. Das heißt, wenn der Richtlinie Informationen über einen Zustand gegeben werden, wird eine Aktion zurückgegeben. In der Zwischenzeit liefern stochastische Richtlinien eine Wahrscheinlichkeitsverteilung für Aktionen anstelle einer einzelnen, diskreten Aktion.

Deterministische Richtlinien werden verwendet, wenn keine Unsicherheit über die Ergebnisse der Maßnahmen besteht, die ergriffen werden können. Mit anderen Worten, wenn die Umgebung selbst deterministisch ist. Im Gegensatz dazu eignen sich stochastische politische Ergebnisse für Umgebungen, in denen das Ergebnis von Maßnahmen ungewiss ist. In der Regel beinhalten Reinforcement-Learning-Szenarien ein gewisses Maß an Unsicherheit, sodass stochastische Richtlinien verwendet werden.

Policy-Gradient-Ansätze haben gegenüber Q-Learning-Ansätzen einige Vorteile, aber auch einige Nachteile. Hinsichtlich der Vorteile konvergieren richtlinienbasierte Methoden schneller und zuverlässiger zu optimalen Parametern. Der Richtliniengradient kann einfach so lange verfolgt werden, bis die besten Parameter ermittelt sind, wohingegen bei wertebasierten Methoden kleine Änderungen der geschätzten Aktionswerte zu großen Änderungen der Aktionen und der damit verbundenen Parameter führen können.

Richtliniengradienten funktionieren auch besser für hochdimensionale Aktionsräume. Wenn es eine extrem hohe Anzahl möglicher Aktionen gibt, wird tiefes Q-Learning unpraktisch, da jeder möglichen Aktion für alle Zeitschritte eine Bewertung zugewiesen werden muss, was rechnerisch möglicherweise unmöglich ist. Bei richtlinienbasierten Methoden werden die Parameter jedoch im Laufe der Zeit angepasst und die Anzahl der möglichen besten Parameter nimmt mit der Konvergenz des Modells schnell ab.

Politikgradienten sind im Gegensatz zu wertebasierten Richtlinien auch in der Lage, stochastische Richtlinien umzusetzen. Da stochastische Richtlinien eine Wahrscheinlichkeitsverteilung erzeugen, muss kein Kompromiss zwischen Exploration und Exploitation implementiert werden.

Was die Nachteile betrifft, besteht der Hauptnachteil von Policy-Gradienten darin, dass sie bei der Suche nach optimalen Parametern stecken bleiben und sich nur auf einen engen, lokalen Satz optimaler Werte statt auf globale optimale Werte konzentrieren können.

Richtlinienbewertungsfunktion

Die Richtlinien, die zur Optimierung des Leistungsziels eines Modells verwendet werden um eine Score-Funktion zu maximieren - J(θ). Wenn J(θ) ist ein Maß dafür, wie gut unsere Politik zur Erreichung des gewünschten Ziels geeignet ist. Wir können die Werte von „θ„Das gibt uns die beste Politik.“ Zunächst müssen wir eine erwartete politische Belohnung berechnen. Wir schätzen den politischen Nutzen, damit wir ein Ziel haben, etwas, auf das wir hin optimieren können. Mit der Policy-Score-Funktion berechnen wir die erwartete Policy-Belohnung. Es gibt verschiedene Policy-Score-Funktionen, die häufig verwendet werden, wie zum Beispiel: Startwerte für episodische Umgebungen, der Durchschnittswert für kontinuierliche Umgebungen und die durchschnittliche Belohnung pro Zeitschritt.

Aufstieg des politischen Gefälles

Der Gradientenaufstieg zielt darauf ab, die Parameter zu verschieben, bis sie den Punkt erreichen, an dem die höchste Punktzahl erreicht ist. Foto: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Nachdem die gewünschte Richtlinienbewertungsfunktion verwendet und eine erwartete Richtlinienvergütung berechnet wurde, können wir einen Wert für den Parameter „θ” was die Score-Funktion maximiert. Um die Score-Funktion J( zu maximierenθ) wird eine Technik namens „Gradientenaufstieg“ verwendet. Der Gradientenaufstieg ähnelt konzeptionell dem Gradientenabstieg im Deep Learning, wir optimieren jedoch auf den steilsten Anstieg statt auf den steilsten Abfall. Dies liegt daran, dass unser Ergebnis nicht „Fehler“ ist, wie bei vielen Deep-Learning-Problemen. Unser Ergebnis ist etwas, das wir maximieren möchten. Ein Ausdruck namens „Policy Gradient Theorem“ wird verwendet, um den Gradienten in Bezug auf die Richtlinie „θ".

Zusammenfassung des Deep Reinforcement Learning

Zusammenfassend kombiniert Deep Reinforcement Learning Aspekte des Reinforcement Learning und tiefer neuronaler Netze. Deep Reinforcement Learning wird mit zwei verschiedenen Techniken durchgeführt: Deep Q-Learning und Policy Gradients.

Deep-Q-Learning-Methoden zielen darauf ab, vorherzusagen, welche Belohnungen auf bestimmte in einem bestimmten Zustand ergriffenen Maßnahmen folgen, während Policy-Gradient-Ansätze darauf abzielen, den Aktionsraum zu optimieren und die Aktionen selbst vorherzusagen. Richtlinienbasierte Ansätze für Deep Reinforcement Learning sind entweder deterministischer oder stochastischer Natur. Deterministische Richtlinien bilden Zustände direkt auf Aktionen ab, während stochastische Richtlinien Wahrscheinlichkeitsverteilungen für Aktionen erzeugen.

Daniel Nelson

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.