Connect with us

Künstliche Intelligenz

DeepMind und Google Brain zielen darauf ab, Methoden zu erstellen, um die Effizienz des Reinforcement Learning zu verbessern

mm

Reinforcement-Learning-Systeme können leistungsstark und robust sein und extrem komplexe Aufgaben durch Tausende von Trainingsiterationen ausführen. Während Reinforcement-Learning-Algorithmen in der Lage sind, sophisticatedes und gelegentlich überraschendes Verhalten zu ermöglichen, benötigen sie eine lange Trainingszeit und große Mengen an Daten. Diese Faktoren machen Reinforcement-Learning-Techniken eher ineffizient, und kürzlich haben Forschungsteams von Alphabet DeepMind und Google Brain versucht, effizientere Methoden zur Erstellung von Reinforcement-Learning-Systemen zu finden.

Wie von VentureBeat berichtet, hat die kombinierte Forschungsgruppe kürzlich Methoden vorgeschlagen, um das Reinforcement-Learning-Training effizienter zu machen. Eine der vorgeschlagenen Verbesserungen war ein Algorithmus namens Adaptive Behavior Policy Sharing (ABPS), während die andere ein Framework namens Universal Value Function Approximators (UVFA) war. ABPS ermöglicht es Pools von KI-Agents, ihre adaptiv ausgewählten Erfahrungen zu teilen, während UVFA es diesen KI-Agents ermöglicht, gleichzeitig gerichtete Explorationsrichtlinien zu untersuchen.

ABPS soll die Anpassung von Hyperparametern beim Trainieren eines Modells beschleunigen. ABPS ermöglicht es, die optimalen Hyperparameter schneller zu finden, indem mehrere verschiedene Agents mit unterschiedlichen Hyperparametern ihre Verhaltensrichtlinien-Erfahrungen teilen. Um genauer zu sein, ermöglicht ABPS es Reinforcement-Learning-Agents, Aktionen aus den Aktionen auszuwählen, die eine Richtlinie als okay bewertet hat, und danach wird eine Belohnung und Beobachtung basierend auf dem folgenden Zustand gewährt.

KI-Verstärkungs-Agents werden mit verschiedenen Kombinationen von möglichen Hyperparametern wie Abnahmerate und Lernrate trainiert. Wenn ein Modell trainiert wird, ist das Ziel, dass das Modell auf die Kombination von Hyperparametern konvergiert, die es zur besten Leistung bringt, und in diesem Fall auch die Daten effizienz verbessert. Die Effizienz wird erhöht, indem viele Agents gleichzeitig trainiert und das Verhalten nur eines Agents für den nächsten Zeitschritt ausgewählt wird. Die Richtlinie, die der Ziel-Agent hat, wird verwendet, um Aktionen zu sampeln. Die Übergänge werden dann in einem gemeinsamen Raum protokolliert, und dieser Raum wird ständig ausgewertet, sodass die Richtlinienauswahl nicht so häufig erfolgen muss. Am Ende des Trainings wird ein Ensemble von Agents ausgewählt und die besten Agents werden für die endgültige Bereitstellung ausgewählt.

In Bezug auf UVFA versucht es, ein häufiges Problem des Reinforcement Learning zu lösen, dass schwach verstärkte Agents oft keine Aufgaben lernen. UVFA versucht, das Problem zu lösen, indem der Agent eine separate Menge von Ausbeutungs- und Explorationsrichtlinien gleichzeitig lernt. Die Trennung der Aufgaben erstellt ein Framework, das es den Explorationsrichtlinien ermöglicht, die Umgebung weiter zu erkunden, während die Ausbeutungsrichtlinien versuchen, die Belohnung für die aktuelle Aufgabe zu maximieren. Die Explorationsrichtlinien von UVFA dienen als Basisarchitektur, die auch dann verbessert wird, wenn keine natürlichen Belohnungen gefunden werden. In einem solchen Zustand wird eine Funktion, die den intrinsischen Belohnungen entspricht, approximiert, die die Agents dazu bringt, alle Zustände in einer Umgebung zu erkunden, auch wenn sie oft zu vertrauten Zuständen zurückkehren.

Wie VentureBeat erklärte, wenn das UVFA-Framework im Einsatz ist, werden die intrinsischen Belohnungen des Systems direkt dem Agent als Eingabe gegeben. Der Agent behält eine Darstellung aller Eingaben (wie Belohnungen, Aktionen und Zustände) während einer gegebenen Episode bei. Das Ergebnis ist, dass die Belohnung über die Zeit erhalten bleibt und die Richtlinie des Agents zu jedem Zeitpunkt zumindest teilweise von ihr informiert wird.

Dies wird mit der Verwendung eines “episodischen Neuwert”- und eines “lebenslangen Neuwert”-Moduls erreicht. Die Funktion des ersten Moduls besteht darin, das aktuelle episodische Gedächtnis zu speichern und die aktuellen Ergebnisse auf die vorher erwähnte Darstellung zu kartieren, sodass der Agent eine intrinsische episodische Belohnung für jeden Schritt des Trainings bestimmen kann. Danach wird der mit der aktuellen Beobachtung verknüpfte Zustand in das Gedächtnis aufgenommen. Währenddessen ist das lebenslange Neuwert-Modul dafür verantwortlich, zu beeinflussen, wie oft der Agent über mehrere Episoden hinweg exploriert.

Laut den Alphabet/Google-Teams haben die neuen Trainingsmethoden bereits das Potenzial für eine erhebliche Verbesserung beim Trainieren eines Reinforcement-Learning-Systems gezeigt. UVFA konnte die Leistung einiger der Basis-Agents, die verschiedene Atari-Spiele spielten, verdoppeln. Währenddessen konnte ABPS die Leistung bei einigen der gleichen Atari-Spiele verbessern und die Varianz unter den besten Agents um etwa 25% verringern. Der mit UVFA trainierte Algorithmus konnte einen hohen Score in Pitfall erreichen, ohne dass dafür ingenieurtechnische Merkmale von Human-Demos erforderlich waren.

Blogger und Programmierer mit Spezialisierungen in Machine Learning und Deep Learning Themen. Daniel hofft, anderen zu helfen, die Macht von KI für das soziale Wohl zu nutzen.