Stumm Wat ass Deep Reinforcement Learning? - Unite.AI
Connect mat eis

AI 101

Wat ass Deep Reinforcement Learning?

mm
aktualiséiert on

Wat ass Deep Reinforcement Learning?

Zesumme mat oniwwerwaachter Maschinnléieren a iwwerwaacht Léieren, ass eng aner gemeinsam Form vun AI Kreatioun Verstäerkungsléieren. Nieft regelméisseg Verstäerkung Léieren, déif Verstäerkung Léieren kann zu erstaunlech beandrockend Resultater féieren, dank der Tatsaach datt et déi bescht Aspekter vu béiden Deep Learning a Verstäerkungsléieren kombinéiert. Loosst eis genau kucken wéi déif Verstäerkung Léieren funktionnéiert.

Ier mir an déif Verstäerkung Léieren dauchen, ass et vläicht eng gutt Iddi fir eis ze erfrëschen wéi regelméisseg Verstäerkung ze léieren Wierker. Beim Verstäerkungsléiere ginn zilorientéiert Algorithmen duerch e Prozess vu Versuch a Feeler entworf, optiméiert fir d'Aktioun déi zum bescht Resultat féiert / d'Aktioun déi am meeschte "Belounung" kritt. Wann d'Verstäerkungs-Léieralgorithmen trainéiert ginn, gi se "Belounungen" oder "Strofe" ginn, déi beaflossen wéi eng Aktiounen se an Zukunft huelen. Algorithmen probéieren eng Rei vun Aktiounen ze fannen, déi de System déi meescht Belounung ubidden, souwuel direkt wéi och zukünfteg Belounungen balancéieren.

Verstäerkung Léieralgorithmen si ganz mächteg well se op bal all Aufgab applizéiert kënne ginn, fäeg sinn flexibel an dynamesch aus engem Ëmfeld ze léieren a méiglech Handlungen z'entdecken.

Iwwersiicht vun Deep Reinforcement Learning

Foto: Megajuice iwwer Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Wann et ëm déif Verstäerkungsléiere geet, gëtt d'Ëmwelt typesch mat Biller duergestallt. E Bild ass eng Erfaassung vun der Ëmwelt zu engem bestëmmten Zäitpunkt. Den Agent muss d'Biller analyséieren an relevant Informatioun dovun extrahéieren, andeems d'Informatioun benotzt gëtt fir z'informéieren wéi eng Handlung se solle maachen. Déif Verstäerkung Léieren gëtt typesch mat enger vun zwou verschiddenen Techniken duerchgefouert: Wäert-baséiert Léieren a Politik-baséiert Léieren.

Wäert-baséiert Léiertechnike benotzen Algorithmen an Architekturen wéi konvolutional neural Netzwierker an Deep-Q-Netzwierker. Dës Algorithmen funktionnéieren andeems d'Bild op Greyscale konvertéiert an onnéideg Deeler vum Bild ausschneiden. Duerno mécht d'Bild verschidde Konvolutiounen a Pooloperatioune, extrahéiert déi relevantst Portiounen vum Bild. Déi wichteg Deeler vum Bild ginn dann benotzt fir de Q-Wäert ze berechnen fir déi verschidden Aktiounen déi den Agent kann huelen. Q-Wäerter gi benotzt fir de beschte Wee vun der Handlung fir den Agent ze bestëmmen. Nodeems déi initial Q-Wäerter berechent sinn, gëtt d'Réckpropagatioun duerchgefouert fir datt déi genauste Q-Wäerter bestëmmt kënne ginn.

Politik-baséiert Methode gi benotzt wann d'Zuel vu méiglechen Aktiounen, déi den Agent kann huelen, extrem héich ass, wat typesch an real-Welt Szenarien de Fall ass. Situatiounen wéi dës erfuerderen eng aner Approche well d'Berechnung vun de Q-Wäerter fir all eenzel Aktiounen net pragmatesch ass. Politikbaséiert Approche funktionnéieren ouni Funktiounswäerter fir eenzel Aktiounen ze berechnen. Amplaz adoptéiere se Politik andeems se d'Politik direkt léieren, dacks duerch Techniken genannt Policy Gradients.

D'Politikgradienten funktionnéieren andeems Dir e Staat kritt an d'Wahrscheinlechkeeten fir Handlungen berechnen baséiert op de fréiere Erfahrungen vum Agent. Déi wahrscheinlechst Aktioun gëtt dann ausgewielt. Dëse Prozess gëtt bis zum Enn vun der Evaluatiounsperiod widderholl an d'Beloununge ginn dem Agent kritt. Nodeems d'Beloununge mam Agent behandelt goufen, ginn d'Parameteren vum Netz mat Backpropagatioun aktualiséiert.

Wat ass Q-Learning?

well Q-Learning ass sou e groussen Deel vum Deep Verstäerkungs Léierprozess, loosst eis e bëssen Zäit huelen fir wierklech ze verstoen wéi de Q-Learning System funktionnéiert.

De Markov Entscheedungsprozess

A markov Decisioun Prozess. Foto: Waldoalvarez iwwer Pixabay, Pixbay Lizenz (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Fir en AI Agent eng Serie vun Aufgaben auszeféieren an en Zil z'erreechen, muss den Agent fäeg sinn mat enger Sequenz vu Staaten an Eventer ëmzegoen. Den Agent fänkt un engem Staat un an et muss eng Serie vun Aktiounen huelen fir en Ennstaat z'erreechen, an et kann eng massiv Zuel vu Staaten existéieren tëscht dem Ufank an Enn Staaten. Informatioun iwwer all Staat späicheren ass onpraktesch oder onméiglech, sou datt de System e Wee muss fannen fir just déi relevantst Staatsinformatioun ze erhaalen. Dëst gëtt duerch d'Benotzung vun engem Markov Entscheedungsprozess, déi just d'Informatioun iwwer den aktuellen Zoustand an de fréiere Staat erhaalt. All Staat follegt eng Markov Immobilie, déi verfollegt wéi den Agent vum fréiere Staat an den aktuellen Zoustand ännert.

Déif Q-Learning

Wann de Modell Zougang zu Informatioun iwwer d'Staate vum Léierëmfeld huet, kënnen Q-Wäerter berechent ginn. D'Q-Wäerter sinn déi total Belounung, déi dem Agent um Enn vun enger Sequenz vun Aktiounen gëtt.

D'Q-Wäerter gi mat enger Serie vu Belounungen berechent. Et gëtt eng direkt Belounung, berechent am aktuellen Zoustand an ofhängeg vun der aktueller Handlung. De Q-Wäert fir den nächste Staat gëtt och berechent, zesumme mam Q-Wäert fir den Zoustand duerno, a sou weider bis all d'Q-Wäerter fir déi verschidde Staaten berechent sinn. Et gëtt och e Gamma-Parameter dee benotzt gëtt fir ze kontrolléieren wéi vill Gewiicht zukünfteg Belounungen op den Handlungen vum Agent hunn. D'Politik ginn typesch berechent andeems Q-Wäerter zoufälleg initialiséiert ginn an de Modell am Laf vum Training op déi optimal Q-Wäerter konvergéieren.

Déif Q-Netzwierker

Ee vun de fundamental Problemer mat d'Benotzung vu Q-Learning fir Verstäerkung Léieren ass datt d'Quantitéit un Erënnerung erfuerderlech ass fir Daten ze späicheren séier erweidert wéi d'Zuel vun de Staaten eropgeet. Deep Q Networks léisen dëse Problem andeems se neural Netzwierkmodeller mat Q-Wäerter kombinéieren, wat en Agent erlaabt aus der Erfahrung ze léieren an raisonnabel Guesses iwwer déi bescht Aktiounen ze maachen. Mat Deep Q-Learning ginn d'Q-Wäertfunktiounen mat neurale Netzwierker geschat. Den neurale Netzwierk hëlt de Staat als Inputdaten an, an d'Netzwierk gëtt Q-Wäert aus fir all déi verschidde méiglech Handlungen déi den Agent kéint huelen.

Deep Q-Learning gëtt erreecht andeems Dir all déi vergaangen Erfarungen an der Erënnerung späichert, maximal Ausgänge fir de Q-Netz berechent, an dann eng Verloschtfunktioun benotzt fir den Ënnerscheed tëscht aktuellen Wäerter an den theoretesch héchst méigleche Wäerter ze berechnen.

Deep Reinforcement Learning vs Deep Learning

E wichtegen Ënnerscheed tëscht Deep Verstäerkung Léieren a reegelméissegen Deep Learning ass datt am Fall vun der fréierer d'Inputen dauernd änneren, wat net de Fall ass am traditionelle Deep Learning. Wéi kann de Léiermodell Inputen an Ausgänge berechnen déi stänneg veränneren?

Wesentlech, fir d'Divergenz tëscht virausgesot Wäerter an Zilwäerter ze berechnen, kënnen zwee neural Netzwierker amplaz vun engem benotzt ginn. Ee Netzwierk schätzt d'Zilwäerter, während dat anert Netzwierk fir d'Prognosen verantwortlech ass. D'Parameteren vum Zilnetz ginn aktualiséiert wéi de Modell léiert, nodeems eng gewielte Unzuel vun Trainingsiteratiounen passéiert sinn. D'Ausgänge vun de jeeweilege Netzwierker ginn dann zesummegeschloss fir den Ënnerscheed ze bestëmmen.

Politik-baséiert Léieren

Politik-baséiert Léieren Approche funktionnéieren anescht wéi Q-Wäert baséiert Approche. Iwwerdeems Q-Wäert Approche schafen eng Wäert Funktioun datt belount fir Staaten an Aktiounen virausgesot, Politik-baséiert Methoden bestëmmen eng Politik déi Staaten zu Aktiounen Kaart wäert. An anere Wierder, d'Politikfunktioun déi fir Aktiounen auswielt ass direkt optimiséiert ouni d'Wäertfunktioun ze berücksichtegen.

Politik Gradienten

Eng Politik fir déif Verstäerkung Léieren fällt an eng vun zwou Kategorien: stochastesch oder deterministesch. Eng deterministesch Politik ass eng wou Staaten op Handlungen kartéiert ginn, dat heescht datt wann d'Politik Informatioun iwwer e Staat gëtt eng Handlung zréckginn. Mëttlerweil ginn stochastesch Politiken eng Wahrscheinlechkeetsverdeelung fir Aktiounen zréck anstatt eng eenzeg, diskret Handlung.

Deterministesch Politik gi benotzt wann et keng Onsécherheet iwwer d'Resultater vun den Aktiounen ass, déi geholl kënne ginn. An anere Wierder, wann d'Ëmwelt selwer deterministesch ass. Am Géigesaz, stochastesch Politikausgaben si passend fir Ëmfeld wou d'Resultat vun Aktiounen onsécher ass. Typesch, Verstäerkung Léieren Szenarie involvéiert e gewësse Grad vun Onsécherheet sou stochastic Politiken benotzt ginn.

Politikgradient Approche hunn e puer Virdeeler iwwer Q-Learning Approche, souwéi e puer Nodeeler. Wat d'Virdeeler ugeet, konvergéiere Politik-baséiert Methoden op optimal Parameteren méi séier a méi zouverlässeg. D'Politikgradient ka just gefollegt ginn bis déi bescht Parameter bestëmmt ginn, wärend mat Wäertbaséierte Methoden kleng Ännerungen an geschätzte Handlungswäerter zu groussen Ännerungen an Aktiounen an hiren assoziéierte Parameteren féieren.

Politikgradienten funktionnéieren och besser fir héichdimensional Aktiounsraim. Wann et eng extrem héich Zuel vu méiglechen Aktiounen ass fir ze huelen, gëtt déif Q-Learning onpraktesch, well et muss e Score fir all méiglech Handlung fir all Zäitschrëtt zouginn, wat onméiglech ass computationally. Wéi och ëmmer, mat policybaséierte Methoden, ginn d'Parameteren iwwer Zäit ugepasst an d'Zuel vu méigleche beschten Parameteren schrumpft séier wéi de Modell konvergéiert.

Politikgradienten sinn och fäeg fir stochastesch Politiken ëmzesetzen, am Géigesaz zu Wäert-baséiert Politiken. Well stochastesch Politiken eng Wahrscheinlechkeetsverdeelung produzéieren, brauch eng Exploratioun / Exploitatioun Trade-off net ëmgesat ze ginn.

Wat d'Nodeeler ugeet, ass den Haaptnodeel vu Politikgradienten datt se kënne festhalen wann Dir no optimal Parameteren sicht, nëmmen op eng schmuel, lokal Set vun optimale Wäerter konzentréieren anstatt déi global optimal Wäerter.

Politik Punktzuel Funktioun

D'Politik benotzt fir d'Leeschtungsziel vun engem Modell ze optimiséieren fir eng Score Funktioun ze maximéieren - J(θ). Wann J(θ) ass e Mooss fir wéi gutt eis Politik ass fir dat gewënschte Zil z'erreechen, kënne mir d'Wäerter vun "θ“ dat gëtt eis déi bescht Politik. Als éischt musse mir eng erwaart Politikbelounung berechnen. Mir schätzen d'Politikbelounung sou datt mir en Objektiv hunn, eppes fir ze optimiséieren. D'Politik Score Funktioun ass wéi mir déi erwaart Politik Belounung berechent, an et gi verschidde Politik Score Funktiounen déi allgemeng benotzt ginn, sou wéi: Startwäerter fir episodesch Ëmfeld, den Duerchschnëttswäert fir kontinuéierlech Ëmfeld, an déi duerchschnëttlech Belounung pro Zäit Schrëtt.

Politik Gradient Ascent

Gradient Ascent zielt d'Parameteren ze réckelen bis se op der Plaz sinn wou de Score héchst ass. Foto: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Nodeems déi gewënschte Politik Score Funktioun benotzt gëtt, an eng erwaart Politikbelounung berechent ass, kënne mir e Wäert fir de Parameter fannen "θ" wat d'Score Funktioun maximéiert. Fir d'Score Funktioun J(θ), eng Technik genannt "gradient opstieg" benotzt gëtt. Gradient Opstieg ass am Konzept ähnlech wéi Gradient Ofstamung am Deep Learning, awer mir optimiséieren fir déi steilste Erhéijung anstatt Ofsenkung. Dëst ass well eise Score net "Feeler" ass, wéi a ville Deep Léierproblemer. Eise Score ass eppes wat mir wëllen maximéieren. En Ausdrock genannt Policy Gradient Theorem gëtt benotzt fir den Gradient a Bezuch op Politik ze schätzen "θ".

Resumé vum Deep Reinforcement Learning

Zesummegefaasst kombinéiert déif Verstäerkung Léieren Aspekter vum Verstäerkungsléieren an déif neural Netzwierker. Déif Verstäerkung Léieren gëtt mat zwou verschiddenen Techniken gemaach: Deep Q-Learning a Politikgradienten.

Deep Q-Learning Methoden zielen fir virauszesoen wéi eng Belounungen bestëmmten Aktiounen an engem bestëmmte Staat verfollegen, während Politikgradient Approche zielen fir den Handlungsraum ze optimiséieren, d'Aktiounen selwer virauszesoen. Politik-baséiert Approche fir déif Verstäerkung Léieren sinn entweder deterministesch oder stochastesch an Natur. Deterministesch Politik kartéiere Staaten direkt un Handlungen, während stochastesch Politik Probabilitéitsverdeelunge fir Handlungen produzéieren.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.