AI 101 г

Какво е Deep Reinforcement Learning?

Обновено on Август 2, 2021

Какво е Deep Reinforcement Learning?

Наред с неконтролираното машинно обучение и контролираното обучение, друга често срещана форма на създаване на ИИ е обучението с подсилване. Освен редовното обучение за укрепване, обучение с дълбоко укрепване може да доведе до удивително впечатляващи резултати, благодарение на факта, че съчетава най-добрите аспекти както на дълбокото обучение, така и на обучението с подсилване. Нека да разгледаме точно как работи задълбоченото обучение с подсилване.

Преди да се потопим в задълбочено обучение за подсилване, може би е добра идея да си освежим колко редовно укрепване върши работа. При обучението с подсилване целево ориентираните алгоритми са проектирани чрез процес на проба и грешка, оптимизиране за действието, което води до най-добрия резултат/действието, което печели най-голяма „награда“. Когато алгоритмите за обучение за подсилване се обучават, те получават „награди“ или „наказания“, които влияят на действията, които ще предприемат в бъдеще. Алгоритмите се опитват да намерят набор от действия, които ще осигурят на системата най-голяма награда, балансирайки както незабавните, така и бъдещите награди.

Алгоритмите за обучение с подсилване са много мощни, защото могат да се прилагат към почти всяка задача, като могат гъвкаво и динамично да се учат от среда и да откриват възможни действия.

Преглед на Deep Reinforcement Learning

Снимка: Megajuice чрез Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Когато става въпрос за задълбочено обучение с подсилване, средата обикновено се представя с изображения. Изображението е заснемане на околната среда в определен момент от време. Агентът трябва да анализира изображенията и да извлече подходяща информация от тях, използвайки информацията, за да информира какво действие трябва да предприеме. Обучението с дълбоко подсилване обикновено се извършва с една от двете различни техники: обучение, основано на ценности, и обучение, основано на политики.

Техниките за обучение, базирани на стойности, използват алгоритми и архитектури като конволюционни невронни мрежи и Deep-Q-Networks. Тези алгоритми работят, като преобразуват изображението в скала на сивото и изрязват ненужните части от изображението. След това изображението претърпява различни навивания и операции за обединяване, извличайки най-подходящите части от изображението. След това важните части на изображението се използват за изчисляване на Q-стойността за различните действия, които агентът може да предприеме. Q-стойностите се използват за определяне на най-добрия курс на действие за агента. След като се изчислят първоначалните Q-стойности, се извършва обратно разпространение, за да могат да се определят най-точните Q-стойности.

Методите, базирани на правила, се използват, когато броят на възможните действия, които агентът може да предприеме, е изключително голям, което обикновено се случва в сценарии от реалния свят. Ситуации като тези изискват различен подход, тъй като изчисляването на Q-стойностите за всички отделни действия не е прагматично. Подходите, базирани на политики, работят без изчисляване на функционални стойности за отделни действия. Вместо това те приемат политики, като научават политиката директно, често чрез техники, наречени Политически градиенти.

Градиентите на политиката работят чрез получаване на състояние и изчисляване на вероятностите за действия въз основа на предишния опит на агента. След това се избира най-вероятното действие. Този процес се повтаря до края на периода на оценка и наградите се дават на агента. След като наградите бъдат обработени с агента, параметрите на мрежата се актуализират с обратно разпространение.

Какво е Q-Learning?

защото Q-обучение е толкова голяма част от процеса на обучение с дълбоко укрепване, нека отделим малко време, за да разберем наистина как работи системата за Q-обучение.

Процесът на вземане на решения по Марков

Процес на решение на Марков. Снимка: waldoalvarez чрез Pixabay, лиценз на Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

За да може един AI агент да изпълни поредица от задачи и да постигне цел, агентът трябва да може да се справи с поредица от състояния и събития. Агентът ще започне в едно състояние и трябва да предприеме поредица от действия, за да достигне крайно състояние и може да има огромен брой състояния, съществуващи между началното и крайното състояние. Съхраняването на информация относно всяко състояние е непрактично или невъзможно, така че системата трябва да намери начин да запази само най-подходящата информация за състоянието. Това се постига чрез използването на a Марков процес на вземане на решение, който запазва само информацията относно текущото състояние и предишното състояние. Всяко състояние следва свойство на Марков, което проследява как агентът се променя от предишното състояние към текущото състояние.

Задълбочено Q-обучение

След като моделът има достъп до информация за състоянията на учебната среда, Q-стойностите могат да бъдат изчислени. Q-стойностите са общата награда, дадена на агента в края на поредица от действия.

Q-стойностите се изчисляват със серия от награди. Има незабавна награда, изчислена при текущото състояние и в зависимост от текущото действие. Q-стойността за последващото състояние също се изчислява, заедно с Q-стойността за състоянието след това и така нататък, докато бъдат изчислени всички Q-стойности за различните състояния. Има и параметър Gamma, който се използва за контролиране на тежестта на бъдещите награди върху действията на агента. Политиките обикновено се изчисляват чрез произволно инициализиране на Q-стойности и оставяне на модела да се сближи към оптималните Q-стойности в хода на обучението.

Дълбоки Q-мрежи

Един от основните проблеми, включващи използването на Q-обучение за обучение с подсилване е, че количеството памет, необходимо за съхраняване на данни, бързо се разширява с увеличаване на броя на състоянията. Deep Q Networks решават този проблем, като комбинират модели на невронни мрежи с Q-стойности, позволявайки на агента да се учи от опита и да прави разумни предположения за най-добрите действия, които да предприеме. При задълбочено Q-обучение, функциите на Q-стойността се оценяват с невронни мрежи. Невронната мрежа приема състоянието като входни данни и мрежата извежда Q-стойност за всички различни възможни действия, които агентът може да предприеме.

Дълбокото Q-обучение се постига чрез съхраняване на всички минали преживявания в паметта, изчисляване на максималните изходи за Q-мрежата и след това използване на функция на загуба за изчисляване на разликата между текущите стойности и теоретично най-високите възможни стойности.

Deep Reinforcement Learning срещу Deep Learning

Една важна разлика между дълбокото обучение с подсилване и редовното дълбоко обучение е, че в случая на първото входящите данни се променят постоянно, което не е случаят с традиционното дълбоко обучение. Как моделът на обучение може да отчете входове и изходи, които постоянно се променят?

По същество, за да се отчете разминаването между прогнозираните стойности и целевите стойности, могат да се използват две невронни мрежи вместо една. Едната мрежа оценява целевите стойности, докато другата мрежа отговаря за прогнозите. Параметрите на целевата мрежа се актуализират, докато моделът се учи, след като са преминали избран брой итерации на обучение. След това изходите на съответните мрежи се обединяват, за да се определи разликата.

Обучение, основано на политики

Учене, основано на политики подходите работят по различен начин от подходите, базирани на Q-стойност. Докато подходите на Q-стойността създават функция на стойността, която предвижда награди за състояния и действия, методите, базирани на политики, определят политика, която ще съпостави състояния с действия. С други думи, функцията на правилата, която избира за действия, е директно оптимизирана без оглед на функцията на стойността.

Политически градиенти

Политиката за учене с дълбоко подсилване попада в една от двете категории: стохастична или детерминистична. Детерминистичната политика е тази, при която състоянията се съпоставят с действия, което означава, че когато на политиката се даде информация за дадено състояние, се връща действие. Междувременно стохастичните политики връщат вероятностно разпределение за действия вместо едно отделно действие.

Детерминистичните политики се използват, когато няма несигурност относно резултатите от действията, които могат да бъдат предприети. С други думи, когато самата среда е детерминистична. За разлика от това, резултатите от стохастичните политики са подходящи за среди, в които резултатът от действията е несигурен. Обикновено сценариите за обучение с подсилване включват известна степен на несигурност, така че се използват стохастични политики.

Подходите с градиент на политиката имат няколко предимства пред подходите за Q-обучение, както и някои недостатъци. По отношение на предимствата, методите, базирани на политики, се сближават с оптимални параметри по-бързо и по-надеждно. Градиентът на политиката може просто да се следва, докато се определят най-добрите параметри, докато при методите, базирани на стойност, малки промени в очакваните стойности на действие могат да доведат до големи промени в действията и свързаните с тях параметри.

Политическите градиенти работят по-добре и за пространства с голямо измерение. Когато има изключително голям брой възможни действия за предприемане, дълбокото Q-обучение става непрактично, тъй като трябва да присвои резултат на всяко възможно действие за всички времеви стъпки, което може да е невъзможно от изчислителна гледна точка. Въпреки това, с методите, базирани на политики, параметрите се коригират с течение на времето и броят на възможните най-добри параметри бързо се свива, когато моделът се сближава.

Политическите градиенти също могат да прилагат стохастични политики, за разлика от политиките, базирани на стойност. Тъй като стохастичните политики произвеждат разпределение на вероятностите, не е необходимо да се прилага компромис между проучване и експлоатация.

По отношение на недостатъците, основният недостатък на градиентите на политиката е, че те могат да блокират, докато търсят оптимални параметри, като се фокусират само върху тесен, локален набор от оптимални стойности вместо глобалните оптимални стойности.

Функция за оценка на правилата

Политиките, използвани за оптимизиране на целта за производителност на модела за максимизиране на резултатна функция – J(θ). Ако J(θ) е мярка за това колко добра е нашата политика за постигане на желаната цел, можем да намерим стойностите на „θ”, което ни дава най-добрата политика. Първо, трябва да изчислим очакваното възнаграждение по политиката. Ние оценяваме възнаграждението по правилата, за да имаме цел, нещо, към което да оптимизираме. Функцията за оценка на политиката е начинът, по който изчисляваме очакваното възнаграждение за политиката и има различни функции за оценка на политиката, които се използват често, като например: начални стойности за епизодични среди, средната стойност за непрекъснати среди и средната награда за времева стъпка.

Политика за градиентно изкачване

Градиентното изкачване има за цел да премести параметрите, докато стигнат до мястото, където резултатът е най-висок. Снимка: обществено достояние (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

След като се използва желаната функция за оценка на политиката и се изчисли очаквана награда за политика, можем да намерим стойност за параметъра „θ”, което максимизира функцията за оценка. За да се увеличи максимално резултатната функция J(θ), техника, наречена „градиентно изкачване" се използва. Градиентното изкачване е подобно по концепция на градиентното спускане при задълбочено обучение, но ние оптимизираме за най-стръмно увеличение, вместо за намаляване. Това е така, защото нашият резултат не е „грешка“, както при много проблеми с дълбокото обучение. Нашият резултат е нещо, което искаме да увеличим максимално. Израз, наречен Теорема за градиента на политиката, се използва за оценка на градиента по отношение на политиката "θ".

Резюме на задълбочено обучение с укрепване

В обобщение, обучението с дълбоко подсилване съчетава аспекти на обучението с укрепване и дълбоките невронни мрежи. Обучението с дълбоко подсилване се извършва с две различни техники: дълбоко Q-обучение и градиенти на политиката.

Методите на задълбочено Q-обучение имат за цел да предскажат кои награди ще последват определени действия, предприети в дадено състояние, докато подходите на градиент на политиката имат за цел да оптимизират пространството за действие, предвиждайки самите действия. Базираните на политиките подходи към задълбочено обучение с подсилване са или детерминистични, или стохастични по природа. Детерминистичните политики картографират състоянията директно към действията, докато стохастичните политики създават вероятностни разпределения за действия.

Следва

Какво е федеративно обучение?

Не пропускайте

Какво е теорема на Байс?

Даниел Нелсън

Блогър и програмист със специалности в Machine Learning намлява Дълбоко обучение теми. Даниел се надява да помогне на другите да използват силата на ИИ за социално благо.