ШІ 101

Що таке глибоке підкріплене навчання?

Published April 17, 2020

Updated April 5, 2026

Daniel Nelson

Що таке глибоке підкріплене навчання?

Разом з машинним навчанням без нагляду та навчанням з наглядом, ще одним поширеним видом створення штучного інтелекту є підкріплене навчання. За межами звичайного підкріпленого навчання, глибоке підкріплене навчання може привести до дивовижних результатів, завдяки тому, що воно поєднує найкращі аспекти глибокого навчання та підкріпленого навчання. Давайте розглянемо, як працює глибоке підкріплене навчання.

Перед тим, як зануритися у глибоке підкріплене навчання, можливо, буде корисно оновити нашу пам’ять про те, як працює звичайне підкріплене навчання. У підкріпленому навчанні алгоритми, орієнтовані на цілі, розробляються через процес проб і помилок, оптимізуючи дії, які призводять до найкращого результату/дії, яка отримує найбільшу “нагороду”. Коли алгоритми підкріпленого навчання тренуються, їм дають “нагороди” або “карання”, які впливають на дії, які вони будуть виконувати в майбутньому. Алгоритми намагаються знайти набір дій, який забезпечить системі найбільшу нагороду, балансуючи між негайними та майбутніми нагородами.

Алгоритми підкріпленого навчання дуже потужні, оскільки їх можна застосовувати几乎 до будь-якого завдання,能够 гнучко та динамічно навчатися з середовища та відкривати можливі дії.

Огляд глибокого підкріпленого навчання

Фото: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Коли мова йде про глибоке підкріплене навчання, середовище зазвичай представляється зображеннями. Зображення – це захоплення середовища в певний момент часу. Агент повинен аналізувати зображення та витягувати з них відповідну інформацію, використовуючи інформацію для інформування про дії, які він повинен виконувати. Глибоке підкріплене навчання зазвичай проводиться одним із двох різних методів: значення-орієнтоване навчання та політика-орієнтоване навчання.

Значення-орієнтовані методи використовують алгоритми та архітектури, такі як конволюційні нейронні мережі та глибокі мережі Q. Ці алгоритми працюють, перетворюючи зображення в градацію сірого та вирізуючи непотрібні частини зображення. Після цього зображення піддається різним конволюціям та операціям пулізації, витягуючи найважливіші частини зображення. Найважливіші частини зображення потім використовуються для розрахунку Q-значення для різних дій, які агент може виконувати. Q-значення використовуються для визначення найкращого курсу дій для агента. Після розрахунків початкових Q-значень проводиться зворотнє поширення, щоб визначити найточніші Q-значення.

Політика-орієнтовані методи використовуються, коли кількість можливих дій, які агент може виконувати, дуже велика, що зазвичай відбувається в реальних сценаріях. Такі ситуації вимагають іншого підходу, оскільки розрахунок Q-значень для всіх окремих дій не є практичним. Політика-орієнтовані підходи працюють без розрахунку функцій значень для окремих дій. Замість цього вони приймають рішення про політику, навчаючи політику безпосередньо, часто через техніки, звані градієнтами політики.

Градієнти політики працюють, отримуючи стан та розрахунок ймовірностей для дій на основі попереднього досвіду агента. Найбільш імовірна дія потім вибирається. Цей процес повторюється до кінця періоду оцінки, та нагороди надаються агенту. Після того, як нагороди були надані агенту, параметри мережі оновлюються зворотнім поширенням.

Що таке Q-навчання?

Оскільки Q-навчання є великою частиною процесу глибокого підкріпленого навчання, давайте розглянемо, як працює система Q-навчання.

Марковський процес прийняття рішень

Марковський процес прийняття рішень. Фото: waldoalvarez via Pixabay, Pixbay Ліцензія (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Для того, щоб штучний інтелект міг виконувати серію завдань та досягати мети, агент повинен бути能够 справлятися з послідовністю станів та подій. Агент починає у одному стані та повинен виконувати серію дій, щоб досягнути кінцевого стану, та може бути величезна кількість станів між початковим та кінцевим станами. Зберігання інформації про кожен стан є непрактичним або неможливим, тому система повинна знайти спосіб зберегти лише найважливішу інформацію про стан. Це досягається за допомогою марковського процесу прийняття рішень, який зберігає лише інформацію про поточний стан та попередній стан. Кожен стан має марковську властивість, яка відстежує, як агент змінюється з попереднього стану до поточного.

Глибоке Q-навчання

Після того, як модель має доступ до інформації про стани середовища навчання, Q-значення можуть бути розрахованими. Q-значення – це загальна нагорода, надана агенту в кінці послідовності дій.

Q-значення розрахункові за допомогою серії нагород. Є негайна нагорода, розрахункова на поточному стані та залежна від поточної дії. Q-значення для наступного стану також розрахункові, а також Q-значення для стану після того, і так далі, поки не будуть розрахункові всі Q-значення для різних станів. Є також параметр Гамма, який використовується для контролю ваги майбутніх нагород на дії агента. Політики зазвичай розрахункові випадковим ініціюванням Q-значень та дозволенням моделі збігтися до оптимальних Q-значень під час тренування.

Глибокі мережі Q

Одна з фундаментальних проблем, пов’язаних з використанням Q-навчання для підкріпленого навчання, полягає в тому, що кількість пам’яті, необхідної для зберігання даних, швидко збільшується з ростом кількості станів. Глибокі мережі Q розв’язують цю проблему, поєднуючи моделі нейронних мереж з Q-значеннями, що дозволяє агенту навчатися з досвіду та робити розумні припущення про найкращі дії. З глибоким Q-навчанням Q-функції значення оцінюються нейронними мережами. Нейронна мережа приймає стан як вхідні дані, а мережа виводить Q-значення для всіх можливих дій, які агент може виконувати.

Глибоке Q-навчання досягається шляхом збереження всіх попередніх досвідів у пам’яті, розрахунку максимальних виходів для Q-мережі, а потім використання функції втрат для розрахунку різниці між поточними значеннями та теоретичними найвищими можливими значеннями.

Глибоке підкріплене навчання проти глибокого навчання

Одна з важливих відмінностей між глибоким підкріпленим навчанням та звичайним глибоким навчанням полягає в тому, що у випадку першого вхідні дані постійно змінюються, чого немає у традиційному глибокому навчанні. Як можна зробити так, щоб модель навчання врахувала вхідні та вихідні дані, які постійно змінюються?

По суті, для того, щоб врахувати розбіжність між передбачуваними значеннями та цільовими значеннями, можна використовувати дві нейронні мережі замість однієї. Одна мережа оцінює цільові значення, а інша мережа відповідає за передбачення. Параметри цільової мережі оновлюються, коли модель навчається, після того, як пройшло вибране число ітерацій тренування. Вихідні дані відповідних мереж потім поєднуються для визначення різниці.

Політика-орієнтоване навчання

Політика-орієнтоване навчання працює інакше, ніж Q-орієнтовані підходи. Хоча Q-орієнтовані підходи створюють функцію значення, яка передбачає нагороди для станів та дій, політика-орієнтовані методи визначають політику, яка буде відображати стани на дії. Інакше кажучи, політика-функція, яка вибирає дії, оптимізується безпосередньо, без урахування функції значення.

Градієнти політики

Політика глибокого підкріпленого навчання належить до однієї з двох категорій: стохастичної або детерміністичної. Детерміністична політика – це така, при якій стани відображаються на дії, тобто коли політика отримує інформацію про стан, повертається дія. Навпаки, стохастичні політики повертають розподіл ймовірностей для дій замість однієї окремої дії.

Детерміністичні політики використовуються, коли немає невизначеності щодо результатів дій, які можна виконувати. Інакше кажучи, коли середовище сам по собі детерміністичне. Навпаки, стохастичні політики виходять для середовищ, де результат дій невизначений. Зазвичай сценарії підкріпленого навчання включають певний рівень невизначеності, тому стохастичні політики використовуються.

Підходи градієнтів політики мають кілька переваг перед підходами Q-навчання, а також деякі недоліки. За переваги, політика-орієнтовані методи сходять до оптимальних параметрів швидше та надійніше. Градієнт політики можна просто слідувати, поки не будуть визначені найкращі параметри, тоді як у значення-орієнтованих методах малі зміни оцінених значень дій можуть привести до великих змін дій та їхніх параметрів.

Градієнти політики працюють краще для високовимірних просторів дій. Коли кількість можливих дій дуже велика, глибоке Q-навчання стає непрактичним, оскільки воно повинно призначити оцінку кожній можливій дії для всіх часових кроків, що може бути неможливим обчислювально. Однак з політика-орієнтованими методами параметри коригуються з часом, а кількість можливих найкращих параметрів швидко зменшується, коли модель сходиться.

Градієнти політики також здатні реалізовувати стохастичні політики, на відміну від значення-орієнтованих політик. Оскільки стохастичні політики створюють розподіл ймовірностей, не потрібно реалізовувати компроміс між дослідженням та експлуатацією.

За недоліки, основним недоліком градієнтів політики є те, що вони можуть застрягнути під час пошуку оптимальних параметрів, зосереджуючись лише на вузькому, локальному наборі оптимальних значень замість глобальних оптимальних значень.

Функція оцінки політики

Політики, які використовуються для оптимізації продуктивності моделі, мають на меті максимізувати функцію оцінки – J(θ). Якщо J(θ) – це міра того, наскільки добра наша політика для досягнення бажаної мети, ми можемо знайти значення “θ“, яке дає нам найкращу політику. Спочатку нам потрібно розрахувати очікувану політику нагороди. Ми оцінюємо політику нагороди, щоб мали об’єкт, до якого можна оптимізувати. Функція оцінки політики – це те, як ми розраховуємо очікувану політику нагороди, та існують різні функції оцінки політики, які зазвичай використовуються, такі як: початкові значення для епізодичних середовищ, середнє значення для безперервних середовищ та середня нагорода за часовий крок.

Градієнт підйому політики

Градієнт підйому спрямований на рух параметрів до місця, де оцінка найвища. Фото: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Після того, як бажана функція оцінки політики використовується, а очікувана політика нагороди розрахункова, ми можемо знайти значення параметра “θ“, яке максимізує функцію оцінки. Для максимізації функції оцінки J(θ) використовується техніка, звана “градієнт підйому”. Градієнт підйому подібний за концепцією до градієнту спуску у глибокому навчанні, але ми оптимізуємо для найкрутішого зростання замість зниження. Це тому, що наша оцінка не є “помилкою”, як у багатьох задачах глибокого навчання. Наша оцінка – це те, що ми хочемо максимізувати. Вираз, званий теоремою градієнту політики, використовується для оцінки градієнта щодо політики “θ“.

Резюме глибокого підкріпленого навчання

У підсумку, глибоке підкріплене навчання поєднує аспекти підкріпленого навчання та глибоких нейронних мереж. Глибоке підкріплене навчання проводиться двома різними методами: глибоким Q-навчанням та градієнтами політики.

Глибокі Q-навчання спрямовані на передбачення нагород, які будуть слідувати певним діям у даному стані, тоді як підходи градієнтів політики спрямовані на оптимізацію простору дій, передбачаючи дії самі по собі. Політика-орієнтовані підходи до глибокого підкріпленого навчання є або детерміністичними, або стохастичними за своєю природою. Детерміністичні політики відображають стани безпосередньо на дії, тоді як стохастичні політики створюють розподіли ймовірностей для дій.

Daniel Nelson

Блогер і програміст з спеціалізацією у темах Machine Learning і Deep Learning. Даніель сподівається допомогти іншим використовувати силу штучного інтелекту для соціальної добробути.