заглушки Що таке Deep Reinforcement Learning? - Об'єднуйтесь.AI
Зв'язатися з нами
Майстер-клас ШІ:

AI 101

Що таке навчання з глибоким підкріпленням?

mm
оновлений on

Що таке навчання з глибоким підкріпленням?

Поряд із неконтрольованим машинним навчанням і навчанням під наглядом, іншою поширеною формою створення ШІ є навчання з підкріпленням. Окрім звичайного навчання з підкріпленням, глибоке навчання з підкріпленням може призвести до неймовірно вражаючих результатів завдяки тому, що він поєднує найкращі аспекти як глибокого навчання, так і навчання з підкріпленням. Давайте розглянемо, як саме працює глибоке навчання з підкріпленням.

Перш ніж ми заглибимося в глибоке навчання з підкріпленням, можливо, буде гарною ідеєю оновити себе, наскільки регулярні навчання працює. У навчанні з підкріпленням цілеспрямовані алгоритми розробляються за допомогою процесу проб і помилок, оптимізуючи дії, які призводять до найкращого результату/дії, які отримують найбільшу «винагороду». Коли алгоритми навчання з підкріпленням навчаються, вони отримують «винагороди» або «покарання», які впливають на те, які дії вони виконуватимуть у майбутньому. Алгоритми намагаються знайти набір дій, які забезпечать системі найбільшу винагороду, збалансовуючи як негайні, так і майбутні винагороди.

Алгоритми навчання з підкріпленням є дуже потужними, оскільки їх можна застосовувати майже до будь-якого завдання, маючи можливість гнучко та динамічно навчатися в середовищі та виявляти можливі дії.

Огляд Deep Reinforcement Learning

Фото: Megajuice через Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Коли йдеться про глибоке навчання з підкріпленням, середовище зазвичай представлено зображеннями. Зображення – це зображення навколишнього середовища в певний момент часу. Агент повинен проаналізувати зображення та витягти з них релевантну інформацію, використовуючи інформацію, щоб повідомити, яку дію йому слід виконати. Глибоке навчання з підкріпленням зазвичай здійснюється за допомогою однієї з двох різних методик: навчання на основі цінностей і навчання на основі політики.

Методи навчання на основі цінностей використовують такі алгоритми та архітектури, як згорткові нейронні мережі та Deep-Q-Networks. Ці алгоритми працюють, перетворюючи зображення на градації сірого та обрізаючи непотрібні частини зображення. Після цього зображення піддається різним операціям згортання та об’єднання, вилучаючи найбільш відповідні частини зображення. Потім важливі частини зображення використовуються для розрахунку Q-значення для різних дій, які може виконати агент. Значення Q використовуються для визначення найкращого курсу дій для агента. Після обчислення початкових значень Q виконується зворотне поширення, щоб можна було визначити найточніші значення Q.

Методи на основі політики використовуються, коли кількість можливих дій, які може виконати агент, надзвичайно велика, що зазвичай має місце в реальних сценаріях. Подібні ситуації вимагають іншого підходу, оскільки обчислення Q-значень для всіх окремих дій не є прагматичним. Підходи, засновані на політиках, працюють без обчислення значень функцій для окремих дій. Натомість вони приймають політику, вивчаючи політику безпосередньо, часто за допомогою методів, які називаються градієнтами політики.

Градієнти політики працюють шляхом отримання стану та обчислення ймовірностей дій на основі попереднього досвіду агента. Потім вибирається найбільш вірогідна дія. Цей процес повторюється до кінця періоду оцінки, і винагороди не передаються агенту. Після того, як винагороди були оброблені агентом, параметри мережі оновлюються за допомогою зворотного поширення.

Що таке Q-Learning?

Тому що Q-навчання є такою великою частиною глибокого процесу навчання з підкріпленням, давайте витратимо трохи часу, щоб справді зрозуміти, як працює система Q-навчання.

Марковський процес прийняття рішень

Процес прийняття рішення за Марковом. Фото: waldoalvarez через Pixabay, ліцензія Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Для того, щоб агент штучного інтелекту міг виконати серію завдань і досягти мети, агент повинен мати справу з послідовністю станів і подій. Агент починає роботу в одному стані, і він повинен виконати низку дій, щоб досягти кінцевого стану, і між початковим і кінцевим станами може існувати величезна кількість станів. Зберігати інформацію про кожен стан є недоцільним або неможливим, тому система повинна знайти спосіб зберегти лише найбільш актуальну інформацію про стан. Це досягається за допомогою a Марковський процес прийняття рішень, який зберігає лише інформацію про поточний стан і попередній стан. Кожен стан відповідає властивості Маркова, яка відстежує, як агент змінюється з попереднього стану на поточний.

Глибоке навчання Q-навчанням

Коли модель отримує доступ до інформації про стани навчального середовища, можна обчислити Q-значення. Значення Q — це загальна винагорода, яка надається агенту в кінці послідовності дій.

Значення Q розраховуються з серією винагород. Є миттєва винагорода, яка розраховується за поточним станом і в залежності від поточної дії. Значення Q для наступного стану також обчислюється разом із значенням Q для наступного стану і так далі, доки не будуть обчислені всі значення Q для різних станів. Існує також параметр Gamma, який використовується для контролю того, наскільки важливі майбутні винагороди для дій агента. Політики зазвичай розраховуються шляхом випадкової ініціалізації Q-значень і дозволу моделі сходитися до оптимальних Q-значень протягом курсу навчання.

Глибинні Q-мережі

Однією з фундаментальних проблем залучення використання Q-навчання для навчання з підкріпленням є те, що обсяг пам’яті, необхідний для зберігання даних, швидко збільшується зі збільшенням кількості станів. Deep Q Networks вирішують цю проблему, поєднуючи моделі нейронних мереж із Q-значеннями, що дозволяє агенту вчитися на досвіді та робити розумні припущення щодо найкращих дій. За допомогою глибокого Q-навчання функції Q-значення оцінюються за допомогою нейронних мереж. Нейронна мережа приймає стан як вхідні дані, а мережа виводить значення Q для всіх різних можливих дій, які може виконати агент.

Глибоке Q-навчання досягається шляхом зберігання всього минулого досвіду в пам’яті, обчислення максимальних виходів для Q-мережі, а потім використання функції втрат для обчислення різниці між поточними значеннями та теоретично найвищими можливими значеннями.

Deep Reinforcement Learning проти Deep Learning

Однією з важливих відмінностей між глибоким навчанням із підкріпленням і звичайним глибоким навчанням є те, що в першому випадку вхідні дані постійно змінюються, чого не можна сказати про традиційне глибоке навчання. Як модель навчання може врахувати входи та результати, які постійно змінюються?

По суті, для врахування розбіжності між прогнозованими значеннями та цільовими значеннями можна використовувати дві нейронні мережі замість однієї. Одна мережа оцінює цільові значення, а інша відповідає за прогнози. Параметри цільової мережі оновлюються в міру того, як модель навчається, після того, як пройде вибрана кількість ітерацій навчання. Виходи відповідних мереж потім об’єднуються, щоб визначити різницю.

Навчання на основі політики

Навчання на основі політики підходи працюють інакше, ніж підходи на основі Q-значення. У той час як підходи Q-value створюють функцію цінності, яка передбачає винагороду за стани та дії, методи на основі політики визначають політику, яка буде відображати стани діям. Іншими словами, функція політики, яка вибирає дії, безпосередньо оптимізується без урахування функції значення.

Градієнти політики

Політика глибокого навчання з підкріпленням відноситься до однієї з двох категорій: стохастична або детермінована. Детермінована політика — це політика, у якій стани зіставляються з діями, тобто коли полісу надається інформація про стан, дія повертається. Тим часом стохастичні політики повертають розподіл ймовірностей для дій замість однієї дискретної дії.

Детермінована політика використовується, коли немає невизначеності щодо результатів дій, які можна вжити. Іншими словами, коли саме середовище є детермінованим. Навпаки, результати стохастичної політики підходять для середовищ, де результат дій є невизначеним. Як правило, сценарії навчання з підкріпленням включають певний ступінь невизначеності, тому використовуються стохастичні політики.

Підходи з градієнтом політики мають кілька переваг перед підходами Q-навчання, а також деякі недоліки. З точки зору переваг, методи, засновані на політиках, швидше і надійніше наближаються до оптимальних параметрів. Градієнт політики можна просто дотримуватися, доки не будуть визначені найкращі параметри, тоді як за допомогою методів, заснованих на цінностях, невеликі зміни в оцінюваних значеннях дій можуть призвести до значних змін у діях та пов’язаних з ними параметрах.

Градієнти політики також краще працюють для просторів дій великого розміру. Коли існує надзвичайно велика кількість можливих дій, глибоке Q-навчання стає непрактичним, оскільки воно має призначати оцінку кожній можливій дії для всіх часових кроків, що може бути неможливим з точки зору обчислень. Однак у методах, заснованих на політиках, параметри коригуються з часом, і кількість можливих найкращих параметрів швидко зменшується в міру сходження моделі.

Градієнти політики також здатні реалізовувати стохастичну політику, на відміну від політики, заснованої на цінностях. Оскільки стохастична політика створює розподіл ймовірностей, компроміс між розвідкою та розробкою не потрібно застосовувати.

З точки зору недоліків, основним недоліком градієнтів політики є те, що вони можуть застрягти під час пошуку оптимальних параметрів, зосереджуючись лише на вузькому локальному наборі оптимальних значень замість глобальних оптимальних значень.

Функція оцінки політики

Політики, які використовуються для оптимізації ефективності моделі щоб максимізувати функцію оцінки – J(θ). Якщо J(θ) є показником того, наскільки хороша наша політика для досягнення бажаної мети, ми можемо знайти значення «θ», яка дає нам найкращу політику. По-перше, нам потрібно розрахувати очікувану страхову винагороду. Ми оцінюємо політичну винагороду, щоб мати мету, щось для оптимізації. Функція оцінки політики — це те, як ми обчислюємо очікувану винагороду за політикою, і існують різні функції оцінки політики, які зазвичай використовуються, наприклад: початкові значення для епізодичних середовищ, середнє значення для безперервних середовищ і середня винагорода за часовий крок.

Політика Градієнтне сходження

Градієнтний підйом спрямований на переміщення параметрів, поки вони не опиняться в місці, де оцінка найвища. Фото: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Після використання бажаної функції оцінки політики та розрахунку очікуваної винагороди за політикою ми можемо знайти значення для параметра "θ», що максимізує функцію балів. Щоб максимізувати оціночну функцію J(θ), техніка під назвою «градієнтний підйом" використовується. Градієнтний підйом схожий за концепцією на градієнтний спад у глибокому навчанні, але ми оптимізуємо для найкрутішого збільшення замість зменшення. Це тому, що наша оцінка не є «помилкою», як у багатьох проблемах глибокого навчання. Наш результат – це те, що ми хочемо максимізувати. Вираз під назвою теорема про градієнт політики використовується для оцінки градієнта щодо політики “θ".

Резюме Deep Reinforcement Learning

Підсумовуючи, глибоке навчання з підкріпленням поєднує в собі аспекти навчання з підкріпленням і глибокі нейронні мережі. Глибоке навчання з підкріпленням здійснюється за допомогою двох різних методів: глибокого Q-навчання та градієнтів політики.

Методи глибокого Q-навчання мають на меті передбачити, які винагороди отримають після певних дій у певному стані, тоді як підходи з градієнтом політики спрямовані на оптимізацію простору дій, прогнозуючи самі дії. Основані на політиці підходи до глибокого навчання з підкріпленням є або детерміністськими, або стохастичними за своєю природою. Детерміновані політики відображають стани безпосередньо в діях, тоді як стохастичні політики створюють розподіли ймовірностей для дій.

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.