ШІ 101
Що таке навчання з підкріпленням?

Що таке навчання з підкріпленням?
Відповідь проста: навчання з підкріпленням – це техніка машинного навчання, яка полягає у навчанні штучного інтелекту через повторення дій та асоційованих з ними винагород. Агент навчання з підкріпленням експериментує в середовищі, виконуючи дії та отримуючи винагороди, коли виконуються правильні дії. З часом агент навчиться виконувати дії, які максимізують його винагороду. Це коротке визначення навчання з підкріпленням, але детальний аналіз концепцій, що стоять за цим, допоможе вам краще зрозуміти його.
Термін “навчання з підкріпленням” запозичений з концепції підкріплення в психології. Тому давайте розглянемо психологічну концепцію підкріплення. У психологічному сенсі підкріплення означає щось, що збільшує ймовірність того, що певна реакція/дія відбудеться. Ця концепція підкріплення є центральною ідеєю теорії оперантного умовання, вперше запропонованої психологом Б.Ф. Скіннером. У цьому контексті підкріплення – це все, що викликає збільшення частоти певної поведінки. Якщо ми подумаємо про можливе підкріплення для людей, то це можуть бути речі, такі як похвала, підвищення на роботі, цукерки та розважальні діяльності.
У традиційному, психологічному сенсі, існують два типи підкріплення. Це позитивне підкріплення та негативне підкріплення. Позитивне підкріплення полягає у додаванні чогось, щоб збільшити поведінку, наприклад, коли ви даєте собаці лакомство, коли воно поводиться добре. Негативне підкріплення полягає у видаленні стимулу, щоб викликати поведінку, наприклад, коли ви вимикаєте гучні звуки, щоб вивести з себе стресовану кішку.
Позитивне та негативне підкріплення
Позитивне підкріплення збільшує частоту поведінки, тоді як негативне підкріплення зменшує її. Загалом, позитивне підкріплення є найпоширенішим типом підкріплення, використовуваним у навчанні з підкріпленням, оскільки воно допомагає моделям максимізувати продуктивність на заданому завданні. Крім того, позитивне підкріплення веде до того, що модель робить більш стійкі зміни, які можуть стати постійними моделями та тривати протягом тривалого часу.
Натомість, хоча негативне підкріплення також робить поведінку більш ймовірною, воно використовується для підтримання мінімального стандарту продуктивності, а не для досягнення максимальної продуктивності моделі. Негативне підкріплення у навчанні з підкріпленням може допомогти забезпечити, щоб модель уникала нежаданих дій, але воно не може змусити модель досліджувати бажані дії.
Навчання агента навчання з підкріпленням
Коли агент навчання з підкріпленням навчається, існують чотири різних інгредієнти або стани, які використовуються у навчанні: початкові стани (Стан 0), новий стан (Стан 1), дії та винагороди.
Припустимо, що ми навчаємо агента навчання з підкріпленням грати у платформерну відеогру, де мета штучного інтелекту полягає у тому, щоб дійти до кінця рівня, рухаючись праворуч по екрану. Початковий стан гри витягується з середовища, тобто перший кадр гри аналізується та передається моделі. На основі цієї інформації модель повинна вирішити, яку дію виконати.
Під час початкових фаз навчання ці дії є випадковими, але коли модель підкріплюється, певні дії стають більш поширеними. Після виконання дії середовище гри оновлюється, і створюється новий стан або кадр. Якщо дія, виконана агентом, призвела до бажаного результату, наприклад, агент все ще живий і не був вражений ворогом, агенту надається певна винагорода, і він стає більш схильним до виконання такої дії в майбутньому.
Ця базова система постійно повторюється, відбувається знову і знову, і кожен раз агент намагається навчитися трохи більше та максимізувати свою винагороду.
Епізодичні завдання проти безперервних завдань
Завдання навчання з підкріпленням можна зазвичай розділити на дві різні категорії: епізодичні завдання та безперервні завдання.
Епізодичні завдання виконують цикл навчання/тренування та покращення продуктивності до тих пір, поки не будуть досягнуті певні критерії закінчення, і навчання припиняється. У грі це може бути досягнення кінця рівня або падіння у небезпеку, наприклад, шипи. Натомість, безперервні завдання не мають критеріїв закінчення, тобто навчання триває нескінченно, поки інженер не вирішить припинити навчання.
Монте-Карло проти часового розриву
Існують два основних способи навчання, або тренування, агента навчання з підкріпленням. У підході Монте-Карло винагороди надаються агенту (його рахунок оновлюється) тільки в кінці епізоду навчання. Інакше кажучи, тільки коли досягнуто критерій закінчення, модель дізнається, як добре вона виконала завдання. Потім вона може використовувати цю інформацію, щоб оновити свою продуктивність, і коли наступний раунд навчання розпочнеться, вона буде реагувати відповідно до нової інформації.
Метод часового розриву відрізняється від методу Монте-Карло тим, що оцінка цінності, або оцінка рахунку, оновлюється протягом епізоду навчання. Як тільки модель переходить до наступного кроку часу, значення оновлюються.
Дослідження проти експлуатації
Навчання агента навчання з підкріпленням – це акт балансування двох різних метрик: дослідження та експлуатації.
Дослідження – це акт збору більшої кількості інформації про навколишнє середовище, тоді як експлуатація – це використання вже відомої інформації про середовище для отримання винагороди. Якщо агент тільки досліджує та ніколи не експлуатує середовище, бажані дії ніколи не будуть виконані. З іншого боку, якщо агент тільки експлуатує та ніколи не досліджує, агент навчится виконувати тільки одну дію та не відкриє інших можливих стратегій отримання винагороди. Тому балансування дослідження та експлуатації є критично важливим при створенні агента навчання з підкріпленням.
Використання навчання з підкріпленням
Навчання з підкріпленням можна використовувати у широкому спектрі ролей і найкраще підходить для застосунків, які вимагають автоматизації завдань.
Автоматизація завдань, які повинні виконуватися промисловими роботами, – це одна з областей, де навчання з підкріпленням довело свою корисність. Навчання з підкріпленням також можна використовувати для завдань, таких як текстова обробка, створення моделей, які можуть підсумовувати великі об’єми тексту. Дослідники також експериментують з використанням навчання з підкріпленням у сфері охорони здоров’я, де агенти навчання з підкріпленням виконують завдання, такі як оптимізація політики лікування. Навчання з підкріпленням також можна використовувати для створення індивідуальних освітніх матеріалів для студентів.
Підсумок навчання з підкріпленням
Навчання з підкріпленням – це потужний метод створення агентів штучного інтелекту, який може привести до вражаючих та іноді несподіваних результатів. Навчання агента через підкріплення може бути складним та важким, оскільки це вимагає багатьох ітерацій навчання та деликатного балансування акта дослідження/експлуатації. Однак, якщо це вдається, агент, створений за допомогою навчання з підкріпленням, може виконувати складні завдання у широкому спектрі різних середовищ.












