ШІ 101
Що таке навчання з підкріпленням?

Що таке навчання з підкріпленням?
Підвищення навчання з підкріпленням – це техніка машинного навчання, яка полягає у навчанні штучного інтелекту через повторення дій та асоційованих з ними винагород. Агент навчання з підкріпленням проводить експерименти в середовищі, виконуючи дії та отримуючи винагороди, коли виконуються правильні дії. З часом агент навчиться виконувати дії, які максимізують його винагороду. Це швидке визначення навчання з підкріпленням, але детальний аналіз концепцій, що стоять за навчанням з підкріпленням, допоможе вам отримати краще, більш інтуїтивне розуміння цього питання.
Термін “навчання з підкріпленням” запозичений з концепції підкріплення в психології. Через це варто розглянути психологічну концепцію підкріплення. У психологічному сенсі термін підкріплення відноситься до чогось, що збільшує ймовірність того, що певна реакція/дія відбудеться. Ця концепція підкріплення є центральною ідеєю теорії оперантного умовання, вперше запропонованої психологом Б.Ф. Скіннером. У цьому контексті підкріплення – це все, що спричиняє збільшення частоти певної поведінки. Якщо подумати про можливе підкріплення для людей, це можуть бути речі, такі як похвала, підвищення на роботі, цукерки та розважальні заходи.
У традиційному, психологічному сенсі існує два типи підкріплення. Є позитивне підкріплення та негативне підкріплення. Позитивне підкріплення полягає у додаванні чогось для збільшення поведінки, наприклад, коли ви даєте собаці лакомство, коли воно поводиться добре. Негативне підкріплення полягає у видаленні стимулу для викликання поведінки, наприклад, коли ви вимикаєте гучні звуки, щоб вивести стресовану кішку.
Позитивне та негативне підкріплення
Позитивне підкріплення збільшує частоту поведінки, тоді як негативне підкріплення зменшує її. Загалом, позитивне підкріплення є найпоширенішим типом підкріплення, використовуваним у навчанні з підкріпленням, оскільки воно допомагає моделям максимізувати продуктивність на заданому завданні. Не тільки це, але позитивне підкріплення також сприяє тому, щоб модель робила більш сталий зміни, зміни, які можуть стати постійними моделями та тривати протягом тривалого часу.
Натомість, хоча негативне підкріплення також робить поведінку більш ймовірною, воно використовується для підтримання мінімального стандарту продуктивності, а не для досягнення максимальної продуктивності моделі. Негативне підкріплення у навчанні з підкріпленням може допомогти забезпечити, щоб модель уникала нежаданих дій, але воно не може змусити модель досліджувати бажані дії.
Навчання агента навчання з підкріпленням
Коли агент навчання з підкріпленням навчається, існують чотири різні інгредієнти або стані, які використовуються під час навчання: початкові стани (Стан 0), новий стан (Стан 1), дії та винагороди.
Представимо, що ми навчаємо агент навчання з підкріпленням грати у платформову відеогру, де метою штучного інтелекту є досягнення кінця рівня, рухаючись праворуч по екрану. Початковий стан гри витягується з середовища, тобто перший кадр гри аналізується та передається моделі. На основі цієї інформації модель повинна вирішити про дію.
Під час початкових фаз навчання ці дії є випадковими, але коли модель підкріплюється, певні дії стають більш поширеними. Після виконання дії середовище гри оновлюється, і створюється новий стан або кадр. Якщо дія, виконана агентом, призвела до бажаного результату, наприклад, агент все ще живий і не був вражений ворогом, агенту надається певна винагорода, і він стає більш схильним до виконання такої ж дії в майбутньому.
Ця базова система постійно повторюється, відбувається знову і знову, і кожен раз агент намагається навчитися ще трохи та максимізувати свою винагороду.
Епізодичні завдання проти безперервних завдань
Завдання навчання з підкріпленням можна зазвичай розділити на дві різні категорії: епізодичні завдання та безперервні завдання.
Епізодичні завдання проводитимуть навчання/тренування цикл і покращуватимуть свою продуктивність до тих пір, поки не будуть досягнуті певні критерії завершення, і навчання буде припинено. У грі це може бути досягнення кінця рівня або падіння у пастку, наприклад, на колючі предмети. Натомість, безперервні завдання не мають критеріїв завершення, тобто вони продовжуватимуть навчання нескінченно, поки інженер не вирішить припинити навчання.
Монте-Карло проти часового розриву
Існують два основних способи навчання, або тренування, агента навчання з підкріпленням. У підході Монте-Карло винагороди надаються агенту (його рахунок оновлюється) лише в кінці епізоду навчання. Інакше кажучи, лише коли термін завершення досягнутий, модель дізнається, як добре вона виконала свою роботу. Потім вона може використовувати цю інформацію для оновлення, і коли наступний раунд навчання розпочнеться, вона буде реагувати відповідно до нової інформації.
Метод часового розриву відрізняється від методу Монте-Карло тим, що оцінка значення, або оцінка рахунку, оновлюється під час навчання епізоду. Як тільки модель переходить до наступного часу кроку, значення оновлюються.
Дослідження проти експлуатації
Навчання агента навчання з підкріпленням – це балансування акта, що полягає у балансуванні двох різних метрик: дослідження та експлуатації.
Дослідження – це акт збору більшої кількості інформації про навколишнє середовище, тоді як експлуатація полягає у використанні вже відомої інформації про середовище для отримання очок винагороди. Якщо агент тільки досліджує і ніколи не експлуатує середовище, бажані дії ніколи не будуть виконані. З іншого боку, якщо агент тільки експлуатує і ніколи не досліджує, агент навчитися виконувати тільки одну дію і не відкриє інші можливі стратегії отримання винагороди. Тому балансування дослідження та експлуатації є критично важливим при створенні агента навчання з підкріпленням.
Варіанти використання навчання з підкріпленням
Навчання з підкріпленням можна використовувати у широкому спектрі ролей, і воно найкраще підходить для застосунків, у яких завдання вимагають автоматизації.
Автоматизація завдань, які повинні виконувати промислові роботи, – це одна з областей, де навчання з підкріпленням довело свою корисність. Навчання з підкріпленням також можна використовувати для завдань, таких як текстова обробка, створення моделей, які можуть підсумовувати великі обсяги тексту. Дослідники також експериментують з використанням навчання з підкріпленням у сфері охорони здоров’я, де агенти навчання з підкріпленням займаються завданнями, такими як оптимізація політики лікування. Навчання з підкріпленням також можна використовувати для створення індивідуальних навчальних матеріалів для студентів.
Підсумок навчання з підкріпленням
Навчання з підкріпленням – це потужний метод створення агентів штучного інтелекту, який може привести до вражаючих та іноді несподіваних результатів. Навчання агента через навчання з підкріпленням може бути складним та важким, оскільки це вимагає багатьох ітерацій навчання та деликатного балансування діхотомії дослідження/експлуатації. Однак, якщо це вдасться, агент, створений за допомогою навчання з підкріпленням, може виконувати складні завдання у широкому спектрі середовищ.












