заглушки Що таке навчання з підкріпленням? - Об'єднуйтесь.AI
Зв'язатися з нами
Майстер-клас ШІ:

AI 101

Що таке навчання з підкріпленням?

mm
оновлений on

Що таке навчання з підкріпленням?

Простіше кажучи, навчання з підкріпленням — це техніка машинного навчання, яка передбачає навчання агента штучного інтелекту шляхом повторення дій і відповідних винагород. Агент навчання з підкріпленням експериментує в середовищі, виконуючи дії та отримуючи винагороду за правильні дії. З часом агент вчиться робити дії, які максимізують його винагороду. Це коротке визначення навчання з підкріпленням, але більш уважний погляд на концепції навчання з підкріпленням допоможе вам отримати краще, більш інтуїтивне розуміння цього.

Термін «навчання з підкріпленням» походить від концепції підкріплення в психології. З цієї причини давайте трохи розберемося з психологічною концепцією підкріплення. У психологічному сенсі термін «підкріплення» означає щось, що збільшує ймовірність того, що відбудеться певна відповідь/дія. Ця концепція підкріплення є центральною ідеєю теорії оперантного зумовлення, спочатку запропонованої психологом Б. Ф. Скіннером. У цьому контексті підкріплення – це все, що викликає збільшення частоти певної поведінки. Якщо ми думаємо про можливе підкріплення для людей, це можуть бути такі речі, як похвала, підвищення на роботі, цукерки та розваги.

У традиційному, психологічному розумінні існує два типи підкріплення. Є позитивне підкріплення та негативне підкріплення. Позитивне підкріплення – це додавання чогось, щоб покращити поведінку, наприклад, дати собаці ласощі, якщо вона добре поводиться. Негативне підкріплення передбачає усунення стимулу, щоб викликати певну поведінку, як-от вимикання гучних звуків, щоб вимовити вередливого кота.

Позитивне та негативне підкріплення

Позитивне підкріплення збільшує частоту поведінки, тоді як негативне підкріплення зменшує частоту. Загалом, позитивне підкріплення є найпоширенішим типом підкріплення, яке використовується в навчанні з підкріпленням, оскільки воно допомагає моделям максимізувати ефективність виконання певного завдання. Не тільки це, але позитивне підкріплення спонукає модель вносити більш стійкі зміни, зміни, які можуть стати послідовними моделями та зберігатися протягом тривалого часу.

Навпаки, хоча негативне підкріплення також підвищує ймовірність появи поведінки, воно використовується для підтримки мінімального стандарту продуктивності, а не для досягнення максимальної продуктивності моделі. Негативне підкріплення в навчанні з підкріпленням може допомогти переконатися, що модель утримується від небажаних дій, але воно не може змусити модель досліджувати бажані дії.

Навчання Reinforcement Agent

Коли агент навчання з підкріпленням навчається, є чотири різні інгредієнти or держав використовуються в навчанні: початкові стани (Стан 0), новий стан (Стан 1), дії та винагороди.

Уявіть, що ми навчаємо агента підкріплення грати у платформенну відеогру, де мета штучного інтелекту полягає в тому, щоб дійти до кінця рівня, переміщаючись прямо по екрану. Початковий стан гри витягується з середовища, тобто перший кадр гри аналізується та передається моделі. На основі цієї інформації модель повинна прийняти рішення про дію.

На початкових етапах навчання ці дії є випадковими, але в міру посилення моделі певні дії стануть більш поширеними. Після виконання дії середовище гри оновлюється та створюється новий стан або фрейм. Якщо дія, здійснена агентом, дала бажаний результат, скажімо, у цьому випадку агент все ще живий і його не вдарив ворог, агент отримує певну винагороду, і він з більшою ймовірністю зробить те саме в майбутнє.

Ця базова система постійно зациклюється, повторюється знову і знову, і щоразу агент намагається навчитися трохи більше та максимізувати свою винагороду.

Епізодичні та безперервні завдання

Навчальні завдання з підкріпленням зазвичай можна помістити в одну з двох різних категорій: епізодичні завдання та постійні завдання.

Епізодичні завдання виконуватимуть цикл навчання/навчання та покращуватимуть свою продуктивність, доки не буде виконано певний кінцевий критерій і навчання не буде припинено. У грі це може бути досягнення кінця рівня або потрапляння в небезпеку, як-от шипи. Навпаки, безперервні завдання не мають критеріїв завершення, по суті, навчання триває вічно, доки інженер не вирішить завершити навчання.

Монте-Карло проти часової різниці

Існує два основних способи навчання або навчання агента навчання з підкріпленням. в підхід Монте-Карло, нагороди доставляються агенту (його оцінка оновлюється) лише в кінці епізоду навчання. Інакше кажучи, лише коли виконується умова завершення, модель дізнається, наскільки добре вона працює. Потім він може використовувати цю інформацію для оновлення, і коли розпочнеться наступний раунд навчання, він відповість відповідно до нової інформації.

Команда часово-різницевий метод відрізняється від методу Монте-Карло тим, що оцінка значення, або оцінка балів, оновлюється протягом епізоду навчання. Коли модель переходить до наступного часового кроку, значення оновлюються.

Розвідка проти експлуатації

Навчання агента навчання з підкріпленням є актом балансування, що включає балансування двох різних показників: дослідження та експлуатації.

Дослідження — це акт збору додаткової інформації про навколишнє середовище, тоді як дослідження використовує вже відому інформацію про середовище для отримання бонусних балів. Якщо агент лише досліджує навколишнє середовище, а не використовує його, бажані дії ніколи не будуть виконані. З іншого боку, якщо агент лише використовує і ніколи не досліджує, агент навчиться виконувати лише одну дію і не виявить інших можливих стратегій отримання винагороди. Тому під час створення агента навчання з підкріпленням критично важливо збалансувати дослідження та використання.

Випадки використання для навчання з підкріпленням

Навчання з підкріпленням можна використовувати в багатьох ролях, і воно найкраще підходить для програм, де завдання вимагають автоматизації.

Автоматизація завдань, які мають виконуватися промисловими роботами, є однією з сфер, де навчання з підкріпленням виявляється корисним. Навчання з підкріпленням також можна використовувати для таких проблем, як аналіз тексту, створення моделей, здатних узагальнювати довгі частини тексту. Дослідники також експериментують із використанням навчання з підкріпленням у сфері охорони здоров’я, коли агенти підкріплення виконують такі завдання, як оптимізація політики лікування. Навчання з підкріпленням також можна використовувати для налаштування навчального матеріалу для учнів.

Резюме навчання з підкріпленням

Навчання з підкріпленням — це потужний метод створення агентів ШІ, який може призвести до вражаючих, а часом і дивовижних результатів. Навчання агента за допомогою навчання з підкріпленням може бути складним і важким, оскільки вимагає багатьох ітерацій навчання та тонкого балансу дихотомії дослідження/використання. Однак у разі успіху агент, створений за допомогою навчання з підкріпленням, може виконувати складні завдання в різноманітних середовищах.

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.