заглушки DeepMind і Google Brain Aim створюють методи для підвищення ефективності навчання з підкріпленням - Unite.AI
Зв'язатися з нами

Штучний Інтелект

DeepMind і Google Brain створюють методи для підвищення ефективності навчання з підкріпленням

mm
оновлений on

Системи навчання з підкріпленням можуть бути потужними та надійними, здатними виконувати надзвичайно складні завдання через тисячі ітерацій навчання. Хоча алгоритми навчання з підкріпленням здатні забезпечувати складну та часом несподівану поведінку, вони потребують багато часу для навчання та потребують величезних обсягів даних. Ці фактори роблять методи навчання з підкріпленням досить неефективними, і нещодавно дослідницькі групи Alphabet DeepMind і Google Brain намагалися знайти ефективніші методи створення систем навчання з підкріпленням.

Як повідомляє VentureBeat, об’єднана дослідницька група нещодавно запропонувала методи підвищення ефективності навчання з підкріпленням. Одним із запропонованих удосконалень був алгоритм, який отримав назву Adaptive Behavior Policy Sharing (ABPS), а іншим був фреймворк під назвою Universal Value Function Approximators (UVFA). ABPS дозволяє групам агентів штучного інтелекту ділитися своїм адаптивним досвідом, тоді як UVFA дозволяє цьому штучному інтелекту одночасно досліджувати політику спрямованого дослідження.

ABPS призначений для прискорення налаштування гіперпараметрів під час навчання моделі. ABPS пришвидшує пошук оптимальних гіперпараметрів, дозволяючи кільком різним агентам з різними гіперпараметрами ділитися своїм досвідом політики поведінки. Якщо бути більш точним, ABPS дозволяє агентам навчання з підкріпленням вибирати дії з тих дій, які політика вважає прийнятними, і після цього йому надається винагорода та спостереження на основі наступного стану.

Агенти посилення штучного інтелекту навчаються з різними комбінаціями можливих гіперпараметрів, таких як швидкість розпаду та швидкість навчання. Під час навчання моделі мета полягає в тому, щоб модель збігалася на комбінації гіперпараметрів, які забезпечують їй найкращу продуктивність, і в цьому випадку ті, які також покращують ефективність даних. Ефективність підвищується завдяки одночасному навчанню багатьох агентів і вибору поведінки лише одного агента для розгортання на наступному часовому етапі. Політика цільового агента використовується для вибірки дій. Потім переходи реєструються в спільному просторі, і цей простір постійно оцінюється, щоб вибір політики не відбувався так часто. Наприкінці навчання вибирається група агентів і найефективніші агенти для остаточного розгортання.

З точки зору UVFA, він намагається вирішити одну з поширених проблем навчання з підкріпленням, що слабко підкріплені агенти часто не вивчають завдання. UVFA намагається вирішити проблему, змушуючи агента вивчати окремий набір політик експлуатації та дослідження одночасно. Розділення завдань створює структуру, яка дозволяє дослідницьким політикам продовжувати досліджувати середовище, тоді як політики експлуатації продовжують намагатися максимізувати винагороду за поточне завдання. Дослідницька політика UVFA служить базовою архітектурою, яка продовжуватиме вдосконалюватись, навіть якщо не буде знайдено природних винагород. У такому стані апроксимується функція, яка відповідає внутрішнім винагородам, що спонукає агентів досліджувати всі стани середовища, навіть якщо вони часто повертаються до знайомих станів.

Як пояснив VentureBeat, коли в грі використовується структура UVFA, внутрішні винагороди системи надаються безпосередньо агенту як вхідні дані. Потім агент відстежує представлення всіх вхідних даних (таких як винагороди, дії та стан) протягом певного епізоду. Результатом є те, що винагорода зберігається протягом тривалого часу, і політика агента завжди принаймні певною мірою інформується про неї.

Це досягається за допомогою модулів «епізодична новинка» та «довічна новинка». Функція першого модуля полягає в утриманні поточної епізодичної пам’яті та відображенні поточних результатів у згаданому раніше представленні, дозволяючи агенту визначати внутрішню епізодичну винагороду за кожен крок навчання. Після цього стан, пов'язаний з поточним спостереженням, додається в пам'ять. Тим часом модуль новизни протягом усього життя відповідає за те, як часто агент досліджує протягом багатьох епізодів.

За словами команд Alphabet/Google, нові методи навчання вже продемонстрували потенціал для істотного вдосконалення під час навчання системи навчання з підкріпленням. UVFA вдалося подвоїти продуктивність деяких базових агентів, які грали в різні ігри Atari. Тим часом ABPS зміг підвищити продуктивність у деяких із тих самих ігор Atari, зменшивши дисперсію серед найефективніших агентів приблизно на 25%. Навчений алгоритм UVFA зміг досягти високих результатів у Pitfall сам по собі, не маючи жодних інженерних функцій людських демонстрацій.