Connect with us

DeepMind і Google Brain мета створити методи для покращення ефективності навчання з підкріпленням

Штучний інтелект

DeepMind і Google Brain мета створити методи для покращення ефективності навчання з підкріпленням

mm

Системи навчання з підкріпленням можуть бути потужними та стійкими, здатними виконувати надзвичайно складні завдання через тисячі ітерацій навчання. Хоча алгоритми навчання з підкріпленням здатні забезпечувати складну та іноді несподівану поведінку, вони потребують тривалого часу для навчання та великих обсягів даних. Ці фактори роблять техніки навчання з підкріпленням досить неефективними, і недавно дослідницькі команди з Alphabet DeepMind і Google Brain намагалися знайти більш ефективні методи створення систем навчання з підкріпленням.

Як повідомляє VentureBeat, об’єднана дослідницька група недавно запропонувала методи підвищення ефективності навчання з підкріпленням. Одним з запропонованих покращень був алгоритм, названий Адаптивним розподілом політики поведінки (ABPS), а іншим був каркас, названий Універсальними апроксиматорами функції цінності (UVFA). ABPS дозволяє пулам агентів штучного інтелекту спільно використовувати їх адаптивно вибрані досвіди, а UVFA дозволяє цим агентам одночасно досліджувати спрямовані політики дослідження.

ABPS призначений для прискорення налаштування гіперпараметрів під час навчання моделі. ABPS робить пошук оптимальних гіперпараметрів швидшим, дозволяючи декільком агентам з різними гіперпараметрами спільно використовувати їх досвід політики поведінки. Конкретніше, ABPS дозволяє агентам навчання з підкріпленням вибирати дії з тих дій, які політика визнала прийнятними, а потім їм надається винагорода та спостереження на основі наступного стану.

Агенти штучного інтелекту навчання з підкріпленням тренуються з різними комбінаціями можливих гіперпараметрів, таких як коефіцієнт衰减 та швидкість навчання. Під час навчання моделі мета полягає в тому, щоб модель збіглася на комбінації гіперпараметрів, яка забезпечує їй найкращу продуктивність, а в цьому випадку також покращує ефективність даних. Ефективність збільшується шляхом навчання багатьох агентів одночасно та вибору поведінки лише одного агента для розгортання під час наступної тимчасової одиниці. Політика, яку має цільовий агент, використовується для вибірки дій. Переходи реєструються в спільному просторі, і цей простір постійно оцінюється, щоб вибір політики не мав відбуватися так часто. На завершальному етапі навчання вибирається ансамбль агентів, а найкращі агенти вибираються для остаточного розгортання.

Відносно UVFA, він намагається вирішити одну з поширених проблем навчання з підкріпленням, тобто слабко підкріплені агенти часто не вчаться завданням. UVFA намагається вирішити цю проблему, навчаючи агента окремому набору політик експлуатації та дослідження одночасно. Відокремлення завдань створює каркас, який дозволяє дослідницьким політикам продовжувати досліджувати середовище, тоді як політики експлуатації продовжують намагатися максимізувати винагороду для поточного завдання. Дослідницькі політики UVFA служать базовою архітектурою, яка продовжить покращуватися, навіть якщо немає природних винагород. У такому стані наближається функція, яка відповідає внутрішнім винагородам, яка спонукає агентів досліджувати всі стани в середовищі, навіть якщо вони часто повертаються до знайомих станів.

Як пояснив VentureBeat, коли каркас UVFA діє, внутрішні винагороди системи надаються агенту безпосередньо як входи. Агент продовжує зберігати представлення всіх входів (таких як винагороди, дії та стан) під час певної серії. Результатом є те, що винагорода зберігається протягом часу, а політика агента至少 частково інформується про неї в будь-який момент часу.

Це досягається за допомогою використання “епізодичної новизни” та “новизни протягом життя” модулів. Функція першого модуля полягає в тому, щоб тримати поточну епізодичну пам’ять та відображати поточні знахідки на вищезгадане представлення, дозволяючи агенту визначити внутрішню епізодичну винагороду для кожного етапу навчання. Після цього стан, пов’язаний з поточним спостереженням, додається до пам’яті. Тим часом модуль новизни протягом життя відповідає за вплив на те, як часто агент досліджує протягом багатьох епізодів.

За словами команд Alphabet/Google, нові методи навчання вже продемонстрували потенціал для суттєвого покращення під час навчання системи навчання з підкріпленням. UVFA зміг подвоїти продуктивність деяких базових агентів, які грали в різні ігри Atari. Тим часом ABPS зміг покращити продуктивність у деяких тих самих ігор Atari, зменшивши дисперсію серед найкращих агентів приблизно на 25%. Алгоритм, навчений UVFA, зміг досягти високого рахунку в Pitfall самостійно, не маючи жодних інженерних особливостей людських демонстрацій.

Блогер і програміст з спеціалізацією у темах Machine Learning і Deep Learning. Даніель сподівається допомогти іншим використовувати силу штучного інтелекту для соціальної добробути.