Робототехніка та фізичний ШІ

Робот навчився ходити через підкріплення навчання

Опубліковано 16 квітня 2021

Оновлено 25 травня 2026

Alex McFarland

Хоча Boston Dynamics і танцюючі роботи зазвичай привертають найбільшу увагу, є певні важливі розробки, які відбуваються за кулісами і не отримують достатньої уваги. Однією з таких розробок є робота лабораторії Берклі, де робот на ім’я Кессі навчився ходити через підкріплення навчання.

Після спроб і помилок пара роботизованих ніг навчилися орієнтуватися в симульованому середовищі, а потім були випробувані в реальному світі. Спочатку робот продемонстрував здатність ходити у всіх напрямках, ходити, присідаючи, відновлювати рівновагу, коли його спотикали, і адаптуватися до різних типів поверхонь.

Робот Кессі став першим випадком успішного використання підкріплення навчання для ходьби двоногого робота.

Диво танцюючих роботів

Хоча роботи, такі як ті, що створені компанією Boston Dynamics, дуже вражаючі і дивують майже кожного, хто їх бачить, є кілька ключових факторів. Найбільш помітно, що ці роботи програмуються і хореографуються вручну, щоб досягти результату, але це не найкращий метод у реальних ситуаціях.

Поза лабораторією роботи повинні бути надійними, стійкими, гнучкими і багатьма іншими речами. Окрім всього цього, їм потрібно бути здатними зустріти і обробити несподівані ситуації, що можливо лише шляхом надання їм можливості самостійно обробляти такі ситуації.

Чжун’ю Лі був частиною команди, яка працювала над Кессі в університеті Берклі.

«Ці відео можуть привести деяких людей до висновку, що це проста і вирішена проблема», – говорить Лі. «Але ми ще маємо довгий шлях, щоб humanoidні роботи могли надійно працювати і жити в людських середовищах».

https://www.youtube.com/watch?v=goxCjGPQH7U

Підкріплення навчання

Щоб створити такого робота, команда Берклі використала підкріплення навчання, яке було використано компаніями, такими як DeepMind, для навчання алгоритмів перемагати людей у найскладніших іграх. Підкріплення навчання базується на спробах і помилках, коли робот вчиться на своїх помилках.

Робот Кессі використав підкріплення навчання, щоб навчитися ходити в симуляції, що не перший випадок використання цього підходу. Однак зазвичай це не виходить за межі симульованого середовища і не переходить у реальний світ. Навіть мала різниця може привести до того, що робот не зможе ходити.

Дослідники використали дві симуляції замість однієї, першою з яких була відкрита навчальна середовище під назвою MuJoCo. У цій першій симуляції алгоритм спробував і навчився з бібліотеки можливих рухів, а в другій симуляції під назвою SimMechanics робот випробував їх у більш реальних умовах.

Після розробки в двох симуляціях алгоритм не потребував тонкої настройки. Він був уже готовий до використання у реальному світі. Не тільки він міг ходити, але й міг робити багато іншого. За словами дослідників, Кессі зміг відновитися після того, як два мотори в коліні робота вийшли з ладу.

Хоча Кессі може не мати всіх дзвінків і свистків, як деякі інші роботи, він у багатьох аспектах набагато вражаючий. Він також має більші наслідки для технології у реальному світі, оскільки такий робот, що ходить, може бути використаний у багатьох різних секторах.

Alex McFarland

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.

Unite.AI

Робот навчився ходити через підкріплення навчання

Диво танцюючих роботів

Підкріплення навчання

Дізнайтеся більше