Робототехника
Ученые-компьютерщики используют положительное подкрепление для обучения роботов

Ученые-компьютерщики в Университете Джонса Хопкинса применили давно используемый метод обучения – положительное подкрепление, который часто используется для обучения животных, таких как собаки, на роботе, чтобы он мог научиться новым трюкам. Среди этих новых навыков было умение складывать блоки.
Робот называется Spot, и, по словам исследователей, он может выучить навыки за несколько дней, которые традиционно занимают около месяца.
Положительное подкрепление
Положительное подкрепление было использовано командой для увеличения набора навыков робота. Скорость, с которой команда смогла сделать это, делает его проще для таких роботов быть развернутыми в реальном мире.
Работа была опубликована в IEEE Robotics and Automation Letters, под названием “Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”
Эндрю Хандт – аспирант, работающий в Университете Джонса Хопкинса и ведущий автор исследования.
“Вопрос здесь был, как мы можем заставить робота выучить навык?” – сказал он. “У меня были собаки, поэтому я знаю, что награды работают, и это было вдохновением для того, как я спроектировал алгоритм обучения.”
Одной из причин, почему положительное подкрепление работает на компьютерах, является то, что у них нет интуитивных мозгов, то есть они являются чистой доской, на которую можно проецировать все, что угодно. Другими словами, они должны выучить все с нуля. Одним из наиболее эффективных методов обучения для компьютеров является метод проб и ошибок, над которым робототехники все еще работают сегодня.
Именно это сделали исследователи, когда они создали систему наград для робота, аналогично процессу обучения собаки с помощью угощений. Разница заключается в том, что робот получит числовые баллы, когда он выполнит задание правильно.
https://www.youtube.com/watch?v=dvxqjJBWFD4
Выученные навыки
Когда речь шла об обучении складыванию блоков, роботу пришлось научиться сосредотачиваться на конструктивных действиях. В методе робот Spot получал более высокие баллы, когда он выполнял правильные поведения во время складывания блоков. С другой стороны, он не получал ничего за неправильные поведения. Он получил наивысшее количество баллов, выполнив четырехблочную стопку с последним блоком сверху.
Исследователи увидели большой успех в этом методе, с роботом, который выучил за несколько дней то, что ранее заняло бы недели. Обучая симулированного робота, команда сократила время практики перед переходом на робота Spot.
“Робот хочет получить более высокий балл”, – сказал Хандт. “Он быстро учится правильному поведению, чтобы получить лучшую награду. На самом деле, ранее на это ушло около месяца практики, чтобы робот достиг 100% точности. Мы смогли сделать это за два дня.”
Помимо обучения складыванию блоков, робот также использовал положительное подкрепление для обучения другим задачам, таким как игра в симулированную навигационную игру.
“На начальном этапе робот не имеет представления о том, что он делает, но он будет становиться лучше и лучше с каждой практикой. Он никогда не сдается и продолжает пытаться складывать и может выполнить задание 100% времени”, – сказал Хандт.
Некоторые из возможных применений этого метода включают обучение домашних роботов выполнению определенных задач, а также улучшение автономных транспортных средств.
“Наша цель – в конечном итоге разработать роботов, которые могут выполнять сложные задачи в реальном мире – такие как сборка продукции, уход за пожилыми людьми и хирургия”, – сказал Хагер. “Мы пока не знаем, как программировать такие задачи – мир слишком сложен. Но такая работа показывает нам, что есть обоснование идее, что роботы могут научиться выполнять такие реальные задачи безопасным и эффективным способом.”












