로보틱스

컴퓨터 과학자들이 로봇을 가르치기 위해 강화 학습을 사용한다

Published October 28, 2020

Updated April 28, 2026

Alex McFarland

존스 홉킨스 대학의 컴퓨터 과학자들은 일반적으로 개와 같은 동물을 훈련하는 데 사용되는 오랜 훈련 기법인 강화 학습을 로봇에 적용하여 로봇이 새로운 기술을 스스로 가르칠 수 있도록 했다. 새로운 기술 중 하나는 블록을 쌓는 능력이 있었다.

로봇의 이름은 Spot이며, 연구자에 따르면, 로봇은 전통적으로 한 달이 걸리는 것을 며칠 내에 배울 수 있다.

강화 학습

연구 팀은 로봇의 기술 세트를 증가시키기 위해 강화 학습을 사용했다. 로봇을 이렇게 빠르게 훈련할 수 있는 것은 이러한 유형의 로봇을 실제 세계에서 배치하는 것을 더 쉽게 만든다.

이 연구는 IEEE Robotics and Automation Letters에 발표되었으며, 제목은 “Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.“이다.

Andrew Hundt는 존스 홉킨스 대학에서 박사 과정 학생으로 연구의 주요 저자이다.

“로봇이 기술을 배우는 방법은 무엇인가?”라고 그는 말했다. “나는 개를 키워봤기 때문에 보상이 효과가 있다는 것을 알고 있었고, 이것이 내가 학습 알고리즘을 설계한 영감이었다.”

컴퓨터에 강화 학습이 효과가 있는 이유 중 하나는 컴퓨터가 직관적인 뇌가 없기 때문이다. 즉, 컴퓨터는 완전히 빈 캔버스와 같아서 무엇이든 투영할 수 있다. 즉, 컴퓨터는 모든 것을 아무것도 모르는 상태에서 배워야 한다. 컴퓨터에서 가장 효과적인 학습 방법 중 하나는 시도와 오류이다. 이것은 로봇공학자들이 아직 작업 중인 것이다.

연구자들이 로봇을 위해 보상 시스템을 만들었을 때, 이것은 개를 훈련하는 것과 유사했다. 하지만 로봇은 작업을 올바르게 완료할 때 숫자 점수를 받는다.

https://www.youtube.com/watch?v=dvxqjJBWFD4

배운 기술

블록을 쌓는 방법을 배우는 경우, 로봇은 건설적인 행동에 집중해야 했다. 이 방법에서 Spot 로봇은 블록을 쌓는 동안 올바른 행동을 완료할 때 더 높은 점수를 받았다. 반면에, 로봇은 올바르지 않은 행동에 대해서는 아무런 보상을 받지 못했다. 로봇은 네 개의 블록을 쌓고 마지막 블록을 위에 올릴 때 가장 높은 점수를 받았다.

연구자들은 이 방법에서 큰 성공을 보았다. 로봇은 이전에는 몇 주가 걸렸던 것을 며칠 내에 배웠다. 시뮬레이션 로봇을 훈련함으로써, 팀은 Spot 로봇으로 이동하기 전에 연습 시간을 줄일 수 있었다.

“로봇은 더 높은 점수를 원한다”라고 Hundt는 말했다. “로봇은 올바른 행동을 빠르게 배운다. 실제로, 로봇이 100%의 정확도를 달성하는 데 한 달이 걸렸지만, 우리는 2일 만에 이를 달성할 수 있었다.”

블록을 쌓는 방법을 배우는 것 외에도, 로봇은 시뮬레이션 내비게이션 게임을 하는 방법과 같은 다른 작업을 강화 학습을 통해 배웠다.

“처음에는 로봇이 무엇을 하는지 모른다. 하지만 로봇은 연습할 때마다 더 잘해지고, 결국 100%의 성공률을 달성한다”라고 Hundt는 말했다.

이 방법의 가능한 응용 분야에는 가계 로봇을 특정 작업을 수행하도록 훈련하는 것이 포함되며, 또한 자율 주행 차량을 개선하는 데에도 사용될 수 있다.

“우리의 목표는 궁극적으로 실제 세계에서 복잡한 작업을 수행할 수 있는 로봇을 개발하는 것이다. 예를 들어, 제품 조립, 노인 간호, 수술과 같은 작업이다. 우리는 현재 이러한 작업을 프로그래밍하는 방법을 모른다. 세계는 너무 복잡하다. 하지만 이러한 연구는 로봇이 실제 세계에서 작업을 안전하고 효율적으로 수행할 수 있는 방법을 배울 수 있다는 가능성을 보여준다.”