부본 로봇이 스스로 강화 학습을 진행하도록 학습 - Unite.AI
Rescale 미팅 예약

로보틱스

로봇이 강화 학습 과정을 스스로 학습합니다.

게재

 on

보스턴 다이내믹스와 춤추는 로봇 일반적으로 대부분의 관심을 받지만, 충분한 보도를 받지 못하는 배후에서 일부 주요 개발이 진행되고 있습니다. 이러한 개발 중 하나는 Cassie라는 로봇이 강화 학습을 통해 걷는 법을 스스로 가르칠 수 있었던 Berkeley 연구소에서 이루어졌습니다. 

시행 착오 끝에 한 쌍의 로봇 다리는 실제 세계에서 테스트하기 전에 시뮬레이션 환경에서 탐색하는 방법을 배웠습니다. 처음에 로봇은 모든 방향으로 걷고, 쪼그려 앉은 상태로 걷고, 균형을 잃었을 때 스스로 위치를 바꾸고, 다양한 유형의 표면에 적응하는 능력을 시연했습니다. 

Cassie 로봇은 걷기 위해 강화 학습을 성공적으로 사용한 두 다리 로봇의 첫 번째 인스턴스입니다. 

춤추는 로봇의 경외심

Boston Dynamics의 로봇과 같은 로봇은 매우 인상적이며 이를 보는 거의 모든 사람을 놀라게 하지만 몇 가지 핵심 요소가 있습니다. 특히 이러한 로봇은 결과를 달성하기 위해 손으로 프로그래밍되고 안무되지만 실제 상황에서 선호되는 방법은 아닙니다. 

실험실 밖에서 로봇은 견고하고 탄력적이며 유연해야 합니다. 무엇보다 예상치 못한 상황에 직면하고 대처할 수 있어야 하는데, 이는 스스로 대처할 수 있어야만 가능하다. 

Zhongyu Li는 University of Berkeley에서 Cassie를 연구하는 팀의 일원이었습니다. 

"이 비디오는 일부 사람들이 이것이 해결되고 쉬운 문제라고 믿게 만들 수 있습니다."라고 Li는 말합니다. "하지만 휴머노이드 로봇이 인간 환경에서 안정적으로 작동하고 생활할 수 있도록 하려면 아직 갈 길이 멉니다." 

이족보행 로봇의 강력한 매개변수화된 이동 제어를 위한 강화 학습

 

강화 학습

이러한 로봇을 만들기 위해 Berkeley 팀은 DeepMind와 같은 회사에서 세계에서 가장 복잡한 게임에서 인간을 이기기 위한 알고리즘을 훈련하는 데 사용하는 강화 학습에 의존했습니다. 강화 학습은 로봇이 실수로부터 학습하는 시행착오를 기반으로 합니다. 

Cassie 로봇은 시뮬레이션에서 걷는 방법을 배우기 위해 강화 학습을 사용했으며, 이 접근 방식이 처음으로 사용된 것은 아닙니다. 그러나 이것은 일반적으로 시뮬레이트된 환경을 벗어나 실제 세계로 들어가지 않습니다. 작은 차이라도 로봇이 걷지 못하는 결과를 초래할 수 있습니다. 

연구원들은 하나가 아닌 두 개의 시뮬레이션을 사용했으며 첫 번째는 MuJoCo라는 오픈 소스 교육 환경이었습니다. 이 첫 번째 시뮬레이션에서 알고리즘은 가능한 움직임의 라이브러리에서 시도하고 학습했으며 SimMechanics라는 두 번째 시뮬레이션에서는 로봇이 보다 실제적인 조건에서 이를 테스트했습니다.

두 시뮬레이션에서 개발된 후에는 알고리즘을 미세 조정할 필요가 없었습니다. 이미 현실 세계에 들어갈 준비가 되어 있었습니다. 걸을 수 있을 뿐만 아니라 훨씬 더 많은 일을 할 수 있었습니다. 연구원들에 따르면 Cassie는 로봇 무릎에 있는 두 개의 모터가 오작동한 후 복구할 수 있었습니다.

Cassie는 다른 로봇처럼 모든 종소리와 휘파람을 가지고 있지는 않지만 여러 면에서 훨씬 더 인상적입니다. 또한 이러한 보행 로봇은 다양한 분야에서 사용될 수 있기 때문에 실제 사용과 관련하여 기술에 더 큰 영향을 미칩니다.  

 

Alex McFarland는 인공 지능의 최신 개발을 탐구하는 AI 저널리스트이자 작가입니다. 그는 전 세계 수많은 AI 스타트업 및 출판물과 협력해 왔습니다.