로보틱스
로봇이 강화 학습 과정을 스스로 학습합니다.
보스턴 다이내믹스와 춤추는 로봇 일반적으로 대부분의 관심을 받지만, 충분한 보도를 받지 못하는 배후에서 일부 주요 개발이 진행되고 있습니다. 이러한 개발 중 하나는 Cassie라는 로봇이 강화 학습을 통해 걷는 법을 스스로 가르칠 수 있었던 Berkeley 연구소에서 이루어졌습니다.
시행 착오 끝에 한 쌍의 로봇 다리는 실제 세계에서 테스트하기 전에 시뮬레이션 환경에서 탐색하는 방법을 배웠습니다. 처음에 로봇은 모든 방향으로 걷고, 쪼그려 앉은 상태로 걷고, 균형을 잃었을 때 스스로 위치를 바꾸고, 다양한 유형의 표면에 적응하는 능력을 시연했습니다.
Cassie 로봇은 걷기 위해 강화 학습을 성공적으로 사용한 두 다리 로봇의 첫 번째 인스턴스입니다.
춤추는 로봇의 경외심
Boston Dynamics의 로봇과 같은 로봇은 매우 인상적이며 이를 보는 거의 모든 사람을 놀라게 하지만 몇 가지 핵심 요소가 있습니다. 특히 이러한 로봇은 결과를 달성하기 위해 손으로 프로그래밍되고 안무되지만 실제 상황에서 선호되는 방법은 아닙니다.
실험실 밖에서 로봇은 견고하고 탄력적이며 유연해야 합니다. 무엇보다 예상치 못한 상황에 직면하고 대처할 수 있어야 하는데, 이는 스스로 대처할 수 있어야만 가능하다.
Zhongyu Li는 University of Berkeley에서 Cassie를 연구하는 팀의 일원이었습니다.
"이 비디오는 일부 사람들이 이것이 해결되고 쉬운 문제라고 믿게 만들 수 있습니다."라고 Li는 말합니다. "하지만 휴머노이드 로봇이 인간 환경에서 안정적으로 작동하고 생활할 수 있도록 하려면 아직 갈 길이 멉니다."
강화 학습
이러한 로봇을 만들기 위해 Berkeley 팀은 DeepMind와 같은 회사에서 세계에서 가장 복잡한 게임에서 인간을 이기기 위한 알고리즘을 훈련하는 데 사용하는 강화 학습에 의존했습니다. 강화 학습은 로봇이 실수로부터 학습하는 시행착오를 기반으로 합니다.
Cassie 로봇은 시뮬레이션에서 걷는 방법을 배우기 위해 강화 학습을 사용했으며, 이 접근 방식이 처음으로 사용된 것은 아닙니다. 그러나 이것은 일반적으로 시뮬레이트된 환경을 벗어나 실제 세계로 들어가지 않습니다. 작은 차이라도 로봇이 걷지 못하는 결과를 초래할 수 있습니다.
연구원들은 하나가 아닌 두 개의 시뮬레이션을 사용했으며 첫 번째는 MuJoCo라는 오픈 소스 교육 환경이었습니다. 이 첫 번째 시뮬레이션에서 알고리즘은 가능한 움직임의 라이브러리에서 시도하고 학습했으며 SimMechanics라는 두 번째 시뮬레이션에서는 로봇이 보다 실제적인 조건에서 이를 테스트했습니다.
두 시뮬레이션에서 개발된 후에는 알고리즘을 미세 조정할 필요가 없었습니다. 이미 현실 세계에 들어갈 준비가 되어 있었습니다. 걸을 수 있을 뿐만 아니라 훨씬 더 많은 일을 할 수 있었습니다. 연구원들에 따르면 Cassie는 로봇 무릎에 있는 두 개의 모터가 오작동한 후 복구할 수 있었습니다.
Cassie는 다른 로봇처럼 모든 종소리와 휘파람을 가지고 있지는 않지만 여러 면에서 훨씬 더 인상적입니다. 또한 이러한 보행 로봇은 다양한 분야에서 사용될 수 있기 때문에 실제 사용과 관련하여 기술에 더 큰 영향을 미칩니다.