์ธ๊ณต์ง๋ฅ
Google์ AI๊ฐ ๊ฐ์์ง์ ๋์์ ๊ด์ฐฐํ์ฌ ๋ก๋ด์๊ฒ ์์ง์์ ๊ฐ๋ฅด์น๋ค

현재까지도 가장 발전된 로봇 중 일부는 여전히 다소 거친, 뻣뻣한 방식으로 움직인다. 로봇이 더욱 생생하고 유연한 방식으로 움직이도록 하기 위해 Google의 연구자들은 실제 동물의 동작에서 학습할 수 있는 AI 시스템을 개발했다. Google 연구 팀은 지난주 말에 접근 방식에 대한 사전 인쇄 논문을 발표했다. 논문과 함께하는 블로그 포스트에서 연구 팀은 시스템背後의 이유를 설명한다. 논문의 저자들은 로봇에 더욱 자연스러운 움직임을 부여하면 건물의 다른 층 사이에서 항목을 전달하는 것과 같은 정밀한 움직임이 필요한 실제 세계 작업을 수행하는 데 도움이 될 수 있다고 믿는다.
VentureBeat이 보도한 것처럼, 연구 팀은 로봇을 훈련시키기 위해 강화 학습을 사용했다. 연구자들은 실제 동물의 움직임을 수집하여 강화 학습(RL) 기술을 사용하여 로봇이 비디오 클립中的 동물의 움직임을 모방하도록 했다. 이 경우 연구자들은 로봇을 강아지의 클립으로 훈련시켰으며, 물리 시뮬레이터에서 설계된 4족 로봇 Unitree Laikago에 강아지의 움직임을 모방하도록 지시했다. 로봇이 훈련을 받은 후에 복잡한 움직임을 수행할 수 있었으며, 이를 통해 2.6 마일의 속도로 홉핑, 회전, 빠른 걷기 등을 수행할 수 있었다.
훈련 데이터는 물리 시뮬레이션에서 추적된 약 200만 개의 강아지 동작 샘플로 구성되었다. 다양한 움직임은 보상 함수와 정책을 통해 에이전트가 학습한 후에 실행되었다. 정책이 시뮬레이션에서 생성된 후에 실제 세계에 적용되기 위해 잠재 공간 적응이라는 기술을 사용했다. 로봇을 훈련하기 위해 사용된 물리 시뮬레이터는 실제 세계의 움직임의某些 측면을 근사할 수만 있었기 때문에 연구자들은 다양한 조건下的 작동을 시뮬레이션하기 위해 시뮬레이션에 임의로 다양한 섭동을 적용했다.
연구 팀에 따르면, 그들은 실제 세계의 로봇에 시뮬레이션 정책을 적용하기 위해 50개의 다른 시도에서 수집된 데이터 중 8분만을 사용했다. 연구자들은 실제 세계의 로봇이 다양한 특정 움직임을 모방할 수 있음을 보여주었다. 이를 통해 트로팅, 회전, 홉핑, 페이싱 등을 수행할 수 있었다. 또한 애니메이션 아티스트가 생성한 애니메이션, 예를 들어 홉과 회전의 조합도 모방할 수 있었다.
연구자들은 논문에서 다음과 같이 요약한다.
“우리는 참조 동작 데이터를 활용하여 단일 학습 기반 접근 방식이 자동으로 다중 행동을 위한 컨트롤러를 합성할 수 있음을 보여준다. 도메인 적응 기술을 훈련 과정에 통합함으로써, 우리의 시스템은 시뮬레이션에서 적응형 정책을 학습하고 실제 세계에 빠르게 적용할 수 있다.”
강화 학습 과정에서 사용된 제어 정책에는 제한이 있었다. 하드웨어와 알고리즘의 제약으로 인해 로봇이 수행할 수 없는 몇 가지 사항이 있었다. 예를 들어, 로봇은 달리거나 큰 점프를 할 수 없었다. 또한 학습된 정책은 수동으로 설계된 움직임에 비해 안정성이 떨어졌다. 연구 팀은 컨트롤러를 더욱 강력하고 다양한 유형의 데이터에서 학습할 수 있도록 작업을 더 진행하고 싶어한다. 이상적으로, 프레임워크의 향후 버전은 비디오 데이터에서 학습할 수 있을 것이다.












