인공지능
DeepMind와 Google Brain, 강화 학습의 효율성을 개선하기 위한 방법 개발 목표

강화 학습 시스템은 매우 강력하고 강건하여 수천 번의 반복적인 훈련을 통해 매우 복잡한 작업을 수행할 수 있다. 강화 학습 알고리즘은 정교하고 때로는 놀라운 행동을 가능하게 하지만, 오랜 시간의 훈련과大量의 데이터가 필요하다. 이러한 요인들로 인해 강화 학습 기술은 다소 비효율적이며, 최근에 Alphabet의 DeepMind와 Google Brain의 연구 팀은 강화 학습 시스템을 더 효율적으로 만드는 방법을 찾기 위해 노력하고 있다.
VentureBeat에 따르면, 결합된 연구 그룹은 최근 강화 학습 훈련을 더 효율적으로 만드는 방법을 제안했다. 하나의 제안된 개선은 Adaptive Behavior Policy Sharing (ABPS)라는 알고리즘으로, 다른 하나는 Universal Value Function Approximators (UVFA)라는 프레임워크였다. ABPS는 AI 에이전트가 적응적으로 선택된 경험을 공유할 수 있도록 하며, UVFA는 AI가 동시에 지향된 탐색 정책을 조사할 수 있도록 한다.
ABPS는 모델을 훈련할 때 하이퍼파라미터를 맞추는 것을 가속화하도록 설계되었다. ABPS는 여러 다른 에이전트가 서로 다른 하이퍼파라미터를 공유할 수 있도록 하여 최적의 하이퍼파라미터를 더 빠르게 찾을 수 있다. 더 구체적으로 말하자면, ABPS는 강화 학습 에이전트가 정책이 허용한 행동 중에서 행동을 선택할 수 있도록 하며, 그 후에 보상과 관찰을 다음 상태에 따라 받는다.
AI 강화 에이전트는 다양한 하이퍼파라미터의 조합으로 훈련된다. 모델을 훈련할 때, 모델이 최상의 성능을 발휘하는 하이퍼파라미터의 조합으로 수렴하는 것이 목표이며, 이 경우에는 데이터 효율성을 개선하는 하이퍼파라미터도 포함된다. 효율성은 여러 에이전트를 동시에 훈련하고 다음 시간 단계에서 배포하는 에이전트의 행동만을 선택함으로써 증가한다. 대상 에이전트의 정책을 사용하여 행동을 샘플링한다. 전이는 공유 공간에 기록되며, 이 공간은 정책 선택이 너무 자주 발생하지 않도록 지속적으로 평가된다. 훈련이 끝나면 에이전트의 앙상블이 선택되고 최상위 성능을 발휘하는 에이전트가 최종 배포를 위해 선택된다.
UVFA의 경우, 강화 학습의 일반적인 문제 중 하나인 약한 강화 에이전트가 작업을 학습하지 않는 문제를 해결하려고 시도한다. UVFA는 에이전트가 동시에 탐색 정책과 이용 정책을 학습하도록 하여 이 문제를 해결하려고 시도한다. 작업을 분리하면 탐색 정책이 환경을 계속 탐색할 수 있는 프레임워크가 생성되며, 이용 정책은 현재 작업에 대한 보상을 최대화하려고 시도한다. UVFA의 탐색 정책은 기본 아키텍처로 작용하며, 자연스러운 보상이 발견되지 않더라도 계속 개선된다. 이러한 조건에서, 에이전트가 환경의 모든 상태를 탐색하도록 하는 내재적 보상을 근사하는 함수가 생성된다.
VentureBeat에 따르면, UVFA 프레임워크가 작동할 때, 시스템의 내재적 보상이 에이전트에 직접 입력으로 제공된다. 에이전트는 특정 에피소드 동안의 모든 입력(예: 보상, 행동, 상태)의 표현을 유지한다. 결과적으로 보상이 시간이 지남에 따라 보존되고 에이전트의 정책은 항상 어느 정도로 정보를 제공받는다.
이것은 “에피소드 новизна”와 “생애 новизна” 모듈을 사용하여 수행된다. 첫 번째 모듈의 기능은 현재 에피소드 메모리를 유지하고 현재 발견을 이전에 언급한 표현으로 매핑하여 에이전트가 훈련의 각 단계에서 내재적 에피소드 보상을 결정하도록 하는 것이다. 이후 현재 관찰과 연결된 상태가 메모리에 추가된다. 한편, 생애 новиз나 모듈은 여러 에피소드에 걸쳐 에이전트가 얼마나 자주 탐색하는지에 영향을 미치는 역할을 한다.
Alphabet/Google 팀에 따르면, 새로운 훈련 기술은 이미 강화 학습 시스템을 훈련하는 데 상당한 개선의 가능성을 보여주었다. UVFA는 다양한 Atari 게임을 chơi하는 일부 기본 에이전트의 성능을 두 배로 늘릴 수 있었다. 한편, ABPS는 일부 동일한 Atari 게임에서 성능을 개선할 수 있으며, 최상위 성능을 발휘하는 에이전트 간의 분산을 약 25% 감소시켰다. UVFA로 훈련된 알고리즘은 인간 데모의 엔지니어링된 기능이 없는 Pitfall에서 높은 점수를 달성할 수 있었다.












