인공지능
DeepMind, 보안 강화된 강화 학습 AI 훈련 방법 발표

강화 학습은 매우 복잡한 작업을 처리할 수 있는 AI를 생성하는 유망한 AI 개발 방향이다. 강화 학습 알고리즘은 모바일 로봇 시스템 및 자율 주행 자동차를 포함한 다양한 응용 분야에서 사용된다. 그러나 강화 학습이 훈련되는 방식으로 인해, 때때로 예상치 못한 이상한 행동을 나타낼 수 있다. 이러한 행동은 위험할 수 있으며, AI 연구자들은 이를 “안전한 탐색” 문제라고 부르며, 여기서 AI는 안전하지 않은 상태를 탐색하는 데 갇히게 된다.
최근 Google의 AI 연구소 DeepMind는 안전한 탐색 문제를 해결하고 강화 학습 AI를 더 안전하게 훈련하는 새로운 방법을 제안하는 논문을 발표했다. DeepMind의 새로운 방법은 또한 보상 해킹 또는 보상 기준의 루프홀을 수정한다.
DeepMind의 새로운 방법에는 안전하지 않은 행동이 발생할 수 있는 상황에서 AI의 행동을 안내하는 두 가지 시스템이 있다. DeepMind의 훈련 기술에서 사용되는 두 가지 모델은 생성 모델과 전진 동역학 모델이다. 이 두 모델은 안전 전문가의 시연과 완전히 임의의 차량 궤적을 포함한 다양한 데이터에 훈련된다. 데이터는 감독자가 특정 보상 값을 레이블로 지정하며, AI 에이전트는 가장 큰 보상을 수집할 수 있는 행동 패턴을 학습한다. 안전하지 않은 상태도 레이블로 지정되며, 모델이 성공적으로 보상과 안전하지 않은 상태를 예측한 후에 대상 행동을 수행하도록 배포된다.
연구 팀은 논문에서 아이디어는 처음부터 가능한 행동을 생성하여 원하는 행동을 제안하고, 이러한 가상 시나리오가 정보를 제공하는 동시에 학습 환경에 직접적인 간섭을 피하는 것이라고 설명한다. DeepMind 팀은 이 접근 방식을 ReQueST 또는 보상 질의 합성 및 궤적 최적화라고 부른다.
ReQueST는 네 가지 유형의 행동으로 이어질 수 있다. 첫 번째 유형의 행동은 앙상블 보상 모델에 대한 불확실성을 최대화하려고 시도한다. 두 번째와 세 번째 행동은 예측된 보상을 최소화하고 최대화하려고 시도한다. 예측된 보상은 모델이 잘못 예측하고 있는 행동을 발견하기 위해 최소화된다. 반면에, 예측된 보상은 가장 높은 정보 값을 갖는 행동 레이블을 생성하기 위해 최대화된다. 마지막으로, 네 번째 유형의 행동은 궤적의 새로운 것을 최대화하려고 시도하며, 모델이 계속해서 탐색하도록 한다.
모델이 원하는 수준의 보상 수집에 도달한 후, 계획 에이전트는 학습된 보상을 기반으로 결정한다. 이 모델 예측 제어 方案은 에이전트가 동적 모델을 사용하여 가능한 결과를 예측함으로써, 순수한 시도와 오류를 통해 학습하는 알고리즘의 행동과는 달리, 안전하지 않은 상태를 피하는 방법을 학습하도록 한다.
VentureBeat에 따르면, DeepMind 연구자들은 자신의 프로젝트가 제어되고 안전한 방식으로 학습할 수 있는 첫 번째 강화 학습 시스템이라고 믿는다.
“우리의 지식으로는, ReQueST는 안전하지 않은 상태에 대해 안전하게 학습하고 환경에서 고차원 연속 상태를 갖는 신경망 보상 모델을 훈련하는 첫 번째 보상 모델링 알고리즘이다. 지금까지 우리는 상대적으로 단순한 동역학을 갖는 시뮬레이션 도메인에서만 ReQueST의 효과를 입증했다. 미래의 연구 방향 중 하나는 3D 도메인에서 더 실제적인 물리학과 환경에서 행동하는 다른 에이전트를 테스트하는 것이다.”












