인공 지능

DeepMind, 강화 학습 AI를 안전하게 훈련하는 새로운 방법 보고

업데이트 on 2022 년 12 월 9 일

강화 학습은 매우 복잡한 작업을 처리할 수 있는 AI를 생성하는 AI 개발의 유망한 방법입니다. 강화 AI 알고리즘은 다른 애플리케이션 중에서 모바일 로봇 시스템 및 자율 주행 자동차를 만드는 데 사용됩니다. 그러나 강화 AI가 훈련되는 방식으로 인해 때때로 기이하고 예상치 못한 동작을 나타낼 수 있습니다. 이러한 행동은 위험할 수 있으며, AI 연구원은 이 문제를 "안전한 탐색" 문제라고 부르는데, 이는 AI가 안전하지 않은 상태 탐색에 갇히게 되는 것입니다.

최근 구글의 AI 연구실 딥마인드는 안전한 탐색 문제를 다루는 새로운 방법과 보다 안전한 방식으로 강화 학습 AI를 훈련시키는 새로운 방법을 제안한 논문을 발표했다. DeepMind가 제안한 방법은 보상 해킹이나 보상 기준의 허점도 수정합니다.

DeepMind의 새로운 방법에는 안전하지 않은 행동이 발생할 수 있는 상황에서 AI의 행동을 안내하기 위한 두 가지 시스템이 있습니다. DeepMind의 훈련 기술에 사용되는 두 가지 시스템은 생성 모델과 순방향 역학 모델입니다. 이 두 모델은 모두 안전 전문가의 시연 및 완전히 무작위적인 차량 궤적과 같은 다양한 데이터에 대해 교육을 받습니다. 데이터는 감독자가 특정 보상 값으로 레이블을 지정하고 AI 에이전트는 가장 큰 보상을 받을 수 있는 행동 패턴을 선택합니다. 안전하지 않은 상태에도 레이블이 지정되어 있으며 모델이 보상 및 안전하지 않은 상태를 성공적으로 예측하면 대상 작업을 수행하기 위해 배포됩니다.

연구팀은 아이디어가 처음부터 가능한 행동을 만들고, 원하는 행동을 제안하고, 이러한 가상 시나리오가 학습 환경에 대한 직접적인 간섭을 피하면서 가능한 한 유익하도록 하는 것이라고 논문에서 설명합니다. DeepMind 팀은 이 접근 방식을 ReQueST 또는 궤적 최적화를 통한 보상 쿼리 합성이라고 합니다.

ReQueST는 네 가지 유형의 동작을 유도할 수 있습니다. 첫 번째 유형의 동작은 앙상블 보상 모델과 관련된 불확실성을 최대화하려고 시도합니다. 한편 행동 XNUMX와 XNUMX은 예측 보상을 최소화하고 최대화하려고 시도합니다. 모델이 잘못 예측할 수 있는 동작을 발견하기 위해 예측 보상이 최소화됩니다. 반면에 가장 높은 정보 가치를 가진 행동 레이블로 이어지기 위해 예측 보상이 최대화됩니다. 마지막으로, 네 번째 행동 유형은 예측된 보상에 관계없이 모델이 계속 탐색하도록 궤적의 참신함을 최대화하려고 시도합니다.

모델이 원하는 보상 수집 수준에 도달하면 계획 에이전트를 사용하여 학습된 보상을 기반으로 결정을 내립니다. 이 모델 예측 제어 체계를 통해 에이전트는 순수한 시행착오를 통해 학습하는 알고리즘의 동작과 달리 동적 모델을 사용하고 가능한 결과를 예측하여 안전하지 않은 상태를 피하는 방법을 배울 수 있습니다.

VentureBeat에서 보고한 바와 같이, DeepMind 연구원들은 그들의 프로젝트가 통제되고 안전한 방식으로 학습할 수 있는 최초의 강화 학습 시스템이라고 믿습니다.

“우리가 아는 한 ReQueST는 안전하지 않은 상태에 대해 안전하게 학습하고 고차원의 연속 상태가 있는 환경에서 신경망 보상 모델을 교육하도록 확장하는 최초의 보상 모델링 알고리즘입니다. 지금까지 우리는 상대적으로 단순한 동역학을 가진 시뮬레이션된 영역에서 ReQueST의 효과만을 입증했습니다. 향후 작업의 한 가지 방향은 보다 사실적인 물리학 및 환경에서 작동하는 다른 에이전트를 사용하여 3D 도메인에서 ReQueST를 테스트하는 것입니다.”