AI 101

심층 강화 학습이란 무엇입니까?

업데이트 on 2021 년 8 월 2 일

심층 강화 학습이란 무엇입니까?

비지도 기계 학습 및 지도 학습과 함께 AI 생성의 또 다른 일반적인 형태는 강화 학습입니다. 일반적인 강화학습을 넘어, 심층 강화 학습 딥 러닝과 강화 학습의 장점을 결합한 덕분에 놀랍도록 인상적인 결과를 얻을 수 있습니다. 심층 강화 학습이 어떻게 작동하는지 자세히 살펴보겠습니다.

심층 강화 학습에 뛰어들기 전에 얼마나 규칙적인지 재검토하는 것이 좋습니다. 강화 학습 공장. 강화 학습에서 목표 지향 알고리즘은 시행 착오 과정을 통해 설계되어 최상의 결과로 이어지는 행동/가장 "보상"을 얻는 행동을 최적화합니다. 강화 학습 알고리즘이 훈련되면 미래에 어떤 행동을 취할 것인지에 영향을 미치는 "보상" 또는 "처벌"이 주어집니다. 알고리즘은 즉각적인 보상과 미래 보상의 균형을 유지하면서 시스템에 가장 많은 보상을 제공할 일련의 작업을 찾으려고 합니다.

강화 학습 알고리즘은 거의 모든 작업에 적용할 수 있고 환경에서 유연하고 동적으로 학습하고 가능한 작업을 발견할 수 있기 때문에 매우 강력합니다.

심층 강화 학습 개요

사진: Megajuice via Wikimedia Commons, CC 1.0(https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

심층 강화 학습의 경우 환경은 일반적으로 이미지로 표현됩니다. 이미지는 특정 시점의 환경을 캡처한 것입니다. 에이전트는 이미지를 분석하고 관련 정보를 추출하여 어떤 조치를 취해야 하는지 알려주는 정보를 사용해야 합니다. 심층 강화 학습은 일반적으로 가치 기반 학습과 정책 기반 학습이라는 두 가지 기술 중 하나로 수행됩니다.

가치 기반 학습 기술은 컨볼루션 신경망과 같은 알고리즘과 아키텍처를 사용합니다. Deep-Q-네트웍스. 이러한 알고리즘은 이미지를 회색조로 변환하고 이미지의 불필요한 부분을 잘라내는 방식으로 작동합니다. 그런 다음 이미지는 다양한 컨볼루션 및 풀링 작업을 거쳐 이미지의 가장 관련 있는 부분을 추출합니다. 그런 다음 이미지의 중요한 부분을 사용하여 에이전트가 취할 수 있는 다양한 작업에 대한 Q 값을 계산합니다. Q 값은 상담원을 위한 최선의 조치를 결정하는 데 사용됩니다. 초기 Q-값이 계산된 후 가장 정확한 Q-값을 결정할 수 있도록 역전파가 수행됩니다.

정책 기반 방법은 에이전트가 취할 수 있는 가능한 조치의 수가 매우 많을 때 사용되며, 이는 일반적으로 실제 시나리오의 경우입니다. 이와 같은 상황에서는 모든 개별 작업에 대한 Q-값을 계산하는 것이 실용적이지 않기 때문에 다른 접근 방식이 필요합니다. 정책 기반 접근 방식은 개별 작업에 대한 함수 값을 계산하지 않고 작동합니다. 대신 그들은 종종 Policy Gradients라는 기술을 통해 정책을 직접 학습하여 정책을 채택합니다.

정책 기울기는 상태를 수신하고 에이전트의 이전 경험을 기반으로 작업에 대한 확률을 계산하여 작동합니다. 그런 다음 가장 가능성 있는 작업이 선택됩니다. 이 과정은 평가 기간이 끝날 때까지 반복되며 에이전트에게 보상이 지급됩니다. 보상이 에이전트와 처리된 후 네트워크의 매개변수는 역전파로 업데이트됩니다.

Q-Learning이란 무엇입니까?

때문에 Q- 학습 심층 강화 학습 프로세스의 큰 부분이므로 Q-러닝 시스템이 어떻게 작동하는지 실제로 이해하는 데 시간을 좀 가집시다.

마르코프 결정 과정

마르코프 결정 과정. 사진: Pixbay 라이선스(https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)를 통한 waldoalvarez

AI 에이전트가 일련의 작업을 수행하고 목표에 도달하기 위해서는 에이전트가 일련의 상태 및 이벤트를 처리할 수 있어야 합니다. 에이전트는 하나의 상태에서 시작하고 종료 상태에 도달하기 위해 일련의 조치를 취해야 하며 시작 상태와 종료 상태 사이에 엄청난 수의 상태가 존재할 수 있습니다. 모든 상태에 관한 정보를 저장하는 것은 비실용적이거나 불가능하므로 시스템은 가장 관련성이 높은 상태 정보만 보존하는 방법을 찾아야 합니다. 이는 다음을 사용하여 수행됩니다. 마르코프 결정 과정, 현재 상태와 이전 상태에 관한 정보만 보존합니다. 모든 상태는 에이전트가 이전 상태에서 현재 상태로 변경되는 방식을 추적하는 Markov 속성을 따릅니다.

심층 Q-러닝

모델이 학습 환경의 상태에 대한 정보에 액세스하면 Q-값을 계산할 수 있습니다. Q 값은 일련의 작업이 끝날 때 에이전트에게 제공되는 총 보상입니다.

Q-값은 일련의 보상으로 계산됩니다. 현재 상태에서 현재 작업에 따라 계산되는 즉각적인 보상이 있습니다. 후속 상태에 대한 Q-값도 그 이후 상태에 대한 Q-값과 함께 계산되며, 다른 상태에 대한 모든 Q-값이 계산될 때까지 계속됩니다. 에이전트의 행동에 대한 향후 보상의 가중치를 제어하는 데 사용되는 감마 매개변수도 있습니다. 정책은 일반적으로 Q-값을 무작위로 초기화하고 훈련 과정에서 모델이 최적의 Q-값으로 수렴하도록 하여 계산됩니다.

딥 Q-네트워크

관련된 근본적인 문제 중 하나 Q-러닝의 사용 강화 학습의 경우 데이터를 저장하는 데 필요한 메모리 양이 상태 수가 증가함에 따라 빠르게 확장된다는 것입니다. Deep Q Networks는 신경망 모델을 Q-값과 결합하여 에이전트가 경험을 통해 학습하고 취할 최선의 조치에 대해 합리적인 추측을 할 수 있도록 하여 이 문제를 해결합니다. 심층 Q-러닝을 통해 Q-값 함수는 신경망으로 추정됩니다. 신경망은 상태를 입력 데이터로 가져오고 네트워크는 에이전트가 취할 수 있는 모든 가능한 작업에 대한 Q 값을 출력합니다.

Deep Q-learning은 모든 과거 경험을 메모리에 저장하고 Q-network에 대한 최대 출력을 계산한 다음 손실 함수를 사용하여 현재 값과 이론적으로 가능한 최대 값 간의 차이를 계산하여 수행됩니다.

심층 강화 학습과 심층 학습

딥 강화 학습과 일반 딥 러닝의 한 가지 중요한 차이점은 전자의 경우 입력이 지속적으로 변경된다는 것입니다. 이는 기존 딥 러닝의 경우가 아닙니다. 학습 모델은 끊임없이 변화하는 입력과 출력을 어떻게 설명할 수 있습니까?

본질적으로 예측 값과 목표 값 사이의 차이를 설명하기 위해 하나 대신 두 개의 신경망을 사용할 수 있습니다. 한 네트워크는 대상 값을 추정하고 다른 네트워크는 예측을 담당합니다. 대상 네트워크의 매개변수는 선택한 수의 교육 반복을 통과한 후 모델이 학습함에 따라 업데이트됩니다. 그런 다음 각 네트워크의 출력을 함께 결합하여 차이를 결정합니다.

정책 기반 학습

정책 기반 학습 접근 방식은 Q-값 기반 접근 방식과 다르게 작동합니다. Q-가치 접근법은 상태와 행동에 대한 보상을 예측하는 가치 함수를 만드는 반면, 정책 기반 방법은 상태를 행동에 매핑하는 정책을 결정합니다. 즉, 행동을 선택하는 정책 기능은 가치 기능에 관계없이 직접 최적화됩니다.

정책 기울기

심층 강화 학습에 대한 정책은 확률론적 또는 결정론적 두 가지 범주 중 하나에 속합니다. 결정적 정책은 상태가 작업에 매핑되는 정책입니다. 즉, 정책에 상태에 대한 정보가 제공되면 작업이 반환됩니다. 한편, 확률적 정책은 개별적인 단일 작업 대신 작업에 대한 확률 분포를 반환합니다.

결정론적 정책은 취할 수 있는 조치의 결과에 대한 불확실성이 없을 때 사용됩니다. 즉, 환경 자체가 결정론적일 때입니다. 대조적으로, 확률적 정책 출력은 행동의 결과가 불확실한 환경에 적합합니다. 일반적으로 강화 학습 시나리오에는 어느 정도의 불확실성이 포함되므로 확률적 정책이 사용됩니다.

정책 그래디언트 접근 방식은 Q-러닝 접근 방식에 비해 몇 가지 장점과 몇 가지 단점이 있습니다. 장점 측면에서 정책 기반 방법은 최적의 매개변수에 더 빠르고 안정적으로 수렴됩니다. 최적의 매개변수가 결정될 때까지 정책 구배를 따를 수 있는 반면, 값 기반 방법에서는 추정 조치 값의 작은 변화가 조치 및 관련 매개변수의 큰 변화로 이어질 수 있습니다.

정책 기울기는 고차원 작업 공간에서도 더 잘 작동합니다. 수행할 수 있는 작업의 수가 매우 많은 경우 딥 Q-러닝은 모든 시간 단계에 대해 가능한 모든 작업에 점수를 할당해야 하기 때문에 비실용적이 됩니다. 이는 계산상 불가능할 수 있습니다. 그러나 정책 기반 방법을 사용하면 시간이 지남에 따라 매개변수가 조정되고 가능한 최상의 매개변수의 수는 모델이 수렴함에 따라 빠르게 줄어듭니다.

정책 기울기는 가치 기반 정책과 달리 확률적 정책을 구현할 수도 있습니다. 확률적 정책은 확률 분포를 생성하기 때문에 탐색/이용 절충을 구현할 필요가 없습니다.

단점 측면에서 정책 그래디언트의 주요 단점은 전체 최적 값 대신 좁은 지역 최적 값 집합에만 집중하여 최적의 매개 변수를 검색하는 동안 막힐 수 있다는 것입니다.

정책 점수 함수

모델의 성능 목표를 최적화하는 데 사용되는 정책 점수 함수를 최대화하기 위해 - 제이(θ). J(θ)는 우리 정책이 원하는 목표를 달성하는 데 얼마나 좋은지를 나타내는 척도이며, "의 값을 찾을 수 있습니다.θ” 그것은 우리에게 최고의 정책을 제공합니다. 먼저 예상 정책 보상을 계산해야 합니다. 우리는 정책 보상을 추정하여 최적화할 목표를 갖습니다. 정책 점수 함수는 예상 정책 보상을 계산하는 방법이며 에피소드 환경의 시작 값, 연속 환경의 평균 값 및 시간 단계당 평균 보상과 같이 일반적으로 사용되는 다양한 정책 점수 함수가 있습니다.

정책 기울기 상승

기울기 상승은 점수가 가장 높은 위치에 도달할 때까지 매개변수를 이동하는 것을 목표로 합니다. 사진: 퍼블릭 도메인(https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

원하는 정책 점수 함수를 사용하고 예상되는 정책 보상을 계산한 후 매개 변수에 대한 값을 찾을 수 있습니다.θ점수 기능을 극대화합니다. 점수 함수 J(θ), "라는 기술입니다.경사 상승" 사용. Gradient Ascent는 딥러닝의 Gradient Descent와 개념적으로 유사하지만, 감소 대신 가장 가파른 증가를 위해 최적화하고 있습니다. 이는 우리의 점수가 많은 딥러닝 문제처럼 "오류"가 아니기 때문입니다. 우리의 점수는 우리가 극대화하고 싶은 것입니다. 정책에 대한 기울기를 추정하기 위해 정책 기울기 정리(Policy Gradient Theorem)라는 표현이 사용됩니다.θ".

심층 강화 학습 요약

요약하면 심층 강화 학습은 강화 학습과 심층 신경망의 측면을 결합합니다. Deep Reinforcement Learning은 Deep Q-Learning과 Policy Gradients라는 두 가지 기술로 수행됩니다.

Deep Q-Learning 방법은 주어진 상태에서 취한 특정 행동에 따른 보상을 예측하는 것을 목표로 하는 반면 정책 그래디언트 접근 방식은 행동 공간을 최적화하여 행동 자체를 예측하는 것을 목표로 합니다. 심층 강화 학습에 대한 정책 기반 접근 방식은 본질적으로 결정적이거나 확률적입니다. 결정적 정책은 상태를 행동에 직접 매핑하는 반면 확률적 정책은 행동에 대한 확률 분포를 생성합니다.