부본 강화 학습이란 무엇입니까? - Unite.AI
Rescale 미팅 예약

AI 101

강화 학습이란 무엇입니까?

mm
업데이트 on

강화 학습이란 무엇입니까?

간단히 말해서, 강화 학습은 행동의 반복과 관련 보상을 통해 인공 지능 에이전트를 훈련시키는 기계 학습 기술입니다. 강화 학습 에이전트는 환경에서 실험하여 조치를 취하고 올바른 조치가 취해지면 보상을 받습니다. 시간이 지나면 상담원이 보상을 극대화하는 행동을 취하는 법을 배웁니다. 이것은 강화 학습에 대한 빠른 정의이지만 강화 학습의 이면에 있는 개념을 자세히 살펴보면 강화 학습에 대해 더 잘 이해하고 직관적으로 이해하는 데 도움이 될 것입니다.

"강화 학습"이라는 용어는 심리학 강화. 그런 이유로 잠시 강화의 심리학적 개념을 이해해 봅시다. 심리학적 의미에서 강화라는 용어는 특정 반응/행동이 발생할 가능성을 높이는 것을 의미합니다. 이 강화 개념은 심리학자 BF Skinner가 처음 제안한 조작적 조건화 이론의 핵심 아이디어입니다. 이 맥락에서 강화는 주어진 행동의 빈도를 증가시키는 모든 것입니다. 인간에게 가능한 강화에 대해 생각해 보면 칭찬, 직장에서의 인상, 사탕, 재미있는 활동과 같은 것들이 될 수 있습니다.

전통적인 심리적 의미에서 강화에는 두 가지 유형이 있습니다. 긍정적 강화와 부정적 강화가 있다. 긍정적인 강화는 개가 잘 행동할 때 간식을 주는 것과 같이 행동을 증가시키기 위해 무언가를 추가하는 것입니다. 부정적인 강화는 행동을 유도하기 위해 자극을 제거하는 것과 관련이 있습니다. 예를 들어 고양이를 달래기 위해 큰 소리를 끄는 것과 같습니다.

포지티브 및 네거티브 강화

긍정적인 강화는 행동의 빈도를 증가시키는 반면 부정적인 강화는 빈도를 감소시킵니다. 일반적으로 긍정적인 강화는 모델이 주어진 작업에서 성능을 최대화하는 데 도움이 되므로 강화 학습에서 사용되는 가장 일반적인 유형의 강화입니다. 뿐만 아니라 긍정적인 강화는 모델이 보다 지속 가능한 변화, 즉 일관된 패턴이 되고 오랜 기간 동안 지속될 수 있는 변화를 일으키도록 이끕니다.

대조적으로, 부적 강화는 행동이 발생할 가능성을 높이는 반면 모델의 최대 성능에 도달하기보다는 최소 성능 표준을 유지하는 데 사용됩니다. 강화 학습의 네거티브 강화는 모델이 바람직하지 않은 동작을 방지하는 데 도움이 될 수 있지만 실제로 모델이 원하는 동작을 탐색하도록 만들 수는 없습니다.

강화 에이전트 훈련

강화학습 에이전트가 훈련되면, 네 가지 다른 재료가 있습니다 or 상태 교육에 사용되는 항목: 초기 상태(State 0), 새 상태(State 1), 작업 및 보상.

AI의 목표가 화면을 가로질러 이동하여 레벨 끝까지 도달하는 것인 플랫포밍 비디오 게임을 플레이하기 위해 보강 에이전트를 훈련시키고 있다고 상상해 보십시오. 게임의 초기 상태는 환경에서 가져옵니다. 즉, 게임의 첫 번째 프레임이 분석되고 모델에 제공됩니다. 이 정보를 기반으로 모델은 작업을 결정해야 합니다.

훈련의 초기 단계에서 이러한 행동은 무작위적이지만 모델이 강화됨에 따라 특정 행동이 더 일반적이 될 것입니다. 조치를 취한 후 게임 환경이 업데이트되고 새로운 상태 또는 프레임이 생성됩니다. 에이전트가 취한 행동이 바람직한 결과를 가져왔다면, 이 경우 에이전트가 아직 살아 있고 적의 공격을 받지 않았다면 에이전트에게 약간의 보상이 주어지고 같은 일을 할 가능성이 높아집니다. 미래.

이 기본 시스템은 반복적으로 반복되며 에이전트가 조금 더 배우고 보상을 최대화하려고 할 때마다 반복됩니다.

에피소드 대 연속 작업

강화 학습 작업은 일반적으로 두 가지 범주 중 하나에 배치될 수 있습니다. 일시적인 작업과 지속적인 작업.

에피소드 작업은 학습/훈련 루프를 수행하고 일부 최종 기준이 충족되고 훈련이 종료될 때까지 성능을 향상시킵니다. 게임에서 이것은 레벨의 끝에 도달하거나 스파이크와 같은 위험에 빠질 수 있습니다. 반대로 연속 작업에는 종료 기준이 없으므로 기본적으로 엔지니어가 교육을 종료하기로 선택할 때까지 계속 교육을 계속합니다.

몬테카를로 vs 시간차

강화 학습 에이전트를 학습 또는 교육하는 두 가지 기본 방법이 있습니다. ~ 안에 몬테카를로 접근법, 보상은 교육 에피소드가 끝날 때만 에이전트에게 전달됩니다(점수가 업데이트됨). 다시 말해 종료 조건에 도달한 경우에만 모델이 얼마나 잘 수행되었는지 학습합니다. 그런 다음 이 정보를 사용하여 업데이트할 수 있으며 다음 훈련 라운드가 시작되면 새로운 정보에 따라 응답합니다.

XNUMXD덴탈의 시차법 값 추정 또는 점수 추정이 교육 에피소드 과정 중에 업데이트된다는 점에서 Monte Carlo 방법과 다릅니다. 모델이 다음 시간 단계로 진행하면 값이 업데이트됩니다.

탐사 대 착취

강화 학습 에이전트를 교육하는 것은 탐색과 착취라는 두 가지 메트릭의 균형을 포함하는 균형 작업입니다.

Exploration은 주변 환경에 대해 더 많은 정보를 수집하는 행위이며, Exploration은 이미 알려진 환경 정보를 사용하여 보상 포인트를 획득하는 것입니다. 에이전트가 탐색만 하고 환경을 악용하지 않으면 원하는 작업이 수행되지 않습니다. 반면에 에이전트가 익스플로잇만 하고 탐색하지 않는 경우 에이전트는 한 가지 작업만 수행하는 방법을 배우고 보상을 획득할 수 있는 다른 가능한 전략을 발견하지 못합니다. 따라서 강화 학습 에이전트를 만들 때 탐색과 활용의 균형을 맞추는 것이 중요합니다.

강화 학습의 사용 사례

강화 학습은 다양한 역할에서 사용할 수 있으며 작업에 자동화가 필요한 애플리케이션에 가장 적합합니다.

산업용 로봇이 수행할 작업의 자동화는 강화 학습이 유용한 것으로 입증된 영역 중 하나입니다. 강화 학습은 텍스트 마이닝과 같은 문제에 사용되어 긴 텍스트 본문을 요약할 수 있는 모델을 생성할 수도 있습니다. 연구원들은 또한 치료 정책의 최적화와 같은 작업을 처리하는 강화 에이전트와 함께 의료 분야에서 강화 학습을 사용하는 실험을 하고 있습니다. 강화 학습은 또한 학생들을 위한 교육 자료를 맞춤화하는 데 사용될 수 있습니다.

강화 학습 요약

강화 학습은 인상적이고 때로는 놀라운 결과를 가져올 수 있는 AI 에이전트를 구성하는 강력한 방법입니다. 강화 학습을 통한 에이전트 교육은 많은 교육 반복과 탐색/이용 이분법의 섬세한 균형이 필요하기 때문에 복잡하고 어려울 수 있습니다. 그러나 성공하면 강화 학습으로 생성된 에이전트는 다양한 환경에서 복잡한 작업을 수행할 수 있습니다.

전문 분야의 블로거 및 프로그래머 기계 학습 깊은 학습 주제. 다니엘은 다른 사람들이 사회적 이익을 위해 AI의 힘을 사용하도록 돕기를 희망합니다.