Rescale λ―ΈνŒ… μ˜ˆμ•½

심측 κ°•ν™” ν•™μŠ΅μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

AI 101

심측 κ°•ν™” ν•™μŠ΅μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

mm

심측 κ°•ν™” ν•™μŠ΅μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

비지도 기계 ν•™μŠ΅ 및 지도 ν•™μŠ΅κ³Ό ν•¨κ»˜ AI μƒμ„±μ˜ 또 λ‹€λ₯Έ 일반적인 ν˜•νƒœλŠ” κ°•ν™” ν•™μŠ΅μž…λ‹ˆλ‹€. 일반적인 κ°•ν™”ν•™μŠ΅μ„ λ„˜μ–΄, 심측 κ°•ν™” ν•™μŠ΅ λ”₯ λŸ¬λ‹κ³Ό κ°•ν™” ν•™μŠ΅μ˜ μž₯점을 κ²°ν•©ν•œ 덕뢄에 λ†€λžλ„λ‘ 인상적인 κ²°κ³Όλ₯Ό 얻을 수 μžˆμŠ΅λ‹ˆλ‹€. 심측 κ°•ν™” ν•™μŠ΅μ΄ μ–΄λ–»κ²Œ μž‘λ™ν•˜λŠ”μ§€ μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

심측 κ°•ν™” ν•™μŠ΅μ— λ›°μ–΄λ“€κΈ° 전에 μ–Όλ§ˆλ‚˜ κ·œμΉ™μ μΈμ§€ μž¬κ²€ν† ν•˜λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€. κ°•ν™” ν•™μŠ΅ 곡μž₯. κ°•ν™” ν•™μŠ΅μ—μ„œ λͺ©ν‘œ μ§€ν–₯ μ•Œκ³ λ¦¬μ¦˜μ€ μ‹œν–‰ 착였 과정을 톡해 μ„€κ³„λ˜μ–΄ μ΅œμƒμ˜ 결과둜 μ΄μ–΄μ§€λŠ” 행동/κ°€μž₯ "보상"을 μ–»λŠ” 행동을 μ΅œμ ν™”ν•©λ‹ˆλ‹€. κ°•ν™” ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ΄ ν›ˆλ ¨λ˜λ©΄ λ―Έλž˜μ— μ–΄λ–€ 행동을 μ·¨ν•  것인지에 영ν–₯을 λ―ΈμΉ˜λŠ” "보상" λ˜λŠ” "처벌"이 μ£Όμ–΄μ§‘λ‹ˆλ‹€. μ•Œκ³ λ¦¬μ¦˜μ€ 즉각적인 보상과 미래 λ³΄μƒμ˜ κ· ν˜•μ„ μœ μ§€ν•˜λ©΄μ„œ μ‹œμŠ€ν…œμ— κ°€μž₯ λ§Žμ€ 보상을 μ œκ³΅ν•  일련의 μž‘μ—…μ„ 찾으렀고 ν•©λ‹ˆλ‹€.

κ°•ν™” ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ€ 거의 λͺ¨λ“  μž‘μ—…μ— μ μš©ν•  수 있고 ν™˜κ²½μ—μ„œ μœ μ—°ν•˜κ³  λ™μ μœΌλ‘œ ν•™μŠ΅ν•˜κ³  κ°€λŠ₯ν•œ μž‘μ—…μ„ λ°œκ²¬ν•  수 있기 λ•Œλ¬Έμ— 맀우 κ°•λ ₯ν•©λ‹ˆλ‹€.

심측 κ°•ν™” ν•™μŠ΅ κ°œμš”

사진: Megajuice via Wikimedia Commons, CC 1.0(https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

심측 κ°•ν™” ν•™μŠ΅μ˜ 경우 ν™˜κ²½μ€ 일반적으둜 μ΄λ―Έμ§€λ‘œ ν‘œν˜„λ©λ‹ˆλ‹€. μ΄λ―Έμ§€λŠ” νŠΉμ • μ‹œμ μ˜ ν™˜κ²½μ„ μΊ‘μ²˜ν•œ κ²ƒμž…λ‹ˆλ‹€. μ—μ΄μ „νŠΈλŠ” 이미지λ₯Ό λΆ„μ„ν•˜κ³  κ΄€λ ¨ 정보λ₯Ό μΆ”μΆœν•˜μ—¬ μ–΄λ–€ 쑰치λ₯Ό μ·¨ν•΄μ•Ό ν•˜λŠ”μ§€ μ•Œλ €μ£ΌλŠ” 정보λ₯Ό μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆλ‹€. 심측 κ°•ν™” ν•™μŠ΅μ€ 일반적으둜 κ°€μΉ˜ 기반 ν•™μŠ΅κ³Ό μ •μ±… 기반 ν•™μŠ΅μ΄λΌλŠ” 두 κ°€μ§€ 기술 쀑 ν•˜λ‚˜λ‘œ μˆ˜ν–‰λ©λ‹ˆλ‹€.

κ°€μΉ˜ 기반 ν•™μŠ΅ κΈ°μˆ μ€ ν•©μ„±κ³± 신경망 및 Deep-Q-Networks와 같은 μ•Œκ³ λ¦¬μ¦˜κ³Ό μ•„ν‚€ν…μ²˜λ₯Ό ν™œμš©ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ•Œκ³ λ¦¬μ¦˜μ€ 이미지λ₯Ό νšŒμƒ‰μ‘°λ‘œ λ³€ν™˜ν•˜κ³  μ΄λ―Έμ§€μ˜ λΆˆν•„μš”ν•œ 뢀뢄을 μž˜λΌλ‚΄μ–΄ μž‘λ™ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ μ΄λ―Έμ§€λŠ” λ‹€μ–‘ν•œ ν•©μ„±κ³± 및 풀링 μž‘μ—…μ„ 거쳐 μ΄λ―Έμ§€μ˜ κ°€μž₯ κ΄€λ ¨μ„± μžˆλŠ” 뢀뢄을 μΆ”μΆœν•©λ‹ˆλ‹€. 그런 λ‹€μŒ μ΄λ―Έμ§€μ˜ μ€‘μš”ν•œ 뢀뢄을 μ‚¬μš©ν•˜μ—¬ μ—μ΄μ „νŠΈκ°€ μ·¨ν•  수 μžˆλŠ” λ‹€μ–‘ν•œ λ™μž‘μ— λŒ€ν•œ Q 값을 κ³„μ‚°ν•©λ‹ˆλ‹€. Q 값은 μ—μ΄μ „νŠΈμ— λŒ€ν•œ μ΅œμƒμ˜ 행동 λ°©ν–₯을 κ²°μ •ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. 초기 Q 값이 κ³„μ‚°λœ ν›„ κ°€μž₯ μ •ν™•ν•œ Q 값을 κ²°μ •ν•  수 μžˆλ„λ‘ μ—­μ „νŒŒκ°€ μˆ˜ν–‰λ©λ‹ˆλ‹€.

μ •μ±… 기반 방법은 μ—μ΄μ „νŠΈκ°€ μ·¨ν•  수 μžˆλŠ” κ°€λŠ₯ν•œ 쑰치의 μˆ˜κ°€ 맀우 λ§Žμ„ λ•Œ μ‚¬μš©λ˜λ©°, μ΄λŠ” 일반적으둜 μ‹€μ œ μ‹œλ‚˜λ¦¬μ˜€μ˜ κ²½μš°μž…λ‹ˆλ‹€. 이와 같은 μƒν™©μ—μ„œλŠ” λͺ¨λ“  κ°œλ³„ μž‘μ—…μ— λŒ€ν•œ Q-값을 κ³„μ‚°ν•˜λŠ” 것이 μ‹€μš©μ μ΄μ§€ μ•ŠκΈ° λ•Œλ¬Έμ— λ‹€λ₯Έ μ ‘κ·Ό 방식이 ν•„μš”ν•©λ‹ˆλ‹€. μ •μ±… 기반 μ ‘κ·Ό 방식은 κ°œλ³„ μž‘μ—…μ— λŒ€ν•œ ν•¨μˆ˜ 값을 κ³„μ‚°ν•˜μ§€ μ•Šκ³  μž‘λ™ν•©λ‹ˆλ‹€. λŒ€μ‹  그듀은 μ’…μ’… Policy GradientsλΌλŠ” κΈ°μˆ μ„ 톡해 정책을 직접 ν•™μŠ΅ν•˜μ—¬ 정책을 μ±„νƒν•©λ‹ˆλ‹€.

μ •μ±… κΈ°μšΈκΈ°λŠ” μƒνƒœλ₯Ό μˆ˜μ‹ ν•˜κ³  μ—μ΄μ „νŠΈμ˜ 이전 κ²½ν—˜μ„ 기반으둜 μž‘μ—…μ— λŒ€ν•œ ν™•λ₯ μ„ κ³„μ‚°ν•˜μ—¬ μž‘λ™ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ κ°€μž₯ κ°€λŠ₯μ„± μžˆλŠ” μž‘μ—…μ΄ μ„ νƒλ©λ‹ˆλ‹€. 이 과정은 평가 기간이 끝날 λ•ŒκΉŒμ§€ 반볡되며 μ—μ΄μ „νŠΈμ—κ²Œ 보상이 μ§€κΈ‰λ©λ‹ˆλ‹€. 보상이 μ—μ΄μ „νŠΈμ™€ 처리된 ν›„ λ„€νŠΈμ›Œν¬μ˜ λ§€κ°œλ³€μˆ˜λŠ” μ—­μ „νŒŒλ‘œ μ—…λ°μ΄νŠΈλ©λ‹ˆλ‹€.

Q-Learningμ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

λ•Œλ¬Έμ— Q- ν•™μŠ΅ 심측 κ°•ν™” ν•™μŠ΅ ν”„λ‘œμ„ΈμŠ€μ˜ 큰 λΆ€λΆ„μ΄λ―€λ‘œ Q-λŸ¬λ‹ μ‹œμŠ€ν…œμ΄ μ–΄λ–»κ²Œ μž‘λ™ν•˜λŠ”μ§€ μ‹€μ œλ‘œ μ΄ν•΄ν•˜λŠ” 데 μ‹œκ°„μ„ μ’€ κ°€μ§‘μ‹œλ‹€.

마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ •

마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ •. 사진: Pixbay λΌμ΄μ„ μŠ€(https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)λ₯Ό ν†΅ν•œ waldoalvarez

AI μ—μ΄μ „νŠΈκ°€ 일련의 μž‘μ—…μ„ μˆ˜ν–‰ν•˜κ³  λͺ©ν‘œμ— λ„λ‹¬ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ—μ΄μ „νŠΈκ°€ 일련의 μƒνƒœ 및 이벀트λ₯Ό μ²˜λ¦¬ν•  수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€. μ—μ΄μ „νŠΈλŠ” ν•˜λ‚˜μ˜ μƒνƒœμ—μ„œ μ‹œμž‘ν•˜κ³  μ’…λ£Œ μƒνƒœμ— λ„λ‹¬ν•˜κΈ° μœ„ν•΄ 일련의 쑰치λ₯Ό μ·¨ν•΄μ•Ό ν•˜λ©° μ‹œμž‘ μƒνƒœμ™€ μ’…λ£Œ μƒνƒœ 사이에 μ—„μ²­λ‚œ 수의 μƒνƒœκ°€ μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λͺ¨λ“  μƒνƒœμ— κ΄€ν•œ 정보λ₯Ό μ €μž₯ν•˜λŠ” 것은 λΉ„μ‹€μš©μ μ΄κ±°λ‚˜ λΆˆκ°€λŠ₯ν•˜λ―€λ‘œ μ‹œμŠ€ν…œμ€ κ°€μž₯ 관련성이 높은 μƒνƒœ μ •λ³΄λ§Œ λ³΄μ‘΄ν•˜λŠ” 방법을 μ°Ύμ•„μ•Ό ν•©λ‹ˆλ‹€. μ΄λŠ” λ‹€μŒμ„ μ‚¬μš©ν•˜μ—¬ μˆ˜ν–‰λ©λ‹ˆλ‹€. 마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ •, ν˜„μž¬ μƒνƒœμ™€ 이전 μƒνƒœμ— κ΄€ν•œ μ •λ³΄λ§Œ λ³΄μ‘΄ν•©λ‹ˆλ‹€. λͺ¨λ“  μƒνƒœλŠ” μ—μ΄μ „νŠΈκ°€ 이전 μƒνƒœμ—μ„œ ν˜„μž¬ μƒνƒœλ‘œ λ³€κ²½λ˜λŠ” 방식을 μΆ”μ ν•˜λŠ” Markov 속성을 λ”°λ¦…λ‹ˆλ‹€.

심측 Q-λŸ¬λ‹

λͺ¨λΈμ΄ ν•™μŠ΅ ν™˜κ²½μ˜ μƒνƒœμ— λŒ€ν•œ 정보에 μ•‘μ„ΈμŠ€ν•˜λ©΄ Q-값을 계산할 수 μžˆμŠ΅λ‹ˆλ‹€. Q 값은 일련의 μž‘μ—…μ΄ 끝날 λ•Œ μ—μ΄μ „νŠΈμ—κ²Œ μ œκ³΅λ˜λŠ” 총 λ³΄μƒμž…λ‹ˆλ‹€.

Q-값은 일련의 λ³΄μƒμœΌλ‘œ κ³„μ‚°λ©λ‹ˆλ‹€. ν˜„μž¬ μƒνƒœμ—μ„œ ν˜„μž¬ μž‘μ—…μ— 따라 κ³„μ‚°λ˜λŠ” 즉각적인 보상이 μžˆμŠ΅λ‹ˆλ‹€. 후속 μƒνƒœμ— λŒ€ν•œ Q-값도 κ·Έ 이후 μƒνƒœμ— λŒ€ν•œ Q-κ°’κ³Ό ν•¨κ»˜ κ³„μ‚°λ˜λ©°, λ‹€λ₯Έ μƒνƒœμ— λŒ€ν•œ λͺ¨λ“  Q-값이 계산될 λ•ŒκΉŒμ§€ κ³„μ†λ©λ‹ˆλ‹€. μ—μ΄μ „νŠΈμ˜ 행동에 λŒ€ν•œ ν–₯ν›„ λ³΄μƒμ˜ κ°€μ€‘μΉ˜λ₯Ό μ œμ–΄ν•˜λŠ” ​​데 μ‚¬μš©λ˜λŠ” 감마 λ§€κ°œλ³€μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. 정책은 일반적으둜 Q-값을 λ¬΄μž‘μœ„λ‘œ μ΄ˆκΈ°ν™”ν•˜κ³  ν›ˆλ ¨ κ³Όμ •μ—μ„œ λͺ¨λΈμ΄ 졜적의 Q-κ°’μœΌλ‘œ μˆ˜λ ΄ν•˜λ„λ‘ ν•˜μ—¬ κ³„μ‚°λ©λ‹ˆλ‹€.

λ”₯ Q-λ„€νŠΈμ›Œν¬

κ΄€λ ¨λœ 근본적인 문제 쀑 ν•˜λ‚˜ Q-λŸ¬λ‹μ˜ μ‚¬μš© κ°•ν™” ν•™μŠ΅μ˜ 경우 데이터λ₯Ό μ €μž₯ν•˜λŠ” 데 ν•„μš”ν•œ λ©”λͺ¨λ¦¬ 양이 μƒνƒœ μˆ˜κ°€ 증가함에 따라 λΉ λ₯΄κ²Œ ν™•μž₯λœλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. Deep Q NetworksλŠ” 신경망 λͺ¨λΈμ„ Q-κ°’κ³Ό κ²°ν•©ν•˜μ—¬ μ—μ΄μ „νŠΈκ°€ κ²½ν—˜μ„ 톡해 ν•™μŠ΅ν•˜κ³  μ·¨ν•  μ΅œμ„ μ˜ μ‘°μΉ˜μ— λŒ€ν•΄ 합리적인 좔츑을 ν•  수 μžˆλ„λ‘ ν•˜μ—¬ 이 문제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. 심측 Q-λŸ¬λ‹μ„ 톡해 Q-κ°’ ν•¨μˆ˜λŠ” μ‹ κ²½λ§μœΌλ‘œ μΆ”μ •λ©λ‹ˆλ‹€. 신경망은 μƒνƒœλ₯Ό μž…λ ₯ λ°μ΄ν„°λ‘œ κ°€μ Έμ˜€κ³  λ„€νŠΈμ›Œν¬λŠ” μ—μ΄μ „νŠΈκ°€ μ·¨ν•  수 μžˆλŠ” λͺ¨λ“  κ°€λŠ₯ν•œ μž‘μ—…μ— λŒ€ν•œ Q 값을 좜λ ₯ν•©λ‹ˆλ‹€.

Deep Q-learning은 λͺ¨λ“  κ³Όκ±° κ²½ν—˜μ„ λ©”λͺ¨λ¦¬μ— μ €μž₯ν•˜κ³  Q-network에 λŒ€ν•œ μ΅œλŒ€ 좜λ ₯을 κ³„μ‚°ν•œ λ‹€μŒ 손싀 ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ ν˜„μž¬ κ°’κ³Ό 이둠적으둜 κ°€λŠ₯ν•œ μ΅œλŒ€ κ°’ κ°„μ˜ 차이λ₯Ό κ³„μ‚°ν•˜μ—¬ μˆ˜ν–‰λ©λ‹ˆλ‹€.

심측 κ°•ν™” ν•™μŠ΅κ³Ό 심측 ν•™μŠ΅

λ”₯ κ°•ν™” ν•™μŠ΅κ³Ό 일반 λ”₯ λŸ¬λ‹μ˜ ν•œ κ°€μ§€ μ€‘μš”ν•œ 차이점은 μ „μžμ˜ 경우 μž…λ ₯이 μ§€μ†μ μœΌλ‘œ λ³€κ²½λœλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŠ” κΈ°μ‘΄ λ”₯ λŸ¬λ‹μ˜ κ²½μš°κ°€ μ•„λ‹™λ‹ˆλ‹€. ν•™μŠ΅ λͺ¨λΈμ€ λŠμž„μ—†μ΄ λ³€ν™”ν•˜λŠ” μž…λ ₯κ³Ό 좜λ ₯을 μ–΄λ–»κ²Œ μ„€λͺ…ν•  수 μžˆμŠ΅λ‹ˆκΉŒ?

본질적으둜 예츑 κ°’κ³Ό λͺ©ν‘œ κ°’ μ‚¬μ΄μ˜ 차이λ₯Ό μ„€λͺ…ν•˜κΈ° μœ„ν•΄ ν•˜λ‚˜ λŒ€μ‹  두 개의 신경망을 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ν•œ λ„€νŠΈμ›Œν¬λŠ” λŒ€μƒ 값을 μΆ”μ •ν•˜κ³  λ‹€λ₯Έ λ„€νŠΈμ›Œν¬λŠ” μ˜ˆμΈ‘μ„ λ‹΄λ‹Ήν•©λ‹ˆλ‹€. λŒ€μƒ λ„€νŠΈμ›Œν¬μ˜ λ§€κ°œλ³€μˆ˜λŠ” μ„ νƒν•œ 수의 ꡐ윑 λ°˜λ³΅μ„ ν†΅κ³Όν•œ ν›„ λͺ¨λΈμ΄ ν•™μŠ΅ν•¨μ— 따라 μ—…λ°μ΄νŠΈλ©λ‹ˆλ‹€. 그런 λ‹€μŒ 각 λ„€νŠΈμ›Œν¬μ˜ 좜λ ₯을 ν•¨κ»˜ κ²°ν•©ν•˜μ—¬ 차이λ₯Ό κ²°μ •ν•©λ‹ˆλ‹€.

μ •μ±… 기반 ν•™μŠ΅

μ •μ±… 기반 ν•™μŠ΅ μ ‘κ·Ό 방식은 Q-κ°’ 기반 μ ‘κ·Ό 방식과 λ‹€λ₯΄κ²Œ μž‘λ™ν•©λ‹ˆλ‹€. Q-κ°€μΉ˜ 접근법은 μƒνƒœμ™€ 행동에 λŒ€ν•œ 보상을 μ˜ˆμΈ‘ν•˜λŠ” κ°€μΉ˜ ν•¨μˆ˜λ₯Ό λ§Œλ“œλŠ” 반면, μ •μ±… 기반 방법은 μƒνƒœλ₯Ό 행동에 λ§€ν•‘ν•˜λŠ” 정책을 κ²°μ •ν•©λ‹ˆλ‹€. 즉, 행동을 μ„ νƒν•˜λŠ” μ •μ±… κΈ°λŠ₯은 κ°€μΉ˜ κΈ°λŠ₯에 관계없이 직접 μ΅œμ ν™”λ©λ‹ˆλ‹€.

μ •μ±… 기울기

심측 κ°•ν™” ν•™μŠ΅μ— λŒ€ν•œ 정책은 ν™•λ₯ λ‘ μ  λ˜λŠ” 결정둠적 두 κ°€μ§€ λ²”μ£Ό 쀑 ν•˜λ‚˜μ— μ†ν•©λ‹ˆλ‹€. 결정적 정책은 μƒνƒœκ°€ μž‘μ—…μ— λ§€ν•‘λ˜λŠ” μ •μ±…μž…λ‹ˆλ‹€. 즉, 정책에 μƒνƒœμ— λŒ€ν•œ 정보가 제곡되면 μž‘μ—…μ΄ λ°˜ν™˜λ©λ‹ˆλ‹€. ν•œνŽΈ, ν™•λ₯ μ  정책은 κ°œλ³„μ μΈ 단일 μž‘μ—… λŒ€μ‹  μž‘μ—…μ— λŒ€ν•œ ν™•λ₯  뢄포λ₯Ό λ°˜ν™˜ν•©λ‹ˆλ‹€.

결정둠적 정책은 μ·¨ν•  수 μžˆλŠ” 쑰치의 결과에 λŒ€ν•œ λΆˆν™•μ‹€μ„±μ΄ 없을 λ•Œ μ‚¬μš©λ©λ‹ˆλ‹€. 즉, ν™˜κ²½ μžμ²΄κ°€ 결정둠적일 λ•Œμž…λ‹ˆλ‹€. λŒ€μ‘°μ μœΌλ‘œ, ν™•λ₯ μ  μ •μ±… 좜λ ₯은 ν–‰λ™μ˜ κ²°κ³Όκ°€ λΆˆν™•μ‹€ν•œ ν™˜κ²½μ— μ ν•©ν•©λ‹ˆλ‹€. 일반적으둜 κ°•ν™” ν•™μŠ΅ μ‹œλ‚˜λ¦¬μ˜€μ—λŠ” μ–΄λŠ μ •λ„μ˜ λΆˆν™•μ‹€μ„±μ΄ ν¬ν•¨λ˜λ―€λ‘œ ν™•λ₯ μ  정책이 μ‚¬μš©λ©λ‹ˆλ‹€.

μ •μ±… κ·Έλž˜λ””μ–ΈνŠΈ μ ‘κ·Ό 방식은 Q-λŸ¬λ‹ μ ‘κ·Ό 방식에 λΉ„ν•΄ λͺ‡ κ°€μ§€ μž₯점과 λͺ‡ κ°€μ§€ 단점이 μžˆμŠ΅λ‹ˆλ‹€. μž₯점 μΈ‘λ©΄μ—μ„œ μ •μ±… 기반 방법은 졜적의 λ§€κ°œλ³€μˆ˜μ— 더 λΉ λ₯΄κ³  μ•ˆμ •μ μœΌλ‘œ μˆ˜λ ΄λ©λ‹ˆλ‹€. 졜적의 λ§€κ°œλ³€μˆ˜κ°€ 결정될 λ•ŒκΉŒμ§€ μ •μ±… ꡬ배λ₯Ό λ”°λ₯Ό 수 μžˆλŠ” 반면, κ°’ 기반 λ°©λ²•μ—μ„œλŠ” μΆ”μ • 쑰치 κ°’μ˜ μž‘μ€ λ³€ν™”κ°€ 쑰치 및 κ΄€λ ¨ λ§€κ°œλ³€μˆ˜μ˜ 큰 λ³€ν™”λ‘œ μ΄μ–΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.

μ •μ±… κΈ°μšΈκΈ°λŠ” 고차원 μž‘μ—… κ³΅κ°„μ—μ„œλ„ 더 잘 μž‘λ™ν•©λ‹ˆλ‹€. μˆ˜ν–‰ν•  수 μžˆλŠ” μž‘μ—…μ˜ μˆ˜κ°€ 맀우 λ§Žμ€ 경우 λ”₯ Q-λŸ¬λ‹μ€ λͺ¨λ“  μ‹œκ°„ 단계에 λŒ€ν•΄ κ°€λŠ₯ν•œ λͺ¨λ“  μž‘μ—…μ— 점수λ₯Ό ν• λ‹Ήν•΄μ•Ό ν•˜κΈ° λ•Œλ¬Έμ— λΉ„μ‹€μš©μ μ΄ λ©λ‹ˆλ‹€. μ΄λŠ” 계산상 λΆˆκ°€λŠ₯ν•  수 μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ •μ±… 기반 방법을 μ‚¬μš©ν•˜λ©΄ μ‹œκ°„μ΄ 지남에 따라 λ§€κ°œλ³€μˆ˜κ°€ μ‘°μ •λ˜κ³  κ°€λŠ₯ν•œ μ΅œμƒμ˜ λ§€κ°œλ³€μˆ˜μ˜ μˆ˜λŠ” λͺ¨λΈμ΄ μˆ˜λ ΄ν•¨μ— 따라 λΉ λ₯΄κ²Œ μ€„μ–΄λ“­λ‹ˆλ‹€.

μ •μ±… κΈ°μšΈκΈ°λŠ” κ°€μΉ˜ 기반 μ •μ±…κ³Ό 달리 ν™•λ₯ μ  정책을 κ΅¬ν˜„ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. ν™•λ₯ μ  정책은 ν™•λ₯  뢄포λ₯Ό μƒμ„±ν•˜κΈ° λ•Œλ¬Έμ— 탐색/이용 μ ˆμΆ©μ„ κ΅¬ν˜„ν•  ν•„μš”κ°€ μ—†μŠ΅λ‹ˆλ‹€.

단점 μΈ‘λ©΄μ—μ„œ μ •μ±… κ·Έλž˜λ””μ–ΈνŠΈμ˜ μ£Όμš” 단점은 전체 졜적 κ°’ λŒ€μ‹  쒁은 μ§€μ—­ 졜적 κ°’ μ§‘ν•©μ—λ§Œ μ§‘μ€‘ν•˜μ—¬ 졜적의 맀개 λ³€μˆ˜λ₯Ό κ²€μƒ‰ν•˜λŠ” λ™μ•ˆ λ§‰νž 수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

μ •μ±… 점수 ν•¨μˆ˜

λͺ¨λΈμ˜ μ„±λŠ₯ λͺ©ν‘œλ₯Ό μ΅œμ ν™”ν•˜λŠ” 데 μ‚¬μš©λ˜λŠ” μ •μ±… 점수 ν•¨μˆ˜λ₯Ό μ΅œλŒ€ν™”ν•˜κΈ° μœ„ν•΄ - 제이(ΞΈ). J(ΞΈ)λŠ” 우리 정책이 μ›ν•˜λŠ” λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜λŠ” 데 μ–Όλ§ˆλ‚˜ 쒋은지λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 척도이며, "의 값을 찾을 수 μžˆμŠ΅λ‹ˆλ‹€.θ” 그것은 μš°λ¦¬μ—κ²Œ 졜고의 정책을 μ œκ³΅ν•©λ‹ˆλ‹€. λ¨Όμ € μ˜ˆμƒ μ •μ±… 보상을 계산해야 ν•©λ‹ˆλ‹€. μš°λ¦¬λŠ” μ •μ±… 보상을 μΆ”μ •ν•˜μ—¬ μ΅œμ ν™”ν•  λͺ©ν‘œλ₯Ό κ°–μŠ΅λ‹ˆλ‹€. μ •μ±… 점수 ν•¨μˆ˜λŠ” μ˜ˆμƒ μ •μ±… 보상을 κ³„μ‚°ν•˜λŠ” 방법이며 μ—ν”Όμ†Œλ“œ ν™˜κ²½μ˜ μ‹œμž‘ κ°’, 연속 ν™˜κ²½μ˜ 평균 κ°’ 및 μ‹œκ°„ 단계당 평균 보상과 같이 일반적으둜 μ‚¬μš©λ˜λŠ” λ‹€μ–‘ν•œ μ •μ±… 점수 ν•¨μˆ˜κ°€ μžˆμŠ΅λ‹ˆλ‹€.

μ •μ±… 기울기 μƒμŠΉ

기울기 μƒμŠΉμ€ μ μˆ˜κ°€ κ°€μž₯ 높은 μœ„μΉ˜μ— 도달할 λ•ŒκΉŒμ§€ λ§€κ°œλ³€μˆ˜λ₯Ό μ΄λ™ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. 사진: 퍼블릭 도메인(https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

μ›ν•˜λŠ” μ •μ±… 점수 ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•˜κ³  μ˜ˆμƒλ˜λŠ” μ •μ±… 보상을 κ³„μ‚°ν•œ ν›„ 맀개 λ³€μˆ˜μ— λŒ€ν•œ 값을 찾을 수 μžˆμŠ΅λ‹ˆλ‹€.θ점수 κΈ°λŠ₯을 κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€. 점수 ν•¨μˆ˜ J(ΞΈ), "경사 μƒμŠΉ"μ΄λΌλŠ” 기법이 μ‚¬μš©λ©λ‹ˆλ‹€. 경사 μƒμŠΉμ€ 심측 ν•™μŠ΅μ˜ 경사 ν•˜κ°•κ³Ό κ°œλ…μ μœΌλ‘œ λΉ„μŠ·ν•˜μ§€λ§Œ, κ°μ†Œ λŒ€μ‹  κ°€μž₯ κ°€νŒŒλ₯Έ 증가λ₯Ό μ΅œμ ν™”ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ§Žμ€ 심측 ν•™μŠ΅ λ¬Έμ œμ—μ„œμ²˜λŸΌ 우리의 μ μˆ˜κ°€ "였λ₯˜"κ°€ μ•„λ‹ˆκΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 우리의 μ μˆ˜λŠ” μš°λ¦¬κ°€ μ΅œλŒ€ν™”ν•˜κ³ μž ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. μ •μ±… 경사 μ •λ¦¬λΌλŠ” ν‘œν˜„μ‹μ„ μ‚¬μš©ν•˜μ—¬ μ •μ±… "ΞΈ".

심측 κ°•ν™” ν•™μŠ΅ μš”μ•½

μš”μ•½ν•˜λ©΄ 심측 κ°•ν™” ν•™μŠ΅μ€ κ°•ν™” ν•™μŠ΅κ³Ό 심측 μ‹ κ²½λ§μ˜ 츑면을 κ²°ν•©ν•©λ‹ˆλ‹€. Deep Reinforcement Learning은 Deep Q-Learningκ³Ό Policy GradientsλΌλŠ” 두 κ°€μ§€ 기술둜 μˆ˜ν–‰λ©λ‹ˆλ‹€.

Deep Q-Learning 방법은 μ£Όμ–΄μ§„ μƒνƒœμ—μ„œ μ·¨ν•œ νŠΉμ • 행동에 λ”°λ₯Έ 보상을 μ˜ˆμΈ‘ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λŠ” 반면 μ •μ±… κ·Έλž˜λ””μ–ΈνŠΈ μ ‘κ·Ό 방식은 행동 곡간을 μ΅œμ ν™”ν•˜μ—¬ 행동 자체λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. 심측 κ°•ν™” ν•™μŠ΅μ— λŒ€ν•œ μ •μ±… 기반 μ ‘κ·Ό 방식은 본질적으둜 κ²°μ •μ μ΄κ±°λ‚˜ ν™•λ₯ μ μž…λ‹ˆλ‹€. 결정적 정책은 μƒνƒœλ₯Ό 행동에 직접 λ§€ν•‘ν•˜λŠ” 반면 ν™•λ₯ μ  정책은 행동에 λŒ€ν•œ ν™•λ₯  뢄포λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.

μ „λ¬Έ λΆ„μ•Όμ˜ λΈ”λ‘œκ±° 및 ν”„λ‘œκ·Έλž˜λ¨Έ λ¨Έμ‹  λŸ¬λ‹ 및 λ”₯λŸ¬λ‹ 주제. λ‹€λ‹ˆμ—˜μ€ λ‹€λ₯Έ μ‚¬λžŒλ“€μ΄ μ‚¬νšŒμ  이읡을 μœ„ν•΄ AI의 νž˜μ„ μ‚¬μš©ν•˜λ„λ‘ 돕기λ₯Ό ν¬λ§ν•©λ‹ˆλ‹€.