Rescale λ―ΈνŒ… μ˜ˆμ•½

λ¨Έμ‹  λŸ¬λ‹μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

AI 101

λ¨Έμ‹  λŸ¬λ‹μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

mm

λ¨Έμ‹ λŸ¬λ‹μ€ κ°€μž₯ λΉ λ₯΄κ²Œ μ„±μž₯ν•˜λŠ” 기술 λΆ„μ•Ό 쀑 ν•˜λ‚˜μ΄μ§€λ§Œ, "λ¨Έμ‹ λŸ¬λ‹"μ΄λΌλŠ” 단어가 μ–Όλ§ˆλ‚˜ 자주 λ“±μž₯ν•˜λŠ”μ§€μ—λ„ λΆˆκ΅¬ν•˜κ³  λ¨Έμ‹ λŸ¬λ‹μ΄ μ •ν™•νžˆ 무엇인지 μ΄ν•΄ν•˜λŠ” 것은 μ–΄λ €μšΈ 수 μžˆμŠ΅λ‹ˆλ‹€.

기계 ν•™μŠ΅ λ¨Έμ‹ λŸ¬λ‹μ€ 단 ν•˜λ‚˜μ˜ κ°œλ…μ„ μ§€μΉ­ν•˜λŠ” 것이 μ•„λ‹ˆλΌ, λ‹€μ–‘ν•œ κ°œλ…κ³Ό 기법에 적용될 수 μžˆλŠ” 포괄적인 μš©μ–΄μž…λ‹ˆλ‹€. λ¨Έμ‹ λŸ¬λ‹μ„ μ΄ν•΄ν•œλ‹€λŠ” 것은 λ‹€μ–‘ν•œ ν˜•νƒœμ˜ λͺ¨λΈ 뢄석, λ³€μˆ˜, 그리고 μ•Œκ³ λ¦¬μ¦˜μ— μ΅μˆ™ν•΄μ§€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€. λ¨Έμ‹ λŸ¬λ‹μ΄ 무엇을 ν¬κ΄„ν•˜λŠ”μ§€ 더 잘 μ΄ν•΄ν•˜κΈ° μœ„ν•΄ λ¨Έμ‹ λŸ¬λ‹μ„ μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

λ¨Έμ‹  λŸ¬λ‹μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

기계 ν•™μŠ΅μ΄λΌλŠ” μš©μ–΄λŠ” μ—¬λŸ¬ 가지에 적용될 수 μžˆμ§€λ§Œ 일반적으둜 이 μš©μ–΄λŠ” λͺ…μ‹œμ μΈ 라인별 지침을 λ°›μ§€ μ•Šκ³  컴퓨터가 μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆλ„λ‘ ν•˜λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€. 기계 ν•™μŠ΅ μ „λ¬Έκ°€λŠ” 컴퓨터가 데이터 λ‚΄μ˜ νŒ¨ν„΄μ„ λΆ„μ„ν•˜κ³  μ΄λŸ¬ν•œ νŒ¨ν„΄μ„ μƒˆλ‘œμš΄ λ°μ΄ν„°λ‘œ μΌλ°˜ν™”ν•˜μ—¬ "ν•™μŠ΅"ν•  수 있기 λ•Œλ¬Έμ— 문제 해결에 ν•„μš”ν•œ λͺ¨λ“  단계λ₯Ό μž‘μ„±ν•  ν•„μš”κ°€ μ—†μŠ΅λ‹ˆλ‹€.

기계 ν•™μŠ΅ μ‹œμŠ€ν…œμ—λŠ” μ„Έ κ°€μ§€ κΈ°λ³Έ 뢀뢄이 μžˆμŠ΅λ‹ˆλ‹€.

  • μž…λ ₯
  • μ•Œκ³ λ¦¬μ¦˜
  • 좜λ ₯

μž…λ ₯은 기계 ν•™μŠ΅ μ‹œμŠ€ν…œμ— μž…λ ₯λ˜λŠ” 데이터이며 μž…λ ₯ λ°μ΄ν„°λŠ” λ ˆμ΄λΈ”κ³Ό κΈ°λŠ₯으둜 λ‚˜λˆŒ 수 μžˆμŠ΅λ‹ˆλ‹€. κΈ°λŠ₯은 κ΄€λ ¨ λ³€μˆ˜λ‘œ, νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜κ³  결둠을 λ„μΆœν•˜κΈ° μœ„ν•΄ 뢄석할 λ³€μˆ˜μž…λ‹ˆλ‹€. ν•œνŽΈ λ ˆμ΄λΈ”μ€ λ°μ΄ν„°μ˜ κ°œλ³„ μΈμŠ€ν„΄μŠ€μ— λΆ€μ—¬λœ 클래슀/μ„€λͺ…μž…λ‹ˆλ‹€.

κΈ°λŠ₯κ³Ό λ ˆμ΄λΈ”μ€ 지도 ν•™μŠ΅κ³Ό 비지도 ν•™μŠ΅μ΄λΌλŠ” 두 κ°€μ§€ μœ ν˜•μ˜ 기계 ν•™μŠ΅ λ¬Έμ œμ— μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.

비지도 λŒ€ 지도 ν•™μŠ΅

In 지도 ν•™μŠ΅, μž…λ ₯ λ°μ΄ν„°μ—λŠ” μ‹€μΈ‘ 정보가 μˆ˜λ°˜λ©λ‹ˆλ‹€. 감독 ν•™μŠ΅ λ¬Έμ œλŠ” 데이터 μ„ΈνŠΈμ˜ μΌλΆ€λ‘œ μ˜¬λ°”λ₯Έ 좜λ ₯ 값을 κ°€μ§€λ―€λ‘œ μ˜ˆμƒ 클래슀λ₯Ό 미리 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 데이터 κ³Όν•™μžλŠ” ν…ŒμŠ€νŠΈ 데이터 μ„ΈνŠΈμ—μ„œ 데이터λ₯Ό ν…ŒμŠ€νŠΈν•˜κ³  ν•­λͺ©μ˜ λͺ‡ νΌμ„ΌνŠΈκ°€ μ˜¬λ°”λ₯΄κ²Œ λΆ„λ₯˜λ˜μ—ˆλŠ”μ§€ ν™•μΈν•˜μ—¬ μ•Œκ³ λ¦¬μ¦˜μ˜ μ„±λŠ₯을 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

λŒ€μ‘°μ μœΌλ‘œ, 비지도 ν•™μŠ΅ λ¬Έμ œμ—λŠ” μ •λ‹΅ λ ˆμ΄λΈ”μ΄ λΆ™μ–΄ μžˆμ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 비지도 ν•™μŠ΅ μž‘μ—…μ„ μˆ˜ν–‰ν•˜λ„λ‘ ν›ˆλ ¨λœ 기계 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ€ λ°μ΄ν„°μ—μ„œ κ΄€λ ¨ νŒ¨ν„΄μ„ 슀슀둜 μΆ”λ‘ ν•  수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€.

감독 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ€ 일반적으둜 λ§Žμ€ λ‹€λ₯Έ 클래슀 쀑 ν•˜λ‚˜λ‘œ μ •λ ¬ν•΄μ•Ό ν•˜λŠ” μΈμŠ€ν„΄μŠ€λ‘œ μ±„μ›Œμ§„ λŒ€κ·œλͺ¨ 데이터 μ„ΈνŠΈκ°€ μžˆλŠ” λΆ„λ₯˜ λ¬Έμ œμ— μ‚¬μš©λ©λ‹ˆλ‹€. 지도 ν•™μŠ΅μ˜ 또 λ‹€λ₯Έ μœ ν˜•μ€ μ•Œκ³ λ¦¬μ¦˜μ— μ˜ν•œ κ°’ 좜λ ₯이 λ²”μ£Όν˜•μ΄ μ•„λ‹Œ 본질적으둜 연속적인 νšŒκ·€ μž‘μ—…μž…λ‹ˆλ‹€.

ν•œνŽΈ 비지도 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ€ 밀도 μΆ”μ •, ν΄λŸ¬μŠ€ν„°λ§ 및 ν‘œν˜„ ν•™μŠ΅κ³Ό 같은 μž‘μ—…μ— μ‚¬μš©λ©λ‹ˆλ‹€. 이 μ„Έ κ°€μ§€ μž‘μ—…μ—λŠ” 데이터 ꡬ쑰λ₯Ό μΆ”λ‘ ν•˜κΈ° μœ„ν•œ 기계 ν•™μŠ΅ λͺ¨λΈμ΄ ν•„μš”ν•˜λ©° λͺ¨λΈμ— μ§€μ •λœ 사전 μ •μ˜λœ ν΄λž˜μŠ€κ°€ μ—†μŠ΅λ‹ˆλ‹€.

비지도 ν•™μŠ΅κ³Ό 지도 ν•™μŠ΅ λͺ¨λ‘μ—μ„œ μ‚¬μš©λ˜λŠ” κ°€μž₯ 일반적인 μ•Œκ³ λ¦¬μ¦˜ 쀑 일뢀λ₯Ό κ°„λž΅ν•˜κ²Œ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

지도 ν•™μŠ΅μ˜ μœ ν˜•

일반적인 지도 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ—λŠ” λ‹€μŒμ΄ ν¬ν•¨λ©λ‹ˆλ‹€.

  • λ‚˜μ΄λΈŒ 베이 즈
  • 벑터 λ¨Έμ‹  지원
  • λ‘œμ§€μŠ€ν‹± νšŒκ·€
  • 랜덀 포레슀트
  • 인곡 신경망

벑터 λ¨Έμ‹  지원 데이터 μ„ΈνŠΈλ₯Ό λ‹€λ₯Έ 클래슀둜 λ‚˜λˆ„λŠ” μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€. 클래슀λ₯Ό μ„œλ‘œ κ΅¬λΆ„ν•˜λŠ” 선을 κ·Έλ €μ„œ 데이터 포인트λ₯Ό ν΄λŸ¬μŠ€ν„°λ‘œ κ·Έλ£Ήν™”ν•©λ‹ˆλ‹€. μ„ μ˜ ν•œμͺ½μ—μ„œ 찾은 ν¬μΈνŠΈλŠ” ν•œ ν΄λž˜μŠ€μ— μ†ν•˜κ³  μ„ μ˜ λ‹€λ₯Έ μͺ½μ— μžˆλŠ” ν¬μΈνŠΈλŠ” λ‹€λ₯Έ ν΄λž˜μŠ€μ— μ†ν•©λ‹ˆλ‹€. μ„œν¬νŠΈ 벑터 머신은 μ„ κ³Ό μ„  μ–‘μͺ½μ— μžˆλŠ” 점 μ‚¬μ΄μ˜ 거리λ₯Ό μ΅œλŒ€ν™”ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λ©°, 거리가 λ©€μˆ˜λ‘ λΆ„λ₯˜κΈ°λŠ” 점이 λ‹€λ₯Έ ν΄λž˜μŠ€κ°€ μ•„λ‹Œ ν•œ ν΄λž˜μŠ€μ— μ†ν•œλ‹€κ³  ν™•μ‹ ν•©λ‹ˆλ‹€.

λ‘œμ§€μŠ€ν‹± νšŒκ·€ 데이터 ν¬μΈνŠΈκ°€ 두 클래슀 쀑 ν•˜λ‚˜μ— μ†ν•˜λŠ” κ²ƒμœΌλ‘œ λΆ„λ₯˜λ˜μ–΄μ•Ό ν•  λ•Œ 이진 λΆ„λ₯˜ μž‘μ—…μ— μ‚¬μš©λ˜λŠ” μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€. λ‘œμ§€μŠ€ν‹± νšŒκ·€λŠ” 데이터 ν¬μΈνŠΈμ— 1 λ˜λŠ” 0으둜 λ ˆμ΄λΈ”μ„ μ§€μ •ν•˜μ—¬ μž‘λ™ν•©λ‹ˆλ‹€. 데이터 포인트의 μΈμ§€λœ 값이 0.49 μ΄ν•˜μ΄λ©΄ 0으둜 λΆ„λ₯˜λ˜κ³  0.5 이상이면 1둜 λΆ„λ₯˜λ©λ‹ˆλ‹€.

μ˜μ‚¬κ²°μ • 트리 μ•Œκ³ λ¦¬μ¦˜ 데이터 μ„ΈνŠΈλ₯Ό 점점 더 μž‘μ€ 쑰각으둜 λ‚˜λˆ„μ–΄ μž‘λ™ν•©λ‹ˆλ‹€. 데이터λ₯Ό λΆ„ν• ν•˜λŠ” 데 μ‚¬μš©λ˜λŠ” μ •ν™•ν•œ 기쀀은 기계 ν•™μŠ΅ μ—”μ§€λ‹ˆμ–΄μ—κ²Œ 달렀 μžˆμ§€λ§Œ λͺ©ν‘œλŠ” ꢁ극적으둜 데이터λ₯Ό 단일 데이터 포인트둜 λΆ„ν• ν•œ λ‹€μŒ ν‚€λ₯Ό μ‚¬μš©ν•˜μ—¬ λΆ„λ₯˜ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

Random Forest μ•Œκ³ λ¦¬μ¦˜μ€ 본질적으둜 더 κ°•λ ₯ν•œ λΆ„λ₯˜μžλ‘œ ν•¨κ»˜ μ—°κ²°λœ λ§Žμ€ 단일 μ˜μ‚¬κ²°μ • 트리 λΆ„λ₯˜μžμž…λ‹ˆλ‹€.

λ‚˜μ΄λΈŒ 베이즈 λΆ„λ₯˜κΈ°λŠ” μ£Όμ–΄μ§„ 데이터 ν¬μΈνŠΈκ°€ 이전 사건 λ°œμƒ ν™•λ₯ μ„ 기반으둜 λ°œμƒ ν™•λ₯ μ„ κ³„μ‚°ν•©λ‹ˆλ‹€. μ΄λŠ” 베이즈 정리에 κΈ°λ°˜ν•˜λ©°, κ³„μ‚°λœ ν™•λ₯ μ„ 기반으둜 데이터 포인트λ₯Ό 클래슀둜 λΆ„λ₯˜ν•©λ‹ˆλ‹€. λ‚˜μ΄λΈŒ 베이즈 λΆ„λ₯˜κΈ°λ₯Ό κ΅¬ν˜„ν•  λ•Œ λͺ¨λ“  예츑 λ³€μˆ˜κ°€ 클래슀 결과에 λ™μΌν•œ 영ν–₯을 λ―ΈμΉœλ‹€κ³  κ°€μ •ν•©λ‹ˆλ‹€.

An 인곡 신경망, λ˜λŠ” λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ μ€ 인간 λ‘λ‡Œμ˜ ꡬ쑰와 κΈ°λŠ₯μ—μ„œ μ˜κ°μ„ 얻은 기계 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€. 인곡 신경망은 ν•¨κ»˜ μ—°κ²°λœ λ§Žμ€ λ…Έλ“œ/λ‰΄λŸ°μœΌλ‘œ κ΅¬μ„±λœλ‹€λŠ” μ‚¬μ‹€μ—μ„œ 이름을 μ–»μŠ΅λ‹ˆλ‹€. λͺ¨λ“  λ‰΄λŸ°μ€ μˆ˜ν•™ ν•¨μˆ˜λ‘œ 데이터λ₯Ό μ‘°μž‘ν•©λ‹ˆλ‹€. μΈκ³΅μ‹ κ²½λ§μ—λŠ” μž…λ ₯μΈ΅, 은닉측, 좜λ ₯측이 μžˆλ‹€.

μ‹ κ²½λ§μ˜ μˆ¨κ²¨μ§„ 계측은 데이터가 μ‹€μ œλ‘œ ν•΄μ„λ˜κ³  νŒ¨ν„΄μ— λŒ€ν•΄ λΆ„μ„λ˜λŠ” κ³³μž…λ‹ˆλ‹€. 즉, μ•Œκ³ λ¦¬μ¦˜μ΄ ν•™μŠ΅ν•˜λŠ” κ³³μž…λ‹ˆλ‹€. ν•¨κ»˜ κ²°ν•©λœ 더 λ§Žμ€ λ‰΄λŸ°μ€ 더 λ³΅μž‘ν•œ νŒ¨ν„΄μ„ ν•™μŠ΅ν•  수 μžˆλŠ” 더 λ³΅μž‘ν•œ λ„€νŠΈμ›Œν¬λ₯Ό λ§Œλ“­λ‹ˆλ‹€.

비지도 ν•™μŠ΅μ˜ μœ ν˜•

비지도 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ—λŠ” λ‹€μŒμ΄ ν¬ν•¨λ©λ‹ˆλ‹€.

  • K- 평균 ν΄λŸ¬μŠ€ν„°λ§
  • μžλ™ 인코더
  • μ£Όμš” ꡬ성 μš”μ†Œ 뢄석

K-평균 κ΅°μ§‘ν™”λŠ” 비지도 λΆ„λ₯˜ κΈ°λ²•μœΌλ‘œ, 데이터 포인트λ₯Ό νŠΉμ§•μ— 따라 κ΅°μ§‘ λ˜λŠ” 그룹으둜 λΆ„λ¦¬ν•˜λŠ” λ°©μ‹μœΌλ‘œ μž‘λ™ν•©λ‹ˆλ‹€. K-평균 κ΅°μ§‘ν™”λŠ” 데이터 ν¬μΈνŠΈμ—μ„œ 발견된 νŠΉμ§•μ„ λΆ„μ„ν•˜κ³ , νŠΉμ • 클래슀 κ΅°μ§‘μ—μ„œ 발견된 데이터 ν¬μΈνŠΈλ“€μ„ λ‹€λ₯Έ 데이터 포인트λ₯Ό ν¬ν•¨ν•˜λŠ” ꡰ집보닀 더 μœ μ‚¬ν•˜κ²Œ λ§Œλ“œλŠ” νŒ¨ν„΄μ„ κ΅¬λΆ„ν•©λ‹ˆλ‹€. μ΄λŠ” 데이터 κ·Έλž˜ν”„μ— κ΅°μ§‘μ˜ κ°€λŠ₯ν•œ 쀑심점(centroid)을 λ°°μΉ˜ν•˜κ³ , 쀑심점과 ν•΄λ‹Ή 쀑심 ν΄λž˜μŠ€μ— μ†ν•˜λŠ” 포인트 μ‚¬μ΄μ˜ 거리λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” μœ„μΉ˜λ₯Ό 찾을 λ•ŒκΉŒμ§€ μ€‘μ‹¬μ μ˜ μœ„μΉ˜λ₯Ό β€‹β€‹μž¬ν• λ‹Ήν•˜λŠ” λ°©μ‹μœΌλ‘œ μˆ˜ν–‰λ©λ‹ˆλ‹€. μ—°κ΅¬μžλŠ” μ›ν•˜λŠ” κ΅°μ§‘ 수λ₯Ό μ§€μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μ£Όμš” ꡬ성 μš”μ†Œ 뢄석 λ§Žμ€ 수의 κΈ°λŠ₯/λ³€μˆ˜λ₯Ό 더 μž‘μ€ κΈ°λŠ₯ 곡간/더 적은 κΈ°λŠ₯으둜 μ€„μ΄λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. 데이터 포인트의 "μ£Όμš” ꡬ성 μš”μ†Œ"λŠ” 보쑴을 μœ„ν•΄ μ„ νƒλ˜κ³  λ‹€λ₯Έ κΈ°λŠ₯은 더 μž‘μ€ ν‘œν˜„μœΌλ‘œ μ••μ°©λ©λ‹ˆλ‹€. 원본 데이터 λΆ€λΆ„ κ°„μ˜ κ΄€κ³„λŠ” μœ μ§€λ˜μ§€λ§Œ 데이터 포인트의 λ³΅μž‘μ„±μ΄ 더 λ‹¨μˆœν•˜κΈ° λ•Œλ¬Έμ— 데이터λ₯Ό μ •λŸ‰ν™”ν•˜κ³  μ„€λͺ…ν•˜κΈ°κ°€ 더 μ‰½μŠ΅λ‹ˆλ‹€.

μ˜€ν† μΈμ½”λ”λŠ” 비지도 ν•™μŠ΅ μž‘μ—…μ— μ μš©ν•  수 μžˆλŠ” μ‹ κ²½λ§μ˜ ν•œ ν˜•νƒœμž…λ‹ˆλ‹€. μ˜€ν† μΈμ½”λ”λŠ” λ ˆμ΄λΈ”μ΄ μ§€μ •λ˜μ§€ μ•Šμ€ 자유 ν˜•νƒœμ˜ 데이터λ₯Ό 신경망이 μ‚¬μš©ν•  수 μžˆλŠ” λ°μ΄ν„°λ‘œ λ³€ν™˜ν•˜μ—¬, 기본적으둜 λ ˆμ΄λΈ”μ΄ μ§€μ •λœ 자체 ν•™μŠ΅ 데이터λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. μ˜€ν† μΈμ½”λ”μ˜ λͺ©ν‘œλŠ” μž…λ ₯ 데이터λ₯Ό λ³€ν™˜ν•˜κ³  μ΅œλŒ€ν•œ μ •ν™•ν•˜κ²Œ μž¬κ΅¬μ„±ν•˜λŠ” κ²ƒμ΄λ―€λ‘œ, μ–΄λ–€ νŠΉμ§•μ΄ κ°€μž₯ μ€‘μš”ν•œμ§€ νŒλ‹¨ν•˜κ³  이λ₯Ό μΆ”μΆœν•˜λŠ” 것이 μ‹ κ²½λ§μ˜ ν•΅μ‹¬μž…λ‹ˆλ‹€.

μ „λ¬Έ λΆ„μ•Όμ˜ λΈ”λ‘œκ±° 및 ν”„λ‘œκ·Έλž˜λ¨Έ λ¨Έμ‹  λŸ¬λ‹ 그리고 λ”₯λŸ¬λ‹ 주제. λ‹€λ‹ˆμ—˜μ€ λ‹€λ₯Έ μ‚¬λžŒλ“€μ΄ μ‚¬νšŒμ  이읡을 μœ„ν•΄ AI의 νž˜μ„ μ‚¬μš©ν•˜λ„λ‘ 돕기λ₯Ό ν¬λ§ν•©λ‹ˆλ‹€.