Rescale λ―ΈνŒ… μ˜ˆμ•½

Sparse Autoencoders, GPT-4 및 Claude 3 이해: 심측적인 기술 탐ꡬ

인곡지λŠ₯

Sparse Autoencoders, GPT-4 및 Claude 3 이해: 심측적인 기술 탐ꡬ

mm
Sparse Autoencoders, GPT-4 및 Claude 3 이해: 심측적인 기술 탐ꡬ

μ˜€ν† μΈμ½”λ” μ†Œκ°œ

μžλ™ 인코더

사진: Wikimedia Commonsλ₯Ό ν†΅ν•œ Michela Massi,(https://commons.wikimedia.org/wiki/File:Autoencoder_schema.png)

μ˜€ν† μΈμ½”λ”λŠ” μž…λ ₯ 데이터λ₯Ό μΈμ½”λ”©ν•˜κ³  μž¬κ΅¬μ„±ν•˜μ—¬ 효율적인 ν‘œν˜„μ„ ν•™μŠ΅ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λŠ” 신경망 ν΄λž˜μŠ€μž…λ‹ˆλ‹€. μ΄λŠ” μž…λ ₯ 데이터λ₯Ό 잠재 ν‘œν˜„μœΌλ‘œ μ••μΆ•ν•˜λŠ” 인코더와 이 잠재 ν‘œν˜„μ—μ„œ 원본 데이터λ₯Ό μž¬κ΅¬μ„±ν•˜λŠ” λ””μ½”λ”μ˜ 두 κ°€μ§€ μ£Όμš” λΆ€λΆ„μœΌλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€. μž…λ ₯ 데이터와 μž¬κ΅¬μ„±λœ 데이터 κ°„μ˜ 차이λ₯Ό μ΅œμ†Œν™”ν•¨μœΌλ‘œμ¨ μ˜€ν† μΈμ½”λ”λŠ” 차원 β€‹β€‹μΆ•μ†Œ, 이상 탐지, νŠΉμ§• μΆ”μΆœ λ“± λ‹€μ–‘ν•œ μž‘μ—…μ— μ‚¬μš©ν•  수 μžˆλŠ” 의미 μžˆλŠ” νŠΉμ§•μ„ μΆ”μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μ˜€ν† μΈμ½”λ”λŠ” 무엇을 ν•©λ‹ˆκΉŒ?

μ˜€ν† μΈμ½”λ”λŠ” 비지도 ν•™μŠ΅μ„ 톡해 데이터λ₯Ό μ••μΆ•ν•˜κ³  μž¬κ΅¬μ„±ν•˜λŠ” 방법을 ν•™μŠ΅ν•˜λ©° μž¬κ΅¬μ„± 였λ₯˜λ₯Ό μ€„μ΄λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€. μΈμ½”λ”λŠ” μž…λ ₯ 데이터λ₯Ό 저차원 곡간에 λ§€ν•‘ν•˜μ—¬ ν•„μˆ˜ κΈ°λŠ₯을 μΊ‘μ²˜ν•˜λŠ” 반면 λ””μ½”λ”λŠ” 이 μ••μΆ•λœ ν‘œν˜„μ—μ„œ μ›λž˜ μž…λ ₯을 μž¬κ΅¬μ„±ν•˜λ €κ³  μ‹œλ„ν•©λ‹ˆλ‹€. 이 ν”„λ‘œμ„ΈμŠ€λŠ” κΈ°μ‘΄ 데이터 μ••μΆ• 기술과 μœ μ‚¬ν•˜μ§€λ§Œ 신경망을 μ‚¬μš©ν•˜μ—¬ μˆ˜ν–‰λ©λ‹ˆλ‹€.

인코더 E(x)λŠ” μž…λ ₯ 데이터 xλ₯Ό 저차원 곡간 z에 λ§€ν•‘ν•˜μ—¬ ν•„μˆ˜ κΈ°λŠ₯을 μΊ‘μ²˜ν•©λ‹ˆλ‹€. 디코더 D(z)λŠ” 이 μ••μΆ• ν‘œν˜„μ—μ„œ μ›λž˜ μž…λ ₯을 μž¬κ΅¬μ„±ν•˜λ €κ³  μ‹œλ„ν•©λ‹ˆλ‹€.

μˆ˜ν•™μ μœΌλ‘œ 인코더와 λ””μ½”λ”λŠ” λ‹€μŒκ³Ό 같이 ν‘œν˜„λ  수 μžˆμŠ΅λ‹ˆλ‹€.
z = E(x)
xΜ‚ = D(z) = D(E(x))

λͺ©ν‘œλŠ” μ›λž˜ μž…λ ₯κ³Ό μž¬κ΅¬μ„±λœ 좜λ ₯ κ°„μ˜ 차이λ₯Ό μΈ‘μ •ν•˜λŠ” μž¬κ΅¬μ„± 손싀 L(x, xΜ‚)을 μ΅œμ†Œν™”ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 손싀 ν•¨μˆ˜μ— λŒ€ν•œ 일반적인 선택은 평균 제곱 였차(MSE)μž…λ‹ˆλ‹€.
L(x, xΜ‚) = (1/N) βˆ‘ (xα΅’ – xΜ‚α΅’)Β²

μ˜€ν† μΈμ½”λ”μ—λŠ” μ—¬λŸ¬ κ°€μ§€ μš©λ„κ°€ μžˆμŠ΅λ‹ˆλ‹€.

  • 차원 μΆ•μ†Œ: μž…λ ₯ λ°μ΄ν„°μ˜ 차원을 μ€„μž„μœΌλ‘œμ¨ μ˜€ν† μΈμ½”λ”λŠ” μ€‘μš”ν•œ 정보λ₯Ό λ³΄μ‘΄ν•˜λ©΄μ„œ λ³΅μž‘ν•œ λ°μ΄ν„°μ„ΈνŠΈλ₯Ό λ‹¨μˆœν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • νŠΉμ§• μΆ”μΆœ: 인코더가 ν•™μŠ΅ν•œ 잠재 ν‘œν˜„μ€ 이미지 λΆ„λ₯˜μ™€ 같은 μž‘μ—…μ— μœ μš©ν•œ κΈ°λŠ₯을 μΆ”μΆœν•˜λŠ” 데 μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 이상 탐지: μ˜€ν† μΈμ½”λ”λŠ” 정상적인 데이터 νŒ¨ν„΄μ„ μž¬κ΅¬μ„±ν•˜λ„λ‘ ν›ˆλ ¨λ  수 μžˆμœΌλ―€λ‘œ μ΄λŸ¬ν•œ νŒ¨ν„΄μ—μ„œ λ²—μ–΄λ‚˜λŠ” 이상 ν˜„μƒμ„ μ‹λ³„ν•˜λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.
  • 이미지 생성: VAE(Variational Autoencoders)와 같은 μžλ™ μΈμ½”λ”μ˜ λ³€ν˜•μ€ ν›ˆλ ¨ 데이터와 μœ μ‚¬ν•œ μƒˆλ‘œμš΄ 데이터 μƒ˜ν”Œμ„ 생성할 수 μžˆμŠ΅λ‹ˆλ‹€.

ν¬μ†Œ μžλ™ 인코더: 특수 λ³€ν˜•

슀파 슀 μ˜€ν†  인코더 μž…λ ₯ λ°μ΄ν„°μ˜ ν¬λ°•ν•œ ν‘œν˜„μ„ μƒμ„±ν•˜λ„λ‘ μ„€κ³„λœ λ³€ν˜•μž…λ‹ˆλ‹€. ν›ˆλ ¨ 쀑에 μˆ¨κ²¨μ§„ μœ λ‹›μ— ν¬μ†Œμ„± μ œμ•½ 쑰건을 λ„μž…ν•˜μ—¬ λ„€νŠΈμ›Œν¬κ°€ μ†Œμˆ˜μ˜ λ‰΄λŸ°λ§Œ ν™œμ„±ν™”ν•˜λ„λ‘ μž₯λ €ν•˜μ—¬ 높은 μˆ˜μ€€μ˜ νŠΉμ§•μ„ ν¬μ°©ν•˜λŠ” 데 도움이 λ©λ‹ˆλ‹€.

ν¬μ†Œ μžλ™ μΈμ½”λ”λŠ” μ–΄λ–»κ²Œ μž‘λ™ν•©λ‹ˆκΉŒ?

ν¬μ†Œ μžλ™ μΈμ½”λ”λŠ” κΈ°μ‘΄ μžλ™ 인코더와 μœ μ‚¬ν•˜κ²Œ μž‘λ™ν•˜μ§€λ§Œ ν¬μ†Œμ„± νŽ˜λ„ν‹°λ₯Ό 손싀 ν•¨μˆ˜μ— ν†΅ν•©ν•©λ‹ˆλ‹€. 이 νŽ˜λ„ν‹°λŠ” λŒ€λΆ€λΆ„μ˜ μˆ¨κ²¨μ§„ μœ λ‹›μ΄ λΉ„ν™œμ„±ν™”λ˜λ„λ‘(즉, ν™œμ„±ν™”κ°€ 0 λ˜λŠ” 거의 0에 κ°€κΉŒμ›€) νŠΉμ • μ‹œκ°„μ— μ†Œμˆ˜μ˜ μœ λ‹› ν•˜μœ„ μ§‘ν•©λ§Œ ν™œμ„±ν™”λ˜λ„λ‘ ν•©λ‹ˆλ‹€. ν¬μ†Œμ„± μ œμ•½ 쑰건은 λ‹€μ–‘ν•œ λ°©λ²•μœΌλ‘œ κ΅¬ν˜„λ  수 μžˆμŠ΅λ‹ˆλ‹€.

  • ν¬μ†Œμ„± νŽ˜λ„ν‹°: λΉ„ν¬μ†Œ ν™œμ„±ν™”μ— λΆˆμ΄μ΅μ„ μ£ΌλŠ” 손싀 ν•¨μˆ˜μ— 항을 μΆ”κ°€ν•©λ‹ˆλ‹€.
  • ν¬μ†Œμ„± μ •κ·œν™”κΈ°: μ •κ·œν™” κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ ν¬μ†Œ ν™œμ„±ν™”λ₯Ό μž₯λ €ν•©λ‹ˆλ‹€.
  • ν¬μ†Œμ„± λΉ„μœ¨: ν™œμ„±ν™”μ—μ„œ μ›ν•˜λŠ” ν¬μ†Œμ„± μˆ˜μ€€μ„ κ²°μ •ν•˜λŠ” ν•˜μ΄νΌνŒŒλΌλ―Έν„°λ₯Ό μ„€μ •ν•©λ‹ˆλ‹€.

ν¬μ†Œμ„± μ œμ•½ 쑰건 κ΅¬ν˜„

ν¬μ†Œμ„± μ œμ•½ 쑰건은 λ‹€μ–‘ν•œ λ°©λ²•μœΌλ‘œ κ΅¬ν˜„λ  수 μžˆμŠ΅λ‹ˆλ‹€.

  1. ν¬μ†Œμ„± νŽ˜λ„ν‹°: λΉ„ν¬μ†Œ ν™œμ„±ν™”μ— λΆˆμ΄μ΅μ„ μ£ΌλŠ” 손싀 ν•¨μˆ˜μ— 항을 μΆ”κ°€ν•©λ‹ˆλ‹€. μ΄λŠ” μ’…μ’… μˆ¨κ²¨μ§„ κ³„μΈ΅μ˜ ν™œμ„±ν™”μ— L1 μ •κ·œν™” 항을 μΆ”κ°€ν•˜μ—¬ λ‹¬μ„±λ©λ‹ˆλ‹€. Lβ‚›β‚šβ‚α΅£β‚›β‚‘ = Ξ» βˆ‘ |hβ±Ό| μ—¬κΈ°μ„œ hβ±ΌλŠ” j번째 은닉 μœ λ‹›μ˜ ν™œμ„±ν™”μ΄κ³  Ξ»λŠ” μ •κ·œν™” λ§€κ°œλ³€μˆ˜μž…λ‹ˆλ‹€.
  2. KL λ°œμ‚°: μˆ¨κ²¨μ§„ μœ λ‹›μ˜ 평균 ν™œμ„±ν™”μ™€ μž‘μ€ λͺ©ν‘œ κ°’ ρ μ‚¬μ΄μ˜ Kullback-Leibler(KL) λ°œμ‚°μ„ μ΅œμ†Œν™”ν•˜μ—¬ ν¬μ†Œμ„±μ„ μ μš©ν•©λ‹ˆλ‹€. Lβ‚–β‚— = βˆ‘ (ρ log(ρ / ρ̂ⱼ) + (1-ρ) log((1- ρ) / (1-ρ̂ⱼ))) μ—¬κΈ°μ„œ ρ̂ⱼ은 ν›ˆλ ¨ 데이터에 λŒ€ν•œ μˆ¨κ²¨μ§„ μœ λ‹› j의 평균 ν™œμ„±ν™”μž…λ‹ˆλ‹€.
  3. ν¬μ†Œμ„± λΉ„μœ¨: ν™œμ„±ν™”μ—μ„œ μ›ν•˜λŠ” ν¬μ†Œμ„± μˆ˜μ€€μ„ κ²°μ •ν•˜λŠ” ν•˜μ΄νΌνŒŒλΌλ―Έν„°λ₯Ό μ„€μ •ν•©λ‹ˆλ‹€. μ΄λŠ” ν™œμ„± λ‰΄λŸ°μ˜ νŠΉμ • λΉ„μœ¨μ„ μœ μ§€ν•˜κΈ° μœ„ν•΄ ν›ˆλ ¨ 쀑에 ν™œμ„±ν™”λ₯Ό 직접 μ œν•œν•¨μœΌλ‘œμ¨ κ΅¬ν˜„λ  수 μžˆμŠ΅λ‹ˆλ‹€.

κ²°ν•© 손싀 ν•¨μˆ˜

ν¬μ†Œ μ˜€ν† μΈμ½”λ” ν›ˆλ ¨μ„ μœ„ν•œ 전체 손싀 ν•¨μˆ˜μ—λŠ” μž¬κ΅¬μ„± 손싀과 ν¬μ†Œμ„± νŽ˜λ„ν‹°κ°€ ν¬ν•¨λ©λ‹ˆλ‹€. Lβ‚œβ‚’β‚œβ‚β‚— = L( x, xΜ‚ ) + Ξ» Lβ‚›β‚šβ‚α΅£β‚›β‚‘

ν¬μ†Œ μžλ™ μΈμ½”λ”λŠ” μ΄λŸ¬ν•œ κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ 효율적이고 의미 μžˆλŠ” 데이터 ν‘œν˜„μ„ ν•™μŠ΅ν•  수 μžˆμœΌλ―€λ‘œ λ‹€μ–‘ν•œ 기계 ν•™μŠ΅ μž‘μ—…μ— μœ μš©ν•œ 도ꡬ가 λ©λ‹ˆλ‹€.

ν¬μ†Œ μ˜€ν† μΈμ½”λ”μ˜ μ€‘μš”μ„±

Sparse AutoencodersλŠ” λ ˆμ΄λΈ”μ΄ μ§€μ •λ˜μ§€ μ•Šμ€ λ°μ΄ν„°μ—μ„œ μœ μš©ν•œ κΈ°λŠ₯을 ν•™μŠ΅ν•˜λŠ” κΈ°λŠ₯에 특히 μœ μš©ν•˜λ©°, μ΄λŠ” 이상 탐지, λ…Έμ΄μ¦ˆ 제거, 차원 κ°μ†Œμ™€ 같은 μž‘μ—…μ— μ μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ°μ΄ν„°μ˜ κ°€μž₯ μ€‘μš”ν•œ 츑면을 ν¬μ°©ν•˜λŠ” 저차원 ν‘œν˜„μ„ ν•™μŠ΅ν•  수 μžˆμœΌλ―€λ‘œ 고차원 데이터λ₯Ό μ²˜λ¦¬ν•  λ•Œ 특히 μœ μš©ν•©λ‹ˆλ‹€. λ˜ν•œ ν¬μ†Œ μžλ™ μΈμ½”λ”λŠ” 심측 신경망을 사전 ν›ˆλ ¨ν•˜λŠ” 데 μ‚¬μš©λ˜μ–΄ κ°€μ€‘μΉ˜μ— λŒ€ν•œ μ μ ˆν•œ μ΄ˆκΈ°ν™”λ₯Ό μ œκ³΅ν•˜κ³  지도 ν•™μŠ΅ μž‘μ—…μ˜ μ„±λŠ₯을 잠재적으둜 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.

GPT-4 이해

OpenAIκ°€ κ°œλ°œν•œ GPT-4λŠ” λ³€ν™˜κΈ° μ•„ν‚€ν…μ²˜λ₯Ό 기반으둜 ν•œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμž…λ‹ˆλ‹€. μ΄λŠ” 이전 버전인 GPT-2 및 GPT-3의 성곡을 기반으둜 더 λ§Žμ€ λ§€κ°œλ³€μˆ˜μ™€ ν›ˆλ ¨ 데이터λ₯Ό ν†΅ν•©ν•˜μ—¬ μ„±λŠ₯κ³Ό κΈ°λŠ₯을 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

GPT-4의 μ£Όμš” νŠΉμ§•

  • ν™•μž₯μ„±: GPT-4μ—λŠ” 이전 λͺ¨λΈλ³΄λ‹€ 훨씬 더 λ§Žμ€ λ§€κ°œλ³€μˆ˜κ°€ μžˆμ–΄ λ°μ΄ν„°μ˜ 더 λ³΅μž‘ν•œ νŒ¨ν„΄κ³Ό λ‰˜μ•™μŠ€λ₯Ό 포착할 수 μžˆμŠ΅λ‹ˆλ‹€.
  • λ‹€μ–‘μ„±: ν…μŠ€νŠΈ 생성, λ²ˆμ—­, μš”μ•½, 질문 λ‹΅λ³€ λ“± κ΄‘λ²”μœ„ν•œ μžμ—°μ–΄ 처리(NLP) μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 해석 κ°€λŠ₯ν•œ νŒ¨ν„΄: 연ꡬ원듀은 GPT-4μ—μ„œ 해석 κ°€λŠ₯ν•œ νŒ¨ν„΄μ„ μΆ”μΆœν•˜λŠ” 방법을 κ°œλ°œν•˜μ—¬ λͺ¨λΈμ΄ 응닡을 μƒμ„±ν•˜λŠ” 방법을 μ΄ν•΄ν•˜λŠ” 데 도움을 μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ μ΄ν•΄μ˜ 과제

인상적인 κΈ°λŠ₯에도 λΆˆκ΅¬ν•˜κ³  GPT-4와 같은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ€ 해석 κ°€λŠ₯μ„± μΈ‘λ©΄μ—μ„œ μ‹¬κ°ν•œ 문제λ₯Ό μ•ˆκ²¨μ€λ‹ˆλ‹€. μ΄λŸ¬ν•œ λͺ¨λΈμ˜ λ³΅μž‘μ„±μœΌλ‘œ 인해 μ˜μ‚¬κ²°μ •μ„ 내리고 κ²°κ³Όλ₯Ό μƒμ„±ν•˜λŠ” 방법을 μ΄ν•΄ν•˜κΈ°κ°€ μ–΄λ ΅μŠ΅λ‹ˆλ‹€. μ—°κ΅¬μžλ“€μ€ 투λͺ…μ„±κ³Ό 신뒰성을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ μ΄λŸ¬ν•œ λͺ¨λΈμ˜ λ‚΄λΆ€ μž‘λ™μ„ ν•΄μ„ν•˜λŠ” 방법을 κ°œλ°œν•˜κΈ° μœ„ν•΄ λ…Έλ ₯ν•΄ μ™”μŠ΅λ‹ˆλ‹€.

ν¬μ†Œ μžλ™ 인코더λ₯Ό GPT-4와 톡합

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ μ΄ν•΄ν•˜κ³  ν•΄μ„ν•˜λŠ” μœ λ§ν•œ μ ‘κ·Ό 방식 쀑 ν•˜λ‚˜λŠ” ν¬μ†Œ μžλ™ 인코더λ₯Ό μ‚¬μš©ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. GPT-4와 같은 λͺ¨λΈμ˜ ν™œμ„±ν™”μ— λŒ€ν•΄ ν¬μ†Œ μžλ™ 인코더λ₯Ό ν›ˆλ ¨ν•¨μœΌλ‘œμ¨, μ—°κ΅¬μžλ“€μ€ 해석 κ°€λŠ₯ν•œ νŠΉμ§•μ„ μΆ”μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈμ˜ λ™μž‘μ— λŒ€ν•œ 톡찰λ ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

해석 κ°€λŠ₯ν•œ νŠΉμ§• μΆ”μΆœ

졜근 λ°œμ „μœΌλ‘œ 인해 GPT-4와 같은 λŒ€ν˜• λͺ¨λΈμ— μ‘΄μž¬ν•˜λŠ” λ°©λŒ€ν•œ 수의 νŠΉμ§•μ„ μ²˜λ¦¬ν•  수 μžˆλ„λ‘ ν¬μ†Œ μ˜€ν† μΈμ½”λ”μ˜ ν™•μž₯이 κ°€λŠ₯ν•΄μ‘ŒμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŠΉμ§•μ€ λ‹€μŒμ„ ν¬ν•¨ν•˜μ—¬ λͺ¨λΈ λ™μž‘μ˜ λ‹€μ–‘ν•œ 츑면을 포착할 수 μžˆμŠ΅λ‹ˆλ‹€.

  • κ°œλ…μ  이해: "법λ₯  ν…μŠ€νŠΈ" λ˜λŠ” "DNA μ„œμ—΄"κ³Ό 같은 νŠΉμ • κ°œλ…μ— μ‘λ‹΅ν•˜λŠ” κΈ°λŠ₯μž…λ‹ˆλ‹€.
  • 행동 νŒ¨ν„΄: "편견"μ΄λ‚˜ "기만"κ³Ό 같이 λͺ¨λΈμ˜ λ™μž‘μ— 영ν–₯을 λ―ΈμΉ˜λŠ” νŠΉμ§•.

ν¬μ†Œ μ˜€ν† μΈμ½”λ” ν›ˆλ ¨ 방법둠

ν¬μ†Œ μžλ™ 인코더 ν›ˆλ ¨μ—λŠ” μ—¬λŸ¬ 단계가 ν¬ν•¨λ©λ‹ˆλ‹€.

  1. ν‘œμ€€ν™”: λͺ¨λΈ ν™œμ„±ν™”λ₯Ό μ „μ²˜λ¦¬ν•˜μ—¬ λ‹¨μœ„ ν‘œμ€€μ΄ μžˆλŠ”μ§€ ν™•μΈν•©λ‹ˆλ‹€.
  2. 인코더 및 디코더 섀계: ν™œμ„±ν™”λ₯Ό ν¬μ†Œ 잠재 ν‘œν˜„μ— λ§€ν•‘ν•˜κ³  μ›λž˜ ν™œμ„±ν™”λ₯Ό 각각 μž¬κ΅¬μ„±ν•˜λ„λ‘ 인코더 및 디코더 λ„€νŠΈμ›Œν¬λ₯Ό κ΅¬μ„±ν•©λ‹ˆλ‹€.
  3. ν¬μ†Œμ„± μ œμ•½: ν¬μ†Œ ν™œμ„±ν™”λ₯Ό μž₯λ €ν•˜κΈ° μœ„ν•΄ 손싀 ν•¨μˆ˜μ— ν¬μ†Œ μ œμ•½ 쑰건을 λ„μž…ν•©λ‹ˆλ‹€.
  4. ν›ˆλ ¨: μž¬κ΅¬μ„± 손싀과 ν¬μ†Œμ„± νŽ˜λ„ν‹°λ₯Ό μ‘°ν•©ν•˜μ—¬ μ˜€ν† μΈμ½”λ”λ₯Ό ν›ˆλ ¨μ‹œν‚΅λ‹ˆλ‹€.

사둀 연ꡬ: ν¬μ†Œ μžλ™ 인코더λ₯Ό GPT-4둜 ν™•μž₯

연ꡬ원듀은 ν¬μ†Œ μžλ™ 인코더λ₯Ό μ„±κ³΅μ μœΌλ‘œ ν›ˆλ ¨μ‹œμΌ°μŠ΅λ‹ˆλ‹€. GPT-4 ν™œμ„±ν™”ν•˜μ—¬ 해석 κ°€λŠ₯ν•œ μˆ˜λ§Žμ€ κΈ°λŠ₯을 μ°Ύμ•„λƒ…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 그듀은 "μΈκ°„μ˜ 결함", "가격 인상", "μˆ˜μ‚¬μ  질문"κ³Ό 같은 κ°œλ…κ³Ό κ΄€λ ¨λœ νŠΉμ§•μ„ μ‹λ³„ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ κΈ°λŠ₯은 GPT-4κ°€ 정보λ₯Ό μ²˜λ¦¬ν•˜κ³  응닡을 μƒμ„±ν•˜λŠ” 방법에 λŒ€ν•œ κ·€μ€‘ν•œ 톡찰λ ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

예: 인간 λΆˆμ™„μ „μ„± νŠΉμ§•

GPT-4μ—μ„œ μΆ”μΆœλœ νŠΉμ§• 쀑 ν•˜λ‚˜λŠ” 인간 λΆˆμ™„μ „μ„±μ˜ κ°œλ…κ³Ό 관련이 μžˆμŠ΅λ‹ˆλ‹€. 이 κΈ°λŠ₯은 ν…μŠ€νŠΈκ°€ μΈκ°„μ˜ κ²°μ μ΄λ‚˜ λΆˆμ™„μ „μ„±μ„ λ…Όμ˜ν•˜λŠ” λ§₯λ½μ—μ„œ ν™œμ„±ν™”λ©λ‹ˆλ‹€. 이 κΈ°λŠ₯의 ν™œμ„±ν™”λ₯Ό λΆ„μ„ν•¨μœΌλ‘œμ¨ μ—°κ΅¬μžλ“€μ€ GPT-4κ°€ κ·ΈλŸ¬ν•œ κ°œλ…μ„ μ–΄λ–»κ²Œ μΈμ‹ν•˜κ³  μ²˜λ¦¬ν•˜λŠ”μ§€ 더 깊이 이해할 수 μžˆμŠ΅λ‹ˆλ‹€.

AI μ•ˆμ „μ„±κ³Ό 신뒰성에 λŒ€ν•œ μ‹œμ‚¬μ 

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ—μ„œ 해석 κ°€λŠ₯ν•œ κΈ°λŠ₯을 μΆ”μΆœν•˜λŠ” κΈ°λŠ₯은 AI μ•ˆμ „μ„±κ³Ό 신뒰성에 μ€‘μš”ν•œ 영ν–₯을 λ―ΈμΉ©λ‹ˆλ‹€. μ—°κ΅¬μžλ“€μ€ μ΄λŸ¬ν•œ λͺ¨λΈμ˜ λ‚΄λΆ€ λ©”μ»€λ‹ˆμ¦˜μ„ μ΄ν•΄ν•¨μœΌλ‘œμ¨ 잠재적인 편견, μ·¨μ•½μ„± 및 κ°œμ„  μ˜μ—­μ„ 식별할 수 μžˆμŠ΅λ‹ˆλ‹€. 이 지식은 보닀 μ•ˆμ „ν•˜κ³  μ•ˆμ •μ μΈ AI μ‹œμŠ€ν…œμ„ κ°œλ°œν•˜λŠ” 데 μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.

온라인으둜 Sparse Autoencoder κΈ°λŠ₯ μ‚΄νŽ΄λ³΄κΈ°

ν¬μ†Œ μžλ™ μΈμ½”λ”λ‘œ μΆ”μΆœλœ κΈ°λŠ₯을 νƒμƒ‰ν•˜λŠ” 데 관심이 μžˆλŠ” μ‚¬λžŒλ“€μ„ μœ„ν•΄ OpenAIλŠ” λ‹€μŒμ—μ„œ μ‚¬μš©ν•  수 μžˆλŠ” λŒ€ν™”ν˜• 도ꡬλ₯Ό μ œκ³΅ν–ˆμŠ΅λ‹ˆλ‹€. 슀파슀 μ˜€ν† μΈμ½”λ” λ·°μ–΄. 이 도ꡬλ₯Ό μ‚¬μš©ν•˜λ©΄ μ‚¬μš©μžλŠ” GPT-4 및 GPT-2 SMALLκ³Ό 같은 λͺ¨λΈ λ‚΄μ—μ„œ μ‹λ³„λœ κΈ°λŠ₯의 λ³΅μž‘ν•œ μ„ΈλΆ€ 정보λ₯Ό 쑰사할 수 μžˆμŠ΅λ‹ˆλ‹€. λ·°μ–΄λŠ” νŠΉμ • κΈ°λŠ₯, ν•΄λ‹Ή ν™œμ„±ν™” 및 ν•΄λ‹Ή κΈ°λŠ₯이 λ‚˜νƒ€λ‚˜λŠ” μ»¨ν…μŠ€νŠΈλ₯Ό 검사할 수 μžˆλŠ” 포괄적인 μΈν„°νŽ˜μ΄μŠ€λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

Sparse Autoencoder λ·°μ–΄λ₯Ό μ‚¬μš©ν•˜λŠ” 방법

  1. 뷰어에 μ•‘μ„ΈμŠ€ν•©λ‹ˆλ‹€. 둜 이동 슀파슀 μ˜€ν† μΈμ½”λ” λ·°μ–΄.
  2. λͺ¨λΈμ„ μ„ νƒν•˜μ„Έμš”: μ‚΄νŽ΄λ³΄κ³  싢은 λͺ¨λΈμ„ μ„ νƒν•˜μ„Έμš”(예: GPT-4 λ˜λŠ” GPT-2 SMALL).
  3. κΈ°λŠ₯ μ‚΄νŽ΄λ³΄κΈ°: ν¬μ†Œ μ˜€ν† μΈμ½”λ”κ°€ μΆ”μΆœν•œ κΈ°λŠ₯ λͺ©λ‘μ„ μ‚΄νŽ΄λ³΄μ„Έμš”. κ°œλ³„ κΈ°λŠ₯을 ν΄λ¦­ν•˜λ©΄ ν™œμ„±ν™” 및 ν•΄λ‹Ή κΈ°λŠ₯이 λ‚˜νƒ€λ‚˜λŠ” μ»¨ν…μŠ€νŠΈλ₯Ό λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.
  4. ν™œμ„±ν™” 뢄석: μ‹œκ°ν™” 도ꡬλ₯Ό μ‚¬μš©ν•˜μ—¬ μ„ νƒν•œ κΈ°λŠ₯의 ν™œμ„±ν™”λ₯Ό λΆ„μ„ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ κΈ°λŠ₯이 λͺ¨λΈμ˜ 좜λ ₯에 μ–΄λ–€ 영ν–₯을 λ―ΈμΉ˜λŠ”μ§€ μ΄ν•΄ν•©λ‹ˆλ‹€.
  5. νŒ¨ν„΄ 식별: λͺ¨λΈμ΄ 정보λ₯Ό μ²˜λ¦¬ν•˜κ³  응닡을 μƒμ„±ν•˜λŠ” 방식을 λ³΄μ—¬μ£ΌλŠ” νŒ¨ν„΄κ³Ό 톡찰λ ₯을 μ°Ύμ•„λ³΄μ„Έμš”.

ν΄λ‘œλ“œ 3 μ΄ν•΄ν•˜κΈ°: 톡찰과 해석

ν΄λ‘œλ“œ 3, μ•€νŠΈλ‘œν”½μ˜ 생산 λͺ¨λΈλŠ” λ³€ν™˜κΈ° 기반 μ–Έμ–΄ λͺ¨λΈμ˜ 해석 κ°€λŠ₯성을 ν™•μž₯ν•˜λŠ” 데 μžˆμ–΄ μ€‘μš”ν•œ 진전을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. Anthropic의 해석 κ°€λŠ₯μ„± νŒ€μ€ ν¬μ†Œ μžλ™ 인코더λ₯Ό μ μš©ν•˜μ—¬ Claude 3의 κ³ ν’ˆμ§ˆ κΈ°λŠ₯μ΄λŠ” λͺ¨λΈμ˜ 좔상적 이해와 잠재적 μ•ˆμ „ 문제λ₯Ό λͺ¨λ‘ λ“œλŸ¬λƒ…λ‹ˆλ‹€. λ³Έ μ—°κ΅¬μ—μ„œ μ‚¬μš©λœ 방법둠과 μ£Όμš” 연ꡬ κ²°κ³Όλ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

λ‹¨μΌμ˜λ―Έ ν™•μž₯: ν΄λ‘œλ“œ 3 μ†Œλ„€νŠΈμ—μ„œ 해석 κ°€λŠ₯ν•œ νŠΉμ§• μΆ”μΆœ

ν΄λ‘œλ“œ 3 μ†Œλ„€νŠΈμ˜ 해석 κ°€λŠ₯ν•œ νŠΉμ§•

ν¬μ†Œ μžλ™ 인코더와 μŠ€μΌ€μΌλ§

SAE(Sparse Autoencoders)λŠ” Claude 3의 ν™œμ„±ν™”λ₯Ό ν•΄λ…ν•˜λŠ” 데 쀑좔적인 역할을 ν–ˆμŠ΅λ‹ˆλ‹€. 일반적인 μ ‘κ·Ό λ°©μ‹μ—λŠ” ReLU λΉ„μ„ ν˜•μ„±μ΄ λ’€λ”°λ₯΄λŠ” μ„ ν˜• λ³€ν™˜μ„ μ‚¬μš©ν•˜μ—¬ λͺ¨λΈμ˜ ν™œμ„±ν™”λ₯Ό 해석 κ°€λŠ₯ν•œ κΈ°λŠ₯으둜 λΆ„ν•΄ν•˜λŠ” 것이 ν¬ν•¨λ©λ‹ˆλ‹€. 이 방법은 이전에 더 μž‘μ€ λͺ¨λΈμ—μ„œ 효과적으둜 μž‘λ™ν•˜λŠ” κ²ƒμœΌλ‘œ μž…μ¦λ˜μ—ˆμœΌλ©° Claude 3만큼 큰 λͺ¨λΈλ‘œ ν™•μž₯ν•˜λŠ” 것이 κ³Όμ œμ˜€μŠ΅λ‹ˆλ‹€.

Claude 3μ—μ„œ νŠΉμ§• κ°œμˆ˜κ°€ 1만 개, 4만 개, 34만 개둜 μ„œλ‘œ λ‹€λ₯Έ μ„Έ κ°€μ§€ SAEλ₯Ό ν•™μŠ΅ν–ˆμŠ΅λ‹ˆλ‹€. μ—°μ‚° 집약도에도 λΆˆκ΅¬ν•˜κ³ , 이 SAE듀은 토큰당 평균 300개 미만의 νŠΉμ§•μ΄ ν™œμ„±ν™”λ˜μ–΄ λͺ¨λΈ λΆ„μ‚°μ˜ 상당 뢀뢄을 μ„€λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. ν•™μŠ΅μ—λŠ” μŠ€μΌ€μΌλ§ 법칙을 μ μš©ν•˜μ—¬ μ£Όμ–΄μ§„ μ—°μ‚°λŸ‰ λ‚΄μ—μ„œ 졜적의 μ„±λŠ₯을 보μž₯ν–ˆμŠ΅λ‹ˆλ‹€.

λ‹€μ–‘ν•˜κ³  좔상적인 νŠΉμ§•

ν΄λ‘œλ“œ 3μ—μ„œ μΆ”μΆœλœ ν”Όμ³λŠ” 유λͺ…인, κ΅­κ°€, λ„μ‹œ, μ½”λ“œνƒ€μž… μ‹œκ·Έλ‹ˆμ²˜κΉŒμ§€ λ‹€μ–‘ν•œ 컨셉을 ν¬κ΄„ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ κΈ°λŠ₯은 맀우 좔상적이고 μ’…μ’… 닀쀑 μ–Έμ–΄ 및 닀쀑 λͺ¨λ“œμ΄λ©° ꡬ체적 참쑰와 좔상적 μ°Έμ‘° μ‚¬μ΄μ—μ„œ μΌλ°˜ν™”λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 일뢀 κΈ°λŠ₯은 ν…μŠ€νŠΈμ™€ 이미지 λͺ¨λ‘μ— μ˜ν•΄ ν™œμ„±ν™”λ˜μ–΄ λ‹€μ–‘ν•œ 양식에 걸쳐 κ°œλ…μ„ ν™•μ‹€ν•˜κ²Œ μ΄ν•΄ν•˜κ³  μžˆμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

μ•ˆμ „ κ΄€λ ¨ κΈ°λŠ₯

이 μ—°κ΅¬μ˜ μ€‘μš”ν•œ 츑면은 μ•ˆμ „κ³Ό 관련이 μžˆμ„ 수 μžˆλŠ” νŠΉμ§•μ„ νŒŒμ•…ν•˜λŠ” κ²ƒμ΄μ—ˆμŠ΅λ‹ˆλ‹€. μ—¬κΈ°μ—λŠ” λ³΄μ•ˆ 취약점, 편ν–₯, 거짓말, 기만, 아첨, 그리고 생물무기와 같은 μœ„ν—˜ν•œ μ½˜ν…μΈ μ™€ κ΄€λ ¨λœ νŠΉμ§•μ΄ ν¬ν•¨λ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŠΉμ§•μ΄ μ‘΄μž¬ν•œλ‹€κ³  ν•΄μ„œ ν•΄λ‹Ή λͺ¨λΈμ΄ 본질적으둜 μœ ν•΄ν•œ ν–‰μœ„λ₯Ό μˆ˜ν–‰ν•œλ‹€λŠ” 것을 μ˜λ―Έν•˜μ§€λŠ” μ•Šμ§€λ§Œ, μ΄λŸ¬ν•œ νŠΉμ§•μ˜ μ‘΄μž¬λŠ” μΆ”κ°€ 쑰사가 ν•„μš”ν•œ 잠재적 μœ„ν—˜μ„ λ“œλŸ¬λƒ…λ‹ˆλ‹€.

방법둠 및 κ²°κ³Ό

이 λ°©λ²•λ‘ μ—λŠ” λͺ¨λΈ ν™œμ„±ν™”λ₯Ό μ •κ·œν™”ν•œ λ‹€μŒ ν¬μ†Œ μžλ™ 인코더λ₯Ό μ‚¬μš©ν•˜μ—¬ μ΄λŸ¬ν•œ ν™œμ„±ν™”λ₯Ό κΈ°λŠ₯ λ°©ν–₯의 μ„ ν˜• μ‘°ν•©μœΌλ‘œ λΆ„ν•΄ν•˜λŠ” μž‘μ—…μ΄ ν¬ν•¨λ˜μ—ˆμŠ΅λ‹ˆλ‹€. ν›ˆλ ¨μ—λŠ” μž¬κ΅¬μ„± 였λ₯˜λ₯Ό μ΅œμ†Œν™”ν•˜κ³  L1 μ •κ·œν™”λ₯Ό 톡해 ν¬μ†Œμ„±μ„ μ μš©ν•˜λŠ” μž‘μ—…μ΄ ν¬ν•¨λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 섀정을 톡해 λͺ¨λΈ ν™œμ„±ν™”λ₯Ό 해석 κ°€λŠ₯ν•œ 쑰각으둜 λŒ€λž΅μ μœΌλ‘œ λΆ„ν•΄ν•˜λŠ” κΈ°λŠ₯을 μΆ”μΆœν•  수 μžˆμ—ˆμŠ΅λ‹ˆλ‹€.

κ²°κ³ΌλŠ” ν•΄λ‹Ή νŠΉμ§•λ“€μ΄ 해석 κ°€λŠ₯ν•  뿐만 μ•„λ‹ˆλΌ 예츑 κ°€λŠ₯ν•œ λ°©μ‹μœΌλ‘œ λͺ¨λΈ λ™μž‘μ— 영ν–₯을 λ―ΈμΉœλ‹€λŠ” 것을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, κ³¨λ“ κ²Œμ΄νŠΈ λΈŒλ¦¬μ§€μ™€ κ΄€λ ¨λœ νŠΉμ§•μ„ ν΄λž¨ν•‘ν•˜μž λͺ¨λΈμ΄ 닀리와 κ΄€λ ¨λœ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜μ—¬, νŠΉμ§•κ³Ό λͺ¨λΈ 좜λ ₯ 사이에 λͺ…ν™•ν•œ 연관성이 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

Claude 3 Sonnetμ—μ„œ κ³ ν’ˆμ§ˆ κΈ°λŠ₯ μΆ”μΆœ

Claude 3 Sonnetμ—μ„œ κ³ ν’ˆμ§ˆ νŠΉμ§• μΆ”μΆœ

κΈ°λŠ₯ 해석성 평가

κΈ°λŠ₯ 해석성은 μˆ˜λ™ 및 μžλ™ 방법을 톡해 ν‰κ°€λ˜μ—ˆμŠ΅λ‹ˆλ‹€. νŠΉμ΄μ„±μ€ κ΄€λ ¨ μ»¨ν…μŠ€νŠΈμ—μ„œ κΈ°λŠ₯이 μ–Όλ§ˆλ‚˜ μ•ˆμ •μ μœΌλ‘œ ν™œμ„±ν™”λ˜λŠ”μ§€λ‘œ μΈ‘μ •λ˜μ—ˆμœΌλ©°, κΈ°λŠ₯ ν™œμ„±ν™”μ— κ°œμž…ν•˜κ³  λͺ¨λΈ 좜λ ₯의 λ³€ν™”λ₯Ό κ΄€μ°°ν•˜μ—¬ λ™μž‘μ— λŒ€ν•œ 영ν–₯을 ν…ŒμŠ€νŠΈν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ‹€ν—˜μ€ κΈ°λŠ₯의 κ°•λ ₯ν•œ ν™œμ„±ν™”κ°€ μ˜λ„ν•œ κ°œλ…μ— 맀우 ꡬ체적이며 λͺ¨λΈ λ™μž‘μ— 큰 영ν–₯을 λ―ΈμΉœλ‹€λŠ” 것을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

ν–₯ν›„ λ°©ν–₯ 및 μ‹œμ‚¬μ 

ν¬μ†Œ μžλ™ 인코더λ₯Ό Claude 3으둜 ν™•μž₯ν•˜λŠ” 데 μ„±κ³΅ν•œ 것은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ μ΄ν•΄ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 길을 μ—΄μ—ˆμŠ΅λ‹ˆλ‹€. μœ μ‚¬ν•œ 방법을 훨씬 더 큰 λͺ¨λΈμ— μ μš©ν•˜μ—¬ 잠재적으둜 더 λ³΅μž‘ν•˜κ³  좔상적인 κΈ°λŠ₯을 λ°œκ²¬ν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€. λ˜ν•œ μ•ˆμ „ κ΄€λ ¨ κΈ°λŠ₯의 식별은 잠재적 μœ„ν—˜μ„ μ™„ν™”ν•˜κΈ° μœ„ν•œ λͺ¨λΈ 해석 κ°€λŠ₯성에 λŒ€ν•œ 지속적인 μ—°κ΅¬μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.

κ²°λ‘ 

ν¬μ†Œ μžλ™ 인코더λ₯Ό GPT-4 및 Claude 3κ³Ό 같은 λͺ¨λΈλ‘œ ν™•μž₯ν•˜λŠ” 기술의 λ°œμ „μ€ λ³΅μž‘ν•œ 신경망에 λŒ€ν•œ 이해λ₯Ό ν˜μ‹ ν•  수 μžˆλŠ” μ΄λŸ¬ν•œ 기술의 잠재λ ₯을 κ°•μ‘°ν•©λ‹ˆλ‹€. μš°λ¦¬κ°€ μ΄λŸ¬ν•œ 방법을 계속 κ°œλ°œν•˜κ³  κ°œμ„ ν•¨μ— 따라 얻은 톡찰λ ₯은 AI μ‹œμŠ€ν…œμ˜ μ•ˆμ „μ„±, μ‹ λ’°μ„± 및 신뒰성을 보μž₯ν•˜λŠ” 데 맀우 μ€‘μš”ν•  κ²ƒμž…λ‹ˆλ‹€.

μ €λŠ” μ§€λ‚œ 50λ…„ λ™μ•ˆ 기계 ν•™μŠ΅κ³Ό λ”₯ λŸ¬λ‹μ˜ 맀혹적인 세계에 λͺ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€. μ €μ˜ μ—΄μ •κ³Ό μ „λ¬Έ ​​지식은 특히 AI/ML에 쀑점을 λ‘” XNUMX개 μ΄μƒμ˜ λ‹€μ–‘ν•œ μ†Œν”„νŠΈμ›¨μ–΄ μ—”μ§€λ‹ˆμ–΄λ§ ν”„λ‘œμ νŠΈμ— κΈ°μ—¬ν•˜λ„λ‘ μ΄λŒμ—ˆμŠ΅λ‹ˆλ‹€. λ‚˜μ˜ κ³„μ†λ˜λŠ” ν˜ΈκΈ°μ‹¬μ€ λ˜ν•œ λ‚΄κ°€ 더 νƒκ΅¬ν•˜κ³  싢은 뢄야인 μžμ—°μ–΄ 처리둜 λ‚˜λ₯Ό μ΄λŒμ—ˆμŠ΅λ‹ˆλ‹€.