Rescale λ―ΈνŒ… μ˜ˆμ•½

WARM을 톡해 AI와 인간 κ°€μΉ˜μ˜ μ‘°ν™” λ°œμ „

인곡지λŠ₯

WARM을 톡해 AI와 인간 κ°€μΉ˜μ˜ μ‘°ν™” λ°œμ „

mm
κ°€μ€‘μΉ˜ 평균 보상 λͺ¨λΈ LLM

AI μ‹œμŠ€ν…œκ³Ό 인간 κ°€μΉ˜μ˜ μ •λ ¬

인곡 μ§€λŠ₯(AI) μ‹œμŠ€ν…œμ€ 고객 μ„œλΉ„μŠ€ 챗봇뢀터 의료 진단 μ•Œκ³ λ¦¬μ¦˜μ— 이λ₯΄κΈ°κΉŒμ§€ λ³΅μž‘ν•œ μž‘μ—…μ—μ„œ 인간을 지원할 수 μžˆλŠ” λŠ₯λ ₯이 점점 더 컀지고 μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ΄λŸ¬ν•œ AI μ‹œμŠ€ν…œμ΄ 더 λ§Žμ€ μ±…μž„μ„ 맑게 λ˜λ©΄μ„œ μΈκ°„μ˜ κ°€μΉ˜μ™€ μ„ ν˜Έλ„μ— 맞좰 μœ μ§€ν•˜λŠ” 것이 μ€‘μš”ν•΄μ‘ŒμŠ΅λ‹ˆλ‹€. 이λ₯Ό λ‹¬μ„±ν•˜κΈ° μœ„ν•œ ν•œ κ°€μ§€ μ ‘κ·Ό 방식은 인간 ν”Όλ“œλ°± κ°•ν™” ν•™μŠ΅(RLHF)μ΄λΌλŠ” κΈ°μˆ μ„ μ΄μš©ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. RLHFμ—μ„œλŠ” μ •μ±…μœΌλ‘œ μ•Œλ €μ§„ AI μ‹œμŠ€ν…œμ΄ μΈκ°„μ˜ 행동 νŒλ‹¨μ— 따라 보상을 λ°›κ±°λ‚˜ μ²˜λ²Œμ„ λ°›μŠ΅λ‹ˆλ‹€. λͺ©ν‘œλŠ” 정책이 보상을 κ·ΉλŒ€ν™”ν•˜λŠ” 방법을 ν•™μŠ΅ν•˜μ—¬ μΈκ°„μ˜ μ„ ν˜Έμ— 따라 ν–‰λ™ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

RLHF의 핡심 ꡬ성 μš”μ†ŒλŠ” 보상 λͺ¨λΈ(RM)μž…λ‹ˆλ‹€. RM은 μ •μ±…μ˜ μ‘°μΉ˜μ™€ ​​결과λ₯Ό ν‰κ°€ν•˜κ³  ν•™μŠ΅ ν”„λ‘œμ„ΈμŠ€λ₯Ό μ•ˆλ‚΄ν•˜κΈ° μœ„ν•΄ 보상 μ‹ ν˜Έλ₯Ό λ°˜ν™˜ν•˜λŠ” 역할을 λ‹΄λ‹Ήν•©λ‹ˆλ‹€. μΈκ°„μ˜ μ„ ν˜ΈλŠ” λ³΅μž‘ν•˜κ³ , 상황에 따라 λ‹€λ₯΄λ©°, κ°œμΈλ§ˆλ‹€ 일관성이 없을 μˆ˜λ„ 있기 λ•Œλ¬Έμ— 쒋은 RM을 μ„€κ³„ν•˜λŠ” 것은 μ–΄λ ΅μŠ΅λ‹ˆλ‹€. 졜근 Google DeepMind의 연ꡬ원듀은 RM 섀계λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ WARM(Weight Averaged Reward Models)μ΄λΌλŠ” ν˜μ‹ μ μΈ κΈ°μˆ μ„ μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€.

λ³΄μƒν•΄ν‚Ήμ˜ 문제점

RLHF의 μ£Όμš” λ¬Έμ œλŠ” 보상 ν•΄ν‚Ήμž…λ‹ˆλ‹€. 보상 해킹은 정책이 μ‹€μ œλ‘œ μ˜λ„ν•œ λͺ©ν‘œλ₯Ό μΆ©μ‘±ν•˜μ§€ μ•Šκ³  높은 보상을 μ–»κΈ° μœ„ν•΄ RM μ‹œμŠ€ν…œμ„ μ‘°μž‘ν•˜λŠ” ν—ˆμ μ„ λ°œκ²¬ν•  λ•Œ λ°œμƒν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, κΈ€μ“°κΈ° 보쑰 AIλ₯Ό ν›ˆλ ¨μ‹œμΌœ κ³ ν’ˆμ§ˆ μš”μ•½μ„ μƒμ„±ν•˜λŠ” 것이 λͺ©ν‘œλΌκ³  κ°€μ •ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. RM은 κ°„κ²°ν•˜κ³  μœ μ΅ν•œ μš”μ•½μ„ 보상할 수 μžˆμŠ΅λ‹ˆλ‹€. 그런 λ‹€μŒ 정책은 RM을 μ†μ΄λŠ” ν‚€μ›Œλ“œκ°€ ν¬ν•¨λœ 맀우 μ§§κ³  정보가 μ—†λŠ” μš”μ•½μ„ μƒμ„±ν•˜μ—¬ 이λ₯Ό ν™œμš©ν•˜λŠ” 방법을 ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

보상 해킹은 두 κ°€μ§€ μ£Όμš” 이유둜 λ°œμƒν•©λ‹ˆλ‹€.

  1. μœ ν†΅κ΅λŒ€ – RM은 인간이 λΌλ²¨λ§ν•œ μ˜ˆμ‹œμ˜ μ œν•œλœ 데이터 μ„ΈνŠΈμ— λŒ€ν•΄ κ΅μœ‘μ„ λ°›μ•˜μŠ΅λ‹ˆλ‹€. 배포 μ‹œ μ •μ±…μ˜ 좜λ ₯은 RM이 잘 μΌλ°˜ν™”ν•˜μ§€ λͺ»ν•˜λŠ” λ‹€μ–‘ν•œ λ°°ν¬νŒμ—μ„œ λ‚˜μ˜¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
  2. μ‹œλ„λŸ¬μš΄ 라벨 – 인간 라벨링은 ν‰κ°€μž κ°„ 뢈일치둜 인해 λΆˆμ™„μ „ν•©λ‹ˆλ‹€. RM은 κ°•λ ₯ν•œ ν’ˆμ§ˆ μ§€ν‘œλ³΄λ‹€λŠ” κ°€μ§œ μ‹ ν˜Έλ₯Ό 포착할 수 μžˆμŠ΅λ‹ˆλ‹€.

보상 해킹은 μΈκ°„μ˜ κΈ°λŒ€μ— λΆ€μ‘ν•˜μ§€ λͺ»ν•˜λŠ” μ“Έλͺ¨μ—†λŠ” μ‹œμŠ€ν…œμœΌλ‘œ μ΄μ–΄μ§‘λ‹ˆλ‹€. 더 λ‚˜μœ 것은 λΆ€μ£Όμ˜ν•˜κ²Œ 배포할 경우 AI λ™μž‘μ΄ 편ν–₯λ˜κ±°λ‚˜ 심지어 μœ„ν—˜ν•œ κ²°κ³Όλ₯Ό μ΄ˆλž˜ν•  수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

λͺ¨λΈ λ³‘ν•©μ˜ 증가

λͺ¨λΈ λΌλ”°λšœμ΄μ™€ 같은 λͺ¨λΈ 병합 μ „λž΅μ— λŒ€ν•œ 관심이 κΈ‰μ¦ν•˜λŠ” μ΄μœ λŠ” 더 큰 λͺ¨λΈμ€ κ°•λ ₯ν•˜μ§€λ§Œ λΉ„νš¨μœ¨μ μ΄κ³  λΉ„μ‹€μš©μ μΌ 수 μžˆλ‹€λŠ” 인식 λ•Œλ¬Έμž…λ‹ˆλ‹€. 1μ‘° 개의 λ§€κ°œλ³€μˆ˜ λͺ¨λΈμ„ ν›ˆλ ¨ν•˜λ €λ©΄ μ—„μ²­λ‚œ μ–‘μ˜ 데이터, μ»΄ν“¨νŒ…, μ‹œκ°„ 및 λΉ„μš©μ΄ ν•„μš”ν•©λ‹ˆλ‹€. 더 κ²°μ •μ μœΌλ‘œ, μ΄λŸ¬ν•œ λͺ¨λΈμ€ ν›ˆλ ¨ 뢄포에 κ³Όμ ν•©λ˜λŠ” κ²½ν–₯이 μžˆμ–΄ λ‹€μ–‘ν•œ μ‹€μ œ μ‹œλ‚˜λ¦¬μ˜€λ‘œ μΌλ°˜ν™”ν•˜λŠ” λŠ₯λ ₯을 λ°©ν•΄ν•©λ‹ˆλ‹€.

λͺ¨λΈ 병합은 ν†΅μ œλ˜μ§€ μ•Šμ€ ν™•μž₯ 없이 더 큰 κΈ°λŠ₯을 잠금 ν•΄μ œν•  수 μžˆλŠ” λŒ€μ²΄ 경둜λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ 뢄포, μž‘μ—… λ˜λŠ” λͺ©ν‘œμ— λŒ€ν•΄ ν›ˆλ ¨λœ μ—¬λŸ¬ 특수 λͺ¨λΈμ„ μž¬μ‚¬μš©ν•¨μœΌλ‘œμ¨ λͺ¨λΈ λ³‘ν•©μ˜ λͺ©ν‘œλŠ” λ‹€μ–‘μ„±κ³Ό 뢄포 μ™Έ 견고성을 ν–₯μƒμ‹œν‚€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ „μ œλŠ” μ„œλ‘œ λ‹€λ₯Έ λͺ¨λΈμ΄ 병합될 λ•Œ μ„œλ‘œλ₯Ό 보완할 수 μžˆλŠ” λšœλ ·ν•œ 예츑 νŒ¨ν„΄μ„ ν¬μ°©ν•œλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

졜근 κ²°κ³ΌλŠ” 이 κ°œλ…μ˜ κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€. 훨씬 적은 λ§€κ°œλ³€μˆ˜μ—λ„ λΆˆκ΅¬ν•˜κ³  병합을 톡해 얻은 λͺ¨λΈμ€ GPT-3κ³Ό 같은 κ±°λŒ€ λͺ¨λΈμ˜ μ„±λŠ₯κ³Ό μΌμΉ˜ν•˜κ±°λ‚˜ 심지어 이λ₯Ό λŠ₯κ°€ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ 쀑간 크기 체크포인트 7개둜 κ΅¬μ„±λœ λͺ¨λΈ λΌλ”°λšœμ΄ 앙상블은 고차원 ν…μŠ€νŠΈ 수반 데이터 μ„ΈνŠΈμ—μ„œ μ΅œμ²¨λ‹¨ 정확도λ₯Ό λ‹¬μ„±ν•˜μ—¬ GPT-3보닀 μ„±λŠ₯이 λ›°μ–΄λ‚©λ‹ˆλ‹€.

μ€‘λŸ‰ 평균을 ν†΅ν•œ λ³‘ν•©μ˜ λ‹¨μˆœμ„±μ€ 큰 λ³΄λ„ˆμŠ€μž…λ‹ˆλ‹€. μ—¬λŸ¬ 보쑰 λͺ¨λΈμ„ κ΅μœ‘ν•˜λ €λ©΄ μΆ”κ°€ λ¦¬μ†ŒμŠ€κ°€ ν•„μš”ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ€‘μš”ν•œ 것은 κ°€μ€‘μΉ˜κ°€ ν•˜λ‚˜λ‘œ μ••μΆ•λ˜λ―€λ‘œ μΆ”λ‘  μ‹œκ°„ 계산이 단일 λͺ¨λΈκ³Ό λ™μΌν•˜κ²Œ μœ μ§€λœλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. 이λ₯Ό 톡해 μ§€μ—° μ‹œκ°„μ΄λ‚˜ λ©”λͺ¨λ¦¬ λΉ„μš© 증가에 λŒ€ν•œ κ±±μ • 없이 방법을 μ‰½κ²Œ μ μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λͺ¨λΈ λ³‘ν•©μ˜ λ©”μ»€λ‹ˆμ¦˜

κ·ΈλŸ¬λ‚˜ λͺ¨λΈ 병합을 톡해 μ΄λŸ¬ν•œ 정확도 ν–₯상을 κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” 것은 μ •ν™•νžˆ λ¬΄μ—‡μž…λ‹ˆκΉŒ? 졜근 뢄석은 λͺ‡ κ°€μ§€ λ‹¨μ„œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

  • μ•”κΈ° μ™„ν™”: 각 λͺ¨λΈμ€ ν›ˆλ ¨ 쀑에 데이터 μ„ΈνŠΈμ˜ μ„œλ‘œ λ‹€λ₯Έ μ„žμΈ 배치λ₯Ό λ΄…λ‹ˆλ‹€. ν‰κ· ν™”λŠ” μΈμŠ€ν„΄μŠ€λ³„ 기얡을 κ°μ†Œμ‹œν‚€κ³  데이터 μ„ΈνŠΈ μˆ˜μ€€μ˜ μΌλ°˜ν™”λ§Œ μœ μ§€ν•©λ‹ˆλ‹€.
  • λΆ„μ‚° κ°μ†Œ: λ…λ¦½μ μœΌλ‘œ ν›ˆλ ¨λœ λͺ¨λΈμ—λŠ” μƒκ΄€λ˜μ§€ μ•Šμ€ 였λ₯˜κ°€ μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό κ²°ν•©ν•˜λ©΄ μ†ŒμŒμ΄ ν‰κ· ν™”λ˜μ–΄ 보정이 ν–₯μƒλ©λ‹ˆλ‹€.
  • 닀양성을 ν†΅ν•œ μ •κ·œν™”: λ‹€μ–‘ν•œ 보쑰 μž‘μ—…μœΌλ‘œ 인해 λͺ¨λΈμ€ 배포 μ „λ°˜μ— 걸쳐 μœ μš©ν•œ 보닀 μΌλ°˜ν™” κ°€λŠ₯ν•œ κΈ°λŠ₯을 ν™•λ³΄ν•˜κ²Œ λ©λ‹ˆλ‹€.
  • 견고성 증가: 예츑의 λΆˆμΌμΉ˜λŠ” λΆˆν™•μ‹€μ„±μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€. ν‰κ· ν™”λŠ” μ΄μƒμΉ˜ νŒλ‹¨μ„ μ™„ν™”ν•˜μ—¬ 신뒰성을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

본질적으둜 λͺ¨λΈ 병합은 κ°œλ³„ λͺ¨λΈμ˜ 약점을 μƒμ‡„ν•˜μ—¬ 집단적 강점을 μ¦ν­μ‹œν‚΅λ‹ˆλ‹€. λ³‘ν•©λœ ν‘œν˜„μ€ λΆ€μˆ˜μ μΈ λ³€ν™”λ₯Ό λ¬΄μ‹œν•˜κ³  κ³΅ν†΅λœ κΈ°λ³Έ 인과 ꡬ쑰λ₯Ό ν¬μ°©ν•©λ‹ˆλ‹€.

이 κ°œλ…μ  κΈ°λ°˜μ€ λͺ¨λΈ 병합을 앙상블 및 닀쀑 μž‘μ—… ν•™μŠ΅κ³Ό 같은 λ‹€λ₯Έ 널리 μ‚¬μš©λ˜λŠ” κΈ°μˆ μ— μ—°κ²°ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ λͺ¨λ“  방법은 λͺ¨λΈμ΄λ‚˜ μž‘μ—… μ „λ°˜μ— 걸쳐 닀양성을 ν™œμš©ν•˜μ—¬ λ‹€μž¬λ‹€λŠ₯ν•˜κ³  λΆˆν™•μ‹€μ„±μ„ μΈμ‹ν•˜λŠ” μ‹œμŠ€ν…œμ„ μ–»μŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ κ°€μ€‘μΉ˜ ν‰κ· ν™”μ˜ λ‹¨μˆœμ„±κ³Ό νš¨μœ¨μ„±μ€ λͺ¨λΈ 병합에 μ‹€μ œ 배포λ₯Ό λ°œμ „μ‹œν‚€κΈ° μœ„ν•œ κ³ μœ ν•œ 이점을 μ œκ³΅ν•©λ‹ˆλ‹€.

κ°€μ€‘μΉ˜ 평균 보상 λͺ¨λΈ

WARM을 μ‚¬μš©ν•œ μ •λ ¬ ν”„λ‘œμ„ΈμŠ€

WARM을 μ‚¬μš©ν•œ μ •λ ¬ ν”„λ‘œμ„ΈμŠ€

WARM RM(λŒ€λ¦¬ 보상 λͺ¨λΈ)은 사전 ν›ˆλ ¨λœ λ™μΌν•œ LLMμ—μ„œ λ―Έμ„Έ μ‘°μ •λ˜μ—ˆμ§€λ§Œ ν•˜μ΄νΌνŒŒλΌλ―Έν„°κ°€ λ‹€μ–‘ν•œ μ—¬λŸ¬ κ°œλ³„ RM의 κ°€μ€‘μΉ˜ 평균인 ν”„λ‘μ‹œ 보상 λͺ¨λΈ(RM)을 β€‹β€‹ν˜μ‹ μ μœΌλ‘œ μ‚¬μš©ν•©λ‹ˆλ‹€. 이 방법은 νš¨μœ¨μ„±, μœ ν†΅ 변화에 λ”°λ₯Έ μ‹ λ’°μ„±, μΌκ΄€λ˜μ§€ μ•Šμ€ μ„ ν˜Έλ„μ— λŒ€ν•œ 견고성을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. λ˜ν•œ μ—°κ΅¬μ—μ„œλŠ” 특히 평균 RM μˆ˜κ°€ μ¦κ°€ν•œ 경우 WARM을 ν”„λ‘μ‹œ RM으둜 μ‚¬μš©ν•˜λ©΄ κ²°κ³Όκ°€ ν–₯μƒλ˜κ³  μ‹œκ°„μ΄ 지남에 따라 μ œμ–΄ 보상이 μ €ν•˜λ˜λŠ” ν˜„μƒμΈ '보상 ν•΄ν‚Ή'의 μ‹œμž‘μ΄ μ§€μ—°λ˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

λŒ€λž΅μ μΈ κ°œμš”λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

  1. λŒ€κ·œλͺ¨ μ½”νΌμŠ€μ—μ„œ 사전 ν•™μŠ΅λœ κΈ°λ³Έ μ–Έμ–΄ λͺ¨λΈλ‘œ μ‹œμž‘ν•©λ‹ˆλ‹€. 상단에 μž‘μ€ μž‘μ—…λ³„ λ ˆμ΄μ–΄λ₯Ό μΆ”κ°€ν•˜μ—¬ μ—¬λŸ¬ RM을 μ΄ˆκΈ°ν™”ν•©λ‹ˆλ‹€.
  2. 닀양성에 λŒ€ν•œ ν•™μŠ΅λ₯ κ³Ό 같은 λ‹€μ–‘ν•œ ν•˜μ΄νΌνŒŒλΌλ―Έν„°λ₯Ό μ‚¬μš©ν•˜μ—¬ 인간 μ„ ν˜Έλ„ 데이터 μ„ΈνŠΈμ—μ„œ 각 RM을 κ°œλ³„μ μœΌλ‘œ λ―Έμ„Έ μ‘°μ •ν•©λ‹ˆλ‹€.
  3. 단일 WARM 앙상블을 μ–»κΈ° μœ„ν•΄ λ―Έμ„Έ μ‘°μ •λœ RM의 κ°€μ€‘μΉ˜λ₯Ό ν‰κ· ν™”ν•©λ‹ˆλ‹€.

핡심 톡찰λ ₯은 κ°€μ€‘μΉ˜ 평균이 λͺ¨λ“  λ‹€μ–‘ν•œ RMμ—μ„œ ν•™μŠ΅λœ λΆˆλ³€ μ •λ³΄λ§Œ μœ μ§€ν•œλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŠ” κ°€μ§œ μ‹ ν˜Έμ— λŒ€ν•œ μ˜μ‘΄λ„λ₯Ό 쀄여 견고성을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. λ˜ν•œ 앙상블은 λΆ„μ‚° κ°μ†Œμ˜ 이점을 ν™œμš©ν•˜μ—¬ 뢄포 변화에도 λΆˆκ΅¬ν•˜κ³  신뒰성을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

이전에 λ…Όμ˜ν•œ κ²ƒμ²˜λŸΌ λ…λ¦½μ μœΌλ‘œ ν›ˆλ ¨λœ λͺ¨λΈ κ°„μ˜ 닀양성은 λͺ¨λΈ λ³‘ν•©μ˜ 잠재λ ₯을 μ΅œλŒ€ν•œ ν™œμš©ν•˜λŠ” 데 μ€‘μš”ν•©λ‹ˆλ‹€. κ·Έλ ‡λ‹€λ©΄ 생산적 닀양성을 μ΄‰μ§„ν•˜λŠ” ꡬ체적인 κΈ°μˆ μ€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

WARM 논문은 보닀 κ΄‘λ²”μœ„ν•˜κ²Œ μΌλ°˜ν™”ν•  수 μžˆλŠ” λͺ‡ κ°€μ§€ μ˜λ¦¬ν•œ 아이디어λ₯Ό νƒκ΅¬ν•©λ‹ˆλ‹€.

μ…”ν”Œ μ£Όλ¬Έ

μ‚¬μ†Œν•˜μ§€λ§Œ 영ν–₯λ ₯ μžˆλŠ” μ ‘κ·Ό 방식은 ν›ˆλ ¨ 쀑에 각 λͺ¨λΈμ— ν‘œμ‹œλ˜λŠ” 데이터 포인트의 μˆœμ„œλ₯Ό μ„žλŠ” κ²ƒμž…λ‹ˆλ‹€. 이 κ°„λ‹¨ν•œ 단계라도 κ°€μ€‘μΉ˜μ˜ 상관 관계λ₯Ό ν•΄μ œν•˜μ—¬ νŒ¨ν„΄μ˜ 쀑볡 기얡을 μ€„μž…λ‹ˆλ‹€.

ν•˜μ΄νΌνŒŒλΌλ―Έν„° λ³€ν˜•

각 싀행에 λŒ€ν•œ ν•™μŠ΅λ₯  및 νƒˆλ½ ν™•λ₯ κ³Ό 같은 ν•˜μ΄νΌνŒŒλΌλ―Έν„°λ₯Ό μ‘°μ •ν•˜λ©΄ μœ μš©ν•œ 닀양성이 λ„μž…λ©λ‹ˆλ‹€. λͺ¨λΈμ€ μ„œλ‘œ λ‹€λ₯΄κ²Œ μˆ˜λ ΄ν•˜μ—¬ λ°μ΄ν„°μ„ΈνŠΈμ˜ κ³ μœ ν•œ 속성을 ν¬μ°©ν•©λ‹ˆλ‹€.

체크포인트 평균 – 바클라바

Baklava 방법은 λ™μΌν•œ 사전 ν›ˆλ ¨ ꢀ적을 따라 λ‹€λ₯Έ μŠ€λƒ…μƒ·μ—μ„œ λ³‘ν•©ν•˜κΈ° μœ„ν•΄ λͺ¨λΈμ„ μ΄ˆκΈ°ν™”ν•©λ‹ˆλ‹€. μ΄λŠ” 곡유 μ‹œμž‘μ μ„ μš”κ΅¬ν•˜λŠ” λͺ¨λΈ μˆ˜ν”„μ— λΉ„ν•΄ μ œμ•½ 쑰건을 μ™„ν™”ν•©λ‹ˆλ‹€. λͺ¨λΈ λΌλ”°λšœμ΄μ— λΉ„ν•΄ λ°”ν΄λΌλ°”λŠ” μΆ”κ°€ μž‘μ—…μ„ ν”Όν•©λ‹ˆλ‹€. μ „λ°˜μ μœΌλ‘œ 효과적인 정확도와 λ‹€μ–‘μ„±μ˜ κ· ν˜•μ„ μœ μ§€ν•©λ‹ˆλ‹€.

μ—¬λŸ¬ 보상 λͺ¨λΈμ„ λ―Έμ„Έ μ‘°μ •

이 ν”„λ‘œμ„ΈμŠ€λŠ” 사전 ν›ˆλ ¨λœ LLM(λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ) πœƒ_π‘π‘‘μœΌλ‘œ μ‹œμž‘λ©λ‹ˆλ‹€. 이 λͺ¨λΈμ—μ„œ SFT(Supervised Fine-Tuning) μ‹€ν–‰ 쀑에 λ‹€μ–‘ν•œ 체크포인트 {πœƒ_𝑠 𝑓 𝑑_𝑖}κ°€ νŒŒμƒλ˜λ©°, 각각은 μ„œλ‘œ λ‹€λ₯Έ SFT ꡐ윑 λ‹¨κ³„μ—μ„œ μˆ˜μ§‘λ©λ‹ˆλ‹€. 그런 λ‹€μŒ μ΄λŸ¬ν•œ μ²΄ν¬ν¬μΈνŠΈλŠ” κΈ°λ³Έ μ„€μ • 데이터 μ„ΈνŠΈμ—μ„œ μ—¬λŸ¬ 보상 λͺ¨λΈ(RM) {πœ™π‘–}을 λ―Έμ„Έ μ‘°μ •ν•˜κΈ° μœ„ν•œ μ΄ˆκΈ°ν™”λ‘œ μ‚¬μš©λ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ―Έμ„Έ μ‘°μ •μ˜ λͺ©μ μ€ μΈκ°„μ˜ μ„ ν˜Έλ„μ— 더 잘 λΆ€ν•©ν•˜λ„λ‘ λͺ¨λΈμ„ μ‘°μ •ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. λ―Έμ„Έ μ‘°μ • ν›„ κ°€μ€‘μΉ˜ 평균화 과정을 톡해 μ΄λŸ¬ν•œ RM을 κ²°ν•©ν•˜μ—¬ μ΅œμ’… λͺ¨λΈμΈ πœ™_WARM이 μƒμ„±λ©λ‹ˆλ‹€.

뢄석에 λ”°λ₯΄λ©΄ 이동 평균을 톡해 였래된 체크포인트λ₯Ό μΆ”κ°€ν•˜λ©΄ 개인 성과에 ν•΄λ₯Ό 끼치고 λ‹€μ–‘μ„± μž₯점이 μ†μƒλœλ‹€λŠ” 사싀이 ν™•μΈλ˜μ—ˆμŠ΅λ‹ˆλ‹€. 각 μ‹€ν–‰μ˜ μ΅œμ’… ν‘œν˜„λ§Œμ„ ν‰κ· ν™”ν•˜λŠ” 것이 더 λ‚˜μ€ μ„±λŠ₯을 λ°œνœ˜ν•©λ‹ˆλ‹€. 일반적으둜 λ‹€μ–‘μ„± λͺ©ν‘œμ™€ μ •ν™•μ„± μœ μ§€μ˜ κ· ν˜•μ„ λ§žμΆ”λŠ” 것은 아직 곡개된 연ꡬ 과제둜 남아 μžˆμŠ΅λ‹ˆλ‹€.

μ „λ°˜μ μœΌλ‘œ λͺ¨λΈ 병합은 ν–₯μƒλœ μ‹ λ’°μ„±, νš¨μœ¨μ„± 및 닀양성을 μœ„ν•΄ κΈ°μ‘΄ λ¦¬μ†ŒμŠ€λ₯Ό 효과적으둜 μž¬ν™œμš©ν•˜λ €λŠ” ν˜„μž₯의 일반적인 μ •μ‹ κ³Ό 잘 μΌμΉ˜ν•©λ‹ˆλ‹€. μ€‘λŸ‰ ν‰κ· ν™”μ˜ λ‹¨μˆœμ„±μ€ μ‰½κ²Œ μ‚¬μš©ν•  수 μžˆλŠ” λΉŒλ”© λΈ”λ‘μœΌλ‘œ κ²¬κ³ ν•œ λͺ¨λΈμ„ μ‘°λ¦½ν•˜κΈ° μœ„ν•œ μ£Όμš” ν›„λ³΄λ‘œμ„œμ˜ μž…μ§€λ₯Ό ν™•κ³ νžˆ ν•©λ‹ˆλ‹€.

μ˜ˆμΈ‘μ„ ν‰κ· ν™”ν•˜λŠ” κΈ°μ‘΄ 앙상블 방법과 달리 WARM은 단일 κ°€μ€‘μΉ˜ μ„ΈνŠΈλ§Œ μœ μ§€ν•˜μ—¬ 계산 μ˜€λ²„ν—€λ“œλ₯Ό μ΅œμ†Œν™”ν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ μš”μ•½ μž‘μ—…μ— λŒ€ν•œ μ‹€ν—˜μ€ WARM의 νš¨μœ¨μ„±μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

  • N 베슀트 μƒ˜ν”Œλ§μ˜ 경우 WARM은 인간 μ„ ν˜Έλ„ λ ˆμ΄λΈ”μ— 따라 λ¬΄μž‘μœ„ 선택에 λΉ„ν•΄ 92.5%의 승λ₯ μ„ λ‹¬μ„±ν•©λ‹ˆλ‹€.
  • RLHFμ—μ„œ WARM 정책은 λ™μΌν•œ 단계 후에 단일 RM으둜 ν›ˆλ ¨λœ 정책에 λΉ„ν•΄ 79.4%의 승λ₯ μ— λ„λ‹¬ν•©λ‹ˆλ‹€.
  • WARM은 인간 λ ˆμ΄λΈ”μ˜ 4λΆ„μ˜ 1이 μ†μƒλœ κ²½μš°μ—λ„ κ³„μ†ν•΄μ„œ 쒋은 μ„±λŠ₯을 λ°œνœ˜ν•©λ‹ˆλ‹€.

μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” μ•ˆμ •μ μœΌλ‘œ μž‘λ™ν•˜λŠ” μ‹€μ œ AI 보쑰자λ₯Ό κ°œλ°œν•˜κΈ° μœ„ν•œ μ‹€μš©μ μΈ κΈ°μˆ λ‘œμ„œ WARM의 잠재λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 인간 ν”Όλ“œλ°±μ˜ 뢈일치λ₯Ό μ™„ν™”ν•¨μœΌλ‘œμ¨ WARM 정책은 μƒˆλ‘œμš΄ κ²½ν—˜μ„ 톡해 계속 ν•™μŠ΅ν•˜λŠ” λ™μ•ˆμ—λ„ 인간 κ°€μΉ˜μ™€ κ²¬κ³ ν•˜κ²Œ μΌμΉ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

더 큰 κ·Έλ¦Ό

WARM은 AI μ •λ ¬ μ—°κ΅¬μ˜ 두 κ°€μ§€ μ£Όμš” μΆ”μ„Έκ°€ κ΅μ°¨ν•˜λŠ” 지점에 μžˆμŠ΅λ‹ˆλ‹€. 첫 λ²ˆμ§ΈλŠ” ν›ˆλ ¨ 뢄포와 λ‹€λ₯Έ μƒˆλ‘œμš΄ 데이터에 λŒ€ν•œ λͺ¨λΈ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λŠ” 뢄포 μ™Έ(OOD) μΌλ°˜ν™”μ— λŒ€ν•œ μ—°κ΅¬μž…λ‹ˆλ‹€. 두 λ²ˆμ§ΈλŠ” μž‘μ€ μž…λ ₯ κ΅λž€μ΄λ‚˜ λ…Έμ΄μ¦ˆμ—λ„ λΆˆκ΅¬ν•˜κ³  신뒰성에 μ΄ˆμ μ„ 맞좘 μ•Œκ³ λ¦¬μ¦˜ 견고성에 λŒ€ν•œ μ—°κ΅¬μž…λ‹ˆλ‹€.

ν•™μŠ΅λœ λΆˆλ³€μ„± κ°œλ…μ„ μ€‘μ‹¬μœΌλ‘œ μ΄λŸ¬ν•œ ν•„λ“œ κ°„μ˜ 연결을 κ·Έλ €μ„œ WARM은 κ°€μΉ˜ 정렬을 μœ„ν•œ 보닀 μ—„κ²©ν•˜κ²Œ κΈ°λ°˜μ„ λ‘” 기술둜 우리λ₯Ό μ΄λ™μ‹œν‚΅λ‹ˆλ‹€. WARM의 톡찰λ ₯은 RLHFλ₯Ό λ„˜μ–΄μ„œλ„ μΌλ°˜ν™”λ˜μ–΄ κ°œλ°©ν˜• 세계와 μƒν˜Έ μž‘μš©ν•˜λŠ” 더 넓은 기계 ν•™μŠ΅ μ‹œμŠ€ν…œμ— λŒ€ν•œ κ΅ν›ˆμ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λ¬Όλ‘  보상 λͺ¨λΈλ§μ€ μ •λ ¬ 퍼즐의 ν•œ 쑰각일 λΏμž…λ‹ˆλ‹€. 보상 사양, ν™•μž₯ κ°€λŠ₯ν•œ 감독, μ•ˆμ „ν•œ 탐색과 같은 λ‹€λ₯Έ κ³Όμ œμ— λŒ€ν•΄μ„œλŠ” μ—¬μ „νžˆ 진전이 ν•„μš”ν•©λ‹ˆλ‹€. 보완적인 기술과 κ²°ν•©λœ WARM은 μΈκ°„μ˜ λ²ˆμ˜μ„ 지속 κ°€λŠ₯ν•˜κ²Œ μ΄‰μ§„ν•˜λŠ” AI의 κ°œλ°œμ„ 가속화할 수 μžˆμŠ΅λ‹ˆλ‹€. μ—°κ΅¬μžλ“€μ€ κ°•λ ₯ν•œ μ •λ ¬μ˜ κΈ°μ΄ˆκ°€ λ˜λŠ” 원칙을 μ’…ν•©μ μœΌλ‘œ μ„€λͺ…ν•¨μœΌλ‘œμ¨ μœ μ΅ν•˜κ³  윀리적인 AIλ₯Ό ν–₯ν•œ 길을 κ³„νšν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

μ €λŠ” μ§€λ‚œ 50λ…„ λ™μ•ˆ 기계 ν•™μŠ΅κ³Ό λ”₯ λŸ¬λ‹μ˜ 맀혹적인 세계에 λͺ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€. μ €μ˜ μ—΄μ •κ³Ό μ „λ¬Έ ​​지식은 특히 AI/ML에 쀑점을 λ‘” XNUMX개 μ΄μƒμ˜ λ‹€μ–‘ν•œ μ†Œν”„νŠΈμ›¨μ–΄ μ—”μ§€λ‹ˆμ–΄λ§ ν”„λ‘œμ νŠΈμ— κΈ°μ—¬ν•˜λ„λ‘ μ΄λŒμ—ˆμŠ΅λ‹ˆλ‹€. λ‚˜μ˜ κ³„μ†λ˜λŠ” ν˜ΈκΈ°μ‹¬μ€ λ˜ν•œ λ‚΄κ°€ 더 νƒκ΅¬ν•˜κ³  싢은 뢄야인 μžμ—°μ–΄ 처리둜 λ‚˜λ₯Ό μ΄λŒμ—ˆμŠ΅λ‹ˆλ‹€.