Rescale λ―ΈνŒ… μ˜ˆμ•½

MiniGPT-5: 생성 보켄(Generative Voken)을 ν†΅ν•œ μΈν„°λ¦¬λΈŒ λΉ„μ „ 및 μ–Έμ–΄ 생성

인곡지λŠ₯

MiniGPT-5: 생성 보켄(Generative Voken)을 ν†΅ν•œ μΈν„°λ¦¬λΈŒ λΉ„μ „ 및 μ–Έμ–΄ 생성

mm

μ§€λ‚œ λͺ‡ λ…„ λ™μ•ˆ LLM(λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ)은 NLP(μžμ—°μ–΄ 처리)의 획기적인 λ°œμ „μœΌλ‘œ 인해 μ „ 세계 AI κ°œλ°œμžλ“€μ˜ μ£Όλͺ©μ„ λ°›μ•„ μ™”μŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λͺ¨λΈμ€ ν…μŠ€νŠΈ 생성 및 이해에 μƒˆλ‘œμš΄ 기쀀을 μ„€μ •ν–ˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ ν…μŠ€νŠΈ μƒμ„±μ˜ λ°œμ „μ—λ„ λΆˆκ΅¬ν•˜κ³  ν…μŠ€νŠΈ λ‚΄λŸ¬ν‹°λΈŒμ™€ μΌκ΄€λ˜κ²Œ μΌμΉ˜ν•˜λŠ” 이미지λ₯Ό μƒμ„±ν•˜λŠ” 것은 μ—¬μ „νžˆ β€‹β€‹β€‹β€‹μ–΄λ €μš΄ μΌμž…λ‹ˆλ‹€. 이 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ κ°œλ°œμžλŠ” μ‘°ν™”λœ ν…μŠ€νŠΈ-이미지 좜λ ₯의 격차λ₯Ό ν•΄μ†Œν•˜λŠ” "생성 보켄"을 기반으둜 ν•˜λŠ” ν˜μ‹ μ μΈ λΉ„μ „ 및 μ–Έμ–΄ 생성 μ ‘κ·Ό 방식을 λ„μž…ν–ˆμŠ΅λ‹ˆλ‹€.

MiniGPT-5의 κΈ°λ°˜μ€ ν›ˆλ ¨ 데이터에 포괄적인 이미지 μ„€λͺ…이 ν•„μš”ν•˜μ§€ μ•Šμ€ μ„€λͺ… μ—†λŠ” 닀쀑 λͺ¨λ‹¬ 데이터 생성에 크게 μ΄ˆμ μ„ 맞좘 5단계 ν›ˆλ ¨ μ „λž΅μž…λ‹ˆλ‹€. λ˜ν•œ λͺ¨λΈμ˜ 무결성을 높이기 μœ„ν•΄ λͺ¨λΈμ—λŠ” 이미지 생성에 λŒ€ν•œ Voken의 νš¨μœ¨μ„±μ„ ν–₯μƒμ‹œν‚€λŠ” λΆ„λ₯˜μžκ°€ μ—†λŠ” μ•ˆλ‚΄ μ‹œμŠ€ν…œμ΄ ν†΅ν•©λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 초기 λ‹¨κ³„μ—μ„œ MiniGPT-XNUMX ν”„λ ˆμž„μ›Œν¬λŠ” MMDialog 데이터 μ„ΈνŠΈμ—μ„œ ν›ˆλ ¨λœ κΈ°λ³Έ Divter λͺ¨λΈμ— λΉ„ν•΄ κ°•λ ₯ν•œ μ„±λŠ₯κ³Ό μƒλ‹Ήν•œ κ°œμ„ μ„ λ³΄μ—¬μ£Όμ—ˆμœΌλ©° μˆ˜ν–‰λœ 인간 ν‰κ°€μ—μ„œ μœ μ‚¬ν•˜κ³  심지어 μš°μˆ˜ν•œ 닀쀑 λͺ¨λ“œ 좜λ ₯을 μ œκ³΅ν•˜λŠ” λŠ₯λ ₯을 μ§€μ†μ μœΌλ‘œ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ„±λŠ₯κ³Ό νš¨μœ¨μ„±μ„ λ”μš± κ°•μ‘°ν•˜λŠ” VIST λ°μ΄ν„°μ„ΈνŠΈμ— λŒ€ν•΄ μ•Œμ•„λ³΄μ„Έμš”. 

MiniGPT5 : μ†Œκ°œ

와 λ”λΆˆμ–΄ LLM ν”„λ ˆμž„μ›Œν¬μ˜ 졜근 개발및 μ΄λŸ¬ν•œ LLM ν”„λ ˆμž„μ›Œν¬λ₯Ό 기반으둜 ν•˜λŠ” μ‘μš© ν”„λ‘œκ·Έλž¨, λ©€ν‹°λ―Έλ””μ–΄ κΈ°λŠ₯ 톡합은 μ΅œμ²¨λ‹¨ μ½˜ν…μΈ  μ œμž‘ λ„κ΅¬μ—μ„œ λ‹€μ–‘ν•œ μ‘μš© ν”„λ‘œκ·Έλž¨μ„ μ§€μ›ν•˜λŠ” μ€‘μš”ν•œ λ°œμ „μž„μ΄ μž…μ¦λ˜λ©΄μ„œ 인기가 μƒμŠΉν•œ λΆ„μ•Όμž…λ‹ˆλ‹€. μ΅œμ²¨λ‹¨ 닀쀑 λͺ¨λ“œ λŒ€ν™” μ—μ΄μ „νŠΈ. 지속적인 연ꡬ와 κ°œλ°œμ„ 톡해 μ–Έμ–΄ 및 μ‹œκ° λͺ¨λΈμ€ ν…μŠ€νŠΈμ™€ μ‹œκ°μ  데이터λ₯Ό λͺ¨λ‘ μ›ν™œν•˜κ²Œ 생성할 수 μžˆλ„λ‘ ν•˜λŠ” μž‘μ—…μ΄ μ§„ν–‰λ˜λŠ” 지점에 μžˆμŠ΅λ‹ˆλ‹€. 그만큼 닀쀑 λͺ¨λ“œ 데이터λ₯Ό μƒμ„±ν•˜λŠ” LLM의 λŠ₯λ ₯ μ „μžμƒκ±°λž˜, λ―Έλ””μ–΄, κ°€μƒν˜„μ‹€ λ“± λ‹€μ–‘ν•œ μ˜μ—­μ—μ„œ μƒν˜Έμž‘μš©μ„ μ›ν™œν•˜κ²Œ ν–₯μƒμ‹œν‚€λŠ” 데 도움이 될 κ²ƒμž…λ‹ˆλ‹€. 

ꢁ극적으둜 λͺ©ν‘œλŠ” λͺ¨λΈμ΄ ν…μŠ€νŠΈ 및 μ‹œκ°μ  양식을 λͺ¨λ‘ μ‚¬μš©ν•˜μ—¬ μΌκ΄€λ˜κ³  논리적인 λ°©μ‹μœΌλ‘œ ν•©μ„±, 인식 및 λ°˜μ‘ν•  수 μžˆλ„λ‘ ν•˜μ—¬ μ •λ³΄μ˜ 흐름을 μ‘°ν™”μ‹œν‚€κ³  논리적이고 μΌκ΄€λœ λ‚΄λŸ¬ν‹°λΈŒλ₯Ό λ§Œλ“œλŠ” 데 μ€‘μš”ν•œ 역할을 ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. ν…μŠ€νŠΈ 및 μ‹œκ°μ  μ–‘μ‹μ˜ ν˜Όν•©μ„ 달성해야 ν•˜λŠ” ν•„μš”μ„±μ€ 주둜 LLMμ—μ„œ 보닀 μœ μ—°ν•˜κ³  톡합적이며 λŒ€ν™”ν˜• 닀쀑 λͺ¨λ“œ μƒν˜Έ μž‘μš©μ˜ ν•„μš”μ„±μ— μ˜ν•΄ μ΄‰μ§„λ˜κ³  ꢁ극적으둜 κ΅λŒ€ μ–Έμ–΄ 및 λΉ„μ „ 생성을 λ‹¬μ„±ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ LLMμ—μ„œ 톡합 및 λŒ€ν™”ν˜• 닀쀑 λͺ¨λ“œ μƒν˜Έ μž‘μš©μ„ λ‹¬μ„±ν•˜λŠ” 것은 λ‹€μŒμ„ ν¬ν•¨ν•œ μˆ˜λ§Žμ€ 과제둜 가득 μ°¬ λ³΅μž‘ν•œ μž‘μ—…μž…λ‹ˆλ‹€.

  1. ν˜„μž¬ LLM은 ν…μŠ€νŠΈ 생성 및 ν…μŠ€νŠΈ-이미지 쌍 처리 μΈ‘λ©΄μ—μ„œ 맀우 효율적이고 λŠ₯λ ₯이 λ›°μ–΄λ‚˜μ§€λ§Œ 이미지 생성 μΈ‘λ©΄μ—μ„œλŠ” 만쑱슀러운 μ„±λŠ₯을 μ œκ³΅ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 
  2. μ΄λŸ¬ν•œ λΉ„μ „ 및 μ–Έμ–΄ λͺ¨λΈμ˜ κ°œλ°œμ€ 주제 쀑심 데이터에 크게 μ˜μ‘΄ν•˜λ―€λ‘œ λͺ¨λΈμ΄ μƒμ„±λœ ν…μŠ€νŠΈλ₯Ό ν•΄λ‹Ή 이미지와 μ •λ ¬ν•˜λŠ” 것이 μ–΄λ ΅μŠ΅λ‹ˆλ‹€. 
  3. λ§ˆμ§€λ§‰μœΌλ‘œ, κΈ°λŠ₯이 ν–₯상됨에 따라 특히 λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…μ„ μˆ˜ν–‰ν•  λ•Œ LLM의 λ©”λͺ¨λ¦¬ μš”κ΅¬ 사항도 μ¦κ°€ν•˜λ―€λ‘œ 보닀 효과적인 μ „λž΅μ„ λ§ˆλ ¨ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€. 

MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” μœ„μ—μ„œ μ–ΈκΈ‰ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ "생성 보켄(generative vokens)" κ°œλ…μ„ λ„μž…ν•˜λŠ” μΈν„°λ¦¬λΈŒ μ–Έμ–΄ 및 λΉ„μ „ 생성 μ•Œκ³ λ¦¬μ¦˜ κΈ°μˆ μž…λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” 특수 μ‹œκ°μ  토큰을 μ‚¬μš©ν•˜μ—¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈκ³Ό Stable Diffusion κΈ°μˆ μ„ μœ΅ν•©ν•˜μ—¬ 닀쀑 λͺ¨λ“œ 데이터 생성을 μœ„ν•œ μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ—μ„œ μ‚¬μš©λ˜λŠ” μ œμ•ˆλœ XNUMX단계 ν›ˆλ ¨ 방법은 μ„€λͺ…이 μ—†λŠ” κΈ°λ³Έ λ‹¨κ³„μ˜ μ€‘μš”μ„±κ³Ό μ œν•œλœ 데이터가 μžˆλŠ” μ‹œλ‚˜λ¦¬μ˜€μ—μ„œλ„ 효율적인 μ„±λŠ₯을 μ œκ³΅ν•  수 μžˆλŠ” λͺ¨λΈμ„ μ€€λΉ„ν•˜λŠ” κ²ƒμ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€. 

κ·ΈλŸ¬λ‚˜ MiniGPT-5 λͺ¨λΈμ΄ ν˜„μž¬ κΈ°μ‘΄ ν”„λ ˆμž„μ›Œν¬μ™€ λ‹€λ₯Έ 점은 MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ˜ 일반 단계가 도메인별 μ£Όμ„μœΌλ‘œ κ΅¬μ„±λ˜μ§€ μ•ŠλŠ”λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. λ˜ν•œ μƒμ„±λœ ν…μŠ€νŠΈμ™€ ν•΄λ‹Ή 이미지가 μ„œλ‘œ μ‘°ν™”λ₯Ό 이루도둝 ν•˜κΈ° μœ„ν•΄ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” λΆ„λ₯˜μž μ—†λŠ” μ•ˆλ‚΄ 및 생성 보켄을 μ‚¬μš©ν•˜λŠ” MiniGPT-5의 μ ‘κ·Ό 방식을 λ”μš± ν–₯μƒμ‹œν‚€λŠ” 이쀑 손싀 μ „λž΅μ„ λ°°ν¬ν•©λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” ν›ˆλ ¨ νš¨μœ¨μ„±μ„ μ΅œμ ν™”ν•˜κ³  λͺ¨λΈ λ―Έμ„Έ 쑰정을 μœ„ν•œ λ§€κ°œλ³€μˆ˜ 효율적인 μ „λž΅ 덕뢄에 λ©”λͺ¨λ¦¬ μ œμ•½μ„ ν•΄κ²°ν•©λ‹ˆλ‹€. 

λΉ λ₯Έ μš”μ•½μ„ μ œκ³΅ν•˜κΈ° μœ„ν•΄ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ”

  1. μ—­μ‚¬μ μœΌλ‘œ κΈ°μ‘΄ LLM보닀 효과적인 κ²ƒμœΌλ‘œ μž…μ¦λœ μƒˆλ‘­κ³  일반적인 방법을 λ‚˜νƒ€λ‚΄λŠ” 닀쀑 λͺ¨λ“œ 인코더λ₯Ό μ‚¬μš©ν•˜κ³ , Stable Diffusion 기술과 κ²°ν•©λœ 생성 토큰을 μ‚¬μš©ν•˜μ—¬ μΈν„°λ¦¬λΈŒλœ μ–Έμ–΄ 및 μ‹œκ°μ  좜λ ₯을 μƒμ„±ν•˜λŠ” 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. 
  2. μ„€λͺ…이 μ—†λŠ” 닀쀑 λͺ¨λ‹¬ 좜λ ₯ 생성을 μœ„ν•œ 이쀑 단계 ꡐ윑 μ „λž΅μ„ μ œμ•ˆν•˜κ³ , μƒμ„±λœ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ„ λ”μš± κ°œμ„ ν•˜κΈ° μœ„ν•΄ ꡐ윑 쀑에 λΆ„λ₯˜κΈ°κ°€ μ—†λŠ” 지침을 ν¬ν•¨ν•©λ‹ˆλ‹€. 

MiniGPT-5 λͺ¨λΈμ€ λ‹€μŒ λΆ„μ•Όμ—μ„œ μˆ˜ν–‰λœ 이전 연ꡬ 및 μž‘μ—…μ—μ„œ λ§Žμ€ μ˜κ°μ„ λ°›μ•˜μŠ΅λ‹ˆλ‹€. 

  • ν…μŠ€νŠΈλ₯Ό μ΄λ―Έμ§€λ‘œ λ³€ν™˜: ν…μŠ€νŠΈ μ„€λͺ…을 각각의 μ‹œκ°μ  ν‘œν˜„μœΌλ‘œ λ³€ν™˜ν•˜κ³  ν…μŠ€νŠΈλ₯Ό 이미지 λͺ¨λΈλ‘œ μ‰½κ²Œ λ³€ν™˜ν•©λ‹ˆλ‹€. 
  • MLLM λ˜λŠ” 닀쀑 λͺ¨λ“œ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ: 사전 ν›ˆλ ¨λœ LLM λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ μ• ν”Œλ¦¬μΌ€μ΄μ…˜ 및 νš¨μœ¨μ„±μ„ νƒμƒ‰ν•©λ‹ˆλ‹€. 닀쀑 λͺ¨λ“œ 데이터 생성
  • λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ μ‚¬μš©ν•œ 닀쀑 λͺ¨λ“œ 생성: μ–Έμ–΄ 및 μ‹œκ°μ  데이터 생성을 μ›ν™œν•˜κ²Œ ν†΅ν•©ν•˜κΈ° μœ„ν•΄ LLM의 κΈ°λŠ₯을 κ°•ν™”ν•©λ‹ˆλ‹€. 

MiniGPT-5: 방법, μ•„ν‚€ν…μ²˜ 및 ν”„λ ˆμž„μ›Œν¬

닀쀑 λͺ¨λ“œ 데이터 생성 κΈ°λŠ₯을 κ°–μΆ˜ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ ν™œμ„±ν™”ν•˜κΈ° μœ„ν•΄ MiniGPT-5 λͺ¨λΈμ€ ν…μŠ€νŠΈλ₯Ό 이미지 생성 λͺ¨λΈ 및 사전 ν›ˆλ ¨λœ 닀쀑 λͺ¨λ“œ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈμ— ν†΅ν•©ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό λ„μž…ν•©λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” κ°œλ°œμžκ°€ μ›μ‹œ 이미지에 λŒ€ν•΄ 직접 ν›ˆλ ¨ν•  수 μžˆμ–΄ λ‹€μ–‘ν•œ μ˜μ—­μ— 걸쳐 λ‚˜νƒ€λ‚˜λŠ” 뢈일치λ₯Ό ν•΄κ²°ν•  수 μžˆλŠ” 특수 μ‹œκ°μ  토큰인 "생성 보켄(generative vokens)"을 μΆ”κ°€λ‘œ λ„μž…ν•©λ‹ˆλ‹€. LLMμ—μ„œ μƒμ„±λœ 닀쀑 λͺ¨λ“œ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ„ λ”μš± ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” κ³ κΈ‰ 5단계 ν›ˆλ ¨ 방법과 κ²°ν•©λœ λΆ„λ₯˜μžκ°€ μ—†λŠ” μ „λž΅μ„ λ„μž…ν•©λ‹ˆλ‹€. MiniGPT-XNUMX ν”„λ ˆμž„μ›Œν¬λ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. 

λ©€ν‹°λͺ¨λ‹¬ μž…λ ₯ 단계

졜근 LLM의 개발둜 인해 LLM의 닀쀑 λͺ¨λ“œ 이해 λŠ₯λ ₯이 빛을 λ°œν•˜μ—¬ 이미지λ₯Ό 순차적 μž…λ ₯으둜 μ²˜λ¦¬ν•  수 있게 λ˜μ—ˆμŠ΅λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” LLM의 닀쀑 λͺ¨λ“œ 이해 λŠ₯λ ₯을 닀쀑 λͺ¨λ“œ 데이터 μƒμ„±μœΌλ‘œ ν™•μž₯ν•˜λ €λŠ” μ‹œλ„λ‘œ μ‹œκ°μ  νŠΉμ§•μ„ 좜λ ₯ν•˜κΈ° μœ„ν•΄ νŠΉλ³„νžˆ μ„€κ³„λœ 생성 보켄을 μ‚¬μš©ν•©λ‹ˆλ‹€. λ˜ν•œ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” LLM ν”„λ ˆμž„μ›Œν¬λ₯Ό ν†΅ν•œ 닀쀑 λͺ¨λ“œ 좜λ ₯ ν•™μŠ΅μ„ μœ„ν•΄ 효율적인 λ§€κ°œλ³€μˆ˜ 및 μ΅œμ²¨λ‹¨ λ―Έμ„Έ μ‘°μ • κΈ°μˆ μ„ μ‚¬μš©ν•©λ‹ˆλ‹€. 

닀쀑 λͺ¨λ“œ 인코딩

MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ˜ 사전 ν›ˆλ ¨λœ μ‹œκ°μ  μΈμ½”λ”λŠ” 각 μž…λ ₯ 이미지λ₯Ό κΈ°λŠ₯으둜 λ³€ν™˜ν•˜κ³  각 ν…μŠ€νŠΈ 토큰은 λ²‘ν„°λ‘œ ν¬ν•¨λ˜λ©° μ΄λŸ¬ν•œ 포함이 μ„œλ‘œ 연결될 λ•Œ μž…λ ₯ ν”„λ‘¬ν”„νŠΈ κΈ°λŠ₯이 μƒμ„±λ©λ‹ˆλ‹€. 

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ— Voken μΆ”κ°€

μ „ν†΅μ μœΌλ‘œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ μ–΄νœ˜λŠ” ν…μŠ€νŠΈ ν† ν°μœΌλ‘œλ§Œ κ΅¬μ„±λ˜λ―€λ‘œ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λ₯Ό μž‘μ—…ν•˜λŠ” κ°œλ°œμžλŠ” 생성 LLMκ³Ό κΈ°μ‘΄ LLM κ°„μ˜ 격차λ₯Ό ν•΄μ†Œν•΄μ•Ό ν–ˆμŠ΅λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” LLM의 μ–΄νœ˜μ— 생성 ν† ν°μœΌλ‘œ 특수 토큰 μ„ΈνŠΈλ₯Ό λ„μž…ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ ν”„λ ˆμž„μ›Œν¬λŠ” 후속 이미지 생성을 μœ„ν•΄ μ΄λŸ¬ν•œ 특수 보켄에 λŒ€ν•΄ LLM의 μˆ¨κ²¨μ§„ 좜λ ₯ μƒνƒœλ₯Ό ν™œμš©ν•˜κ³  μΈν„°λ¦¬λΈŒλœ μ΄λ―Έμ§€μ˜ μ‚½μž…μ€ λ³΄μΌ„μ˜ μœ„μΉ˜λ‘œ ν‘œμ‹œλ©λ‹ˆλ‹€. 

PEFT λ˜λŠ” λ§€κ°œλ³€μˆ˜ 효율적인 λ―Έμ„Έ μ‘°μ •

PEFT λ˜λŠ” λ§€κ°œλ³€μˆ˜ 효율적인 λ―Έμ„Έ 쑰정은 LLM을 κ΅μœ‘ν•˜λŠ” 데 μ‚¬μš©λ˜λŠ” μ€‘μš”ν•œ κ°œλ…μ΄μ§€λ§Œ 닀쀑 λͺ¨λ“œ μ„€μ •μ—μ„œ PEFT의 μ μš©μ€ 아직 μƒλ‹Ήνžˆ κ΄‘λ²”μœ„ν•˜κ²Œ νƒκ΅¬λ˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” ν”„λ‘¬ν”„νŠΈ λ˜λŠ” 지침을 더 잘 μ΄ν•΄ν•˜λ„λ‘ λͺ¨λΈμ„ ν›ˆλ ¨ν•˜κ³  제둜 μƒ· λ˜λŠ” μƒˆλ‘œμš΄ ν™˜κ²½μ—μ„œ λͺ¨λΈμ˜ μ „λ°˜μ μΈ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ MiniGPT-4 ν”„λ ˆμž„μ›Œν¬μ˜ 인코더에 λŒ€ν•œ λ§€κ°œλ³€μˆ˜ 효율적 λ―Έμ„Έ 쑰정을 μ‚¬μš©ν•©λ‹ˆλ‹€. . 

닀쀑 λͺ¨λ“œ 좜λ ₯ 생성

생성 λͺ¨λΈμ„ 생성 토큰과 μ •ν™•ν•˜κ²Œ μ •λ ¬ν•˜κΈ° μœ„ν•΄ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” 차원을 μΌμΉ˜μ‹œν‚€κ³  잠재 ν™•μ‚° λͺ¨λΈ 손싀 및 ν…μŠ€νŠΈ 곡간 손싀을 ν¬ν•¨ν•œ 감독 손싀을 ν†΅ν•©ν•˜κΈ° μœ„ν•œ 컴팩트 λ§€ν•‘ λͺ¨λ“ˆμ„ κ³΅μ‹ν™”ν•©λ‹ˆλ‹€. 잠재 ν™•μ‚° 감독 손싀은 μ μ ˆν•œ μ‹œκ°μ  νŠΉμ§•μ„ 토큰과 직접 μ •λ ¬ν•˜λŠ” 반면, ν…μŠ€νŠΈ 곡간 손싀은 λͺ¨λΈμ΄ ν† ν°μ˜ μ˜¬λ°”λ₯Έ μœ„μΉ˜λ₯Ό ν•™μŠ΅ν•˜λŠ” 데 도움이 λ©λ‹ˆλ‹€. MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ˜ 생성 보켄은 이미지에 μ˜ν•΄ 직접 μ•ˆλ‚΄λ˜κΈ° λ•Œλ¬Έμ— MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ—μ„œλŠ” 이미지에 포괄적인 μ„€λͺ…이 ν•„μš”ν•˜μ§€ μ•ŠμœΌλ―€λ‘œ μ„€λͺ… μ—†λŠ” ν•™μŠ΅μ΄ κ°€λŠ₯ν•©λ‹ˆλ‹€. 

 ν…μŠ€νŠΈ 곡간 생성

MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” 캐주얼 μ–Έμ–΄ λͺ¨λΈλ§ 방법을 따라 ν…μŠ€νŠΈ κ³΅κ°„μ—μ„œ 보켄과 ν…μŠ€νŠΈλ₯Ό κ³΅λ™μœΌλ‘œ μƒμ„±ν•˜κ³ , ν›ˆλ ¨ λ‹¨κ³„μ—μ„œ κ°œλ°œμžλŠ” 보켄을 지상 μ‹€μ œ μ΄λ―Έμ§€μ˜ μœ„μΉ˜μ— μΆ”κ°€ν•˜κ³  λͺ¨λΈμ„ ν›ˆλ ¨ν•˜μ—¬ 보켄을 μ˜ˆμΈ‘ν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ 생성 λ‚΄μ—μ„œ. 

이미지 생성을 μœ„ν•œ Voken κΈ°λŠ₯ λ§€ν•‘

ν…μŠ€νŠΈ 곡간을 μƒμ„±ν•œ ν›„ ν”„λ ˆμž„μ›Œν¬λŠ” μˆ¨κ²¨μ§„ 좜λ ₯ μƒνƒœλ₯Ό ν…μŠ€νŠΈ-이미지 생성 λͺ¨λΈμ˜ ν…μŠ€νŠΈ 쑰건뢀 κΈ°λŠ₯ 곡간과 μ •λ ¬ν•©λ‹ˆλ‹€. λ˜ν•œ ν”„λ ˆμž„μ›Œν¬λŠ” 이쀑 계측 MLP λͺ¨λΈ, ν•™μŠ΅ κ°€λŠ₯ν•œ 디코더 κΈ°λŠ₯ μ‹œν€€μŠ€ 및 XNUMX계측 인코더-디코더 λ³€ν™˜κΈ° λͺ¨λΈμ„ ν¬ν•¨ν•˜λŠ” κΈ°λŠ₯ 맀퍼 λͺ¨λ“ˆμ„ μ§€μ›ν•©λ‹ˆλ‹€. 

LDM λ˜λŠ” 잠재 ν™•μ‚° λͺ¨λΈμ„ μ‚¬μš©ν•œ 이미지 생성

작음 제거 ν”„λ‘œμ„ΈμŠ€μ—μ„œ ν•„μš”ν•œ 이미지λ₯Ό μƒμ„±ν•˜κΈ° μœ„ν•΄ ν”„λ ˆμž„μ›Œν¬λŠ” λ§€ν•‘ κΈ°λŠ₯을 쑰건뢀 μž…λ ₯으둜 μ‚¬μš©ν•©λ‹ˆλ‹€. λ˜ν•œ ν”„λ ˆμž„μ›Œν¬λŠ” ꡐ윑 λ‹¨κ³„μ—μ„œ 사전 ꡐ윑된 VAEλ₯Ό μ‚¬μš©ν•˜μ—¬ 지상 μ‹€μ œ 이미지λ₯Ό 잠재 κΈ°λŠ₯으둜 λ¨Όμ € λ³€ν™˜ν•˜κ³  κ°œλ°œμžκ°€ μ•½κ°„μ˜ λ…Έμ΄μ¦ˆλ₯Ό μΆ”κ°€ν•˜μ—¬ 잠재 λ…Έμ΄μ¦ˆ κΈ°λŠ₯을 μ–»λŠ” κ²ƒμ²˜λŸΌ μ•ˆλ‚΄λ₯Ό μœ„ν•΄ LDM λ˜λŠ” 잠재 ν™•μ‚° λͺ¨λΈμ„ μ‚¬μš©ν•©λ‹ˆλ‹€. . 

MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ— μ˜ν•΄ 배포된 포괄적인 μ ‘κ·Ό 방식을 톡해 κ°œλ°œμžλŠ” 특수 토큰을 μ‚¬μš©ν•˜κ³  사전 ν›ˆλ ¨λœ λͺ¨λΈμ˜ κΈ°λŠ₯을 ν™œμš©ν•˜λ©° ν˜μ‹ μ μΈ ν›ˆλ ¨ κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ μ‹œκ°μ  μš”μ†Œμ™€ ν…μŠ€νŠΈ μš”μ†Œλ₯Ό λͺ¨λ‘ μΌκ΄€λ˜κ²Œ μ΄ν•΄ν•˜κ³  생성할 수 μžˆμŠ΅λ‹ˆλ‹€. 

MiniGPT-5 : ν›ˆλ ¨ 및 κ²°κ³Ό

MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ—μ„œ μž‘μ—…ν•  λ•Œ κ°œλ°œμžλŠ” μ œν•œλœ μΈν„°λ¦¬λΉ™λœ ν…μŠ€νŠΈ 및 이미지 데이터 μ„ΈνŠΈμ— λŒ€ν•œ ꡐ윑으둜 인해 이미지 ν’ˆμ§ˆμ΄ μ €ν•˜λ˜κ³  이미지와 ν…μŠ€νŠΈ 도메인 κ°„μ˜ μƒλ‹Ήν•œ 도메인 μ΄λ™μœΌλ‘œ 인해 정렬이 잘λͺ»λ  수 μžˆλ‹€λŠ” 점을 κ΄€μ°°ν–ˆμŠ΅λ‹ˆλ‹€. 이 문제λ₯Ό μ™„ν™”ν•˜κΈ° μœ„ν•΄ κ°œλ°œμžλŠ” 두 κ°€μ§€ λ³„λ„μ˜ ꡐ윑 μ „λž΅μ„ μ±„νƒν–ˆμŠ΅λ‹ˆλ‹€. 

  1. ν™•μ‚° κ³Όμ •μ—μ„œ 생성 ν† ν°μ˜ νš¨μœ¨μ„±μ„ λ†’μ΄λŠ” λΆ„λ₯˜μž μ—†λŠ” μ•ˆλ‚΄ 기술의 톡합을 ν¬κ΄„ν•©λ‹ˆλ‹€. 
  2. 두 번째 μ „λž΅μ€ λ‹€μ‹œ 두 λ‹¨κ³„λ‘œ λ‚˜λ‰œλ‹€.
    1. 주둜 거친 νŠΉμ§•μ„ μ •λ ¬ν•˜λŠ” 데 μ΄ˆμ μ„ 맞좘 초기 사전 ν•™μŠ΅ λ‹¨κ³„μž…λ‹ˆλ‹€. 
    2. νŠΉμ„± ν•™μŠ΅μ„ μš©μ΄ν•˜κ²Œ ν•˜λŠ” λ―Έμ„Έ μ‘°μ • λ‹¨κ³„μž…λ‹ˆλ‹€. 

CFG λ˜λŠ” λΆ„λ₯˜μž 무료 μ§€μΉ¨

λ©€ν‹°λͺ¨λ‹¬ 생성을 μœ„ν•΄ CFGλ₯Ό λ¨Όμ € ν™œμš©ν•˜λ €λŠ” μ•„μ΄λ””μ–΄λŠ” μƒμ„±λœ 이미지와 ν…μŠ€νŠΈ κ°„μ˜ 일관성과 논리λ₯Ό ν–₯μƒν•˜λ €λŠ” μ‹œλ„μ˜ 결과둜 λ‚˜μ™”κ³ , CFGλŠ” ν…μŠ€νŠΈμ—μ„œ μ΄λ―Έμ§€λ‘œ ν™•μ‚°λ˜λŠ” κ³Όμ •μ—μ„œ λ„μž…λ©λ‹ˆλ‹€. 이 방법은 쑰건뢀 λ“œλ‘­μ•„μ›ƒμ„ μ‚¬μš©ν•˜μ—¬ 무쑰건 생성과 쑰건뢀 생성을 λͺ¨λ‘ ν•™μŠ΅ν•¨μœΌλ‘œμ¨ 생성 λͺ¨λΈμ΄ ν–₯μƒλœ 쑰건뢀 κ²°κ³Όλ₯Ό 얻을 수 μžˆμŒμ„ κ΄€μ°°ν•©λ‹ˆλ‹€.

XNUMX단계 ꡐ윑 μ „λž΅

ν…μŠ€νŠΈ 이미지 생성과 순수 ν…μŠ€νŠΈ 생성 μ‚¬μ΄μ—μ„œ κ΄€μ°°λœ μƒλ‹Ήν•œ 도메인 이동을 κ³ λ €ν•˜μ—¬ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” ν›ˆλ ¨μ„ μœ„ν•΄ XNUMX단계 μ „λž΅μ„ μ‚¬μš©ν•©λ‹ˆλ‹€.

  1. 단봉 μ •λ ¬ 단계 λ˜λŠ” UAS,
  2. 닀쀑 λͺ¨λ“œ ν•™μŠ΅ 단계 λ˜λŠ” MLS. 

μ²˜μŒμ— ν”„λ ˆμž„μ›Œν¬λŠ” 각 데이터 μƒ˜ν”Œμ— 단 ν•˜λ‚˜μ˜ ν…μŠ€νŠΈμ™€ 단 ν•˜λ‚˜μ˜ μ΄λ―Έμ§€λ§Œ ν¬ν•¨ν•˜κ³  ν…μŠ€νŠΈλŠ” 일반적으둜 이미지 μΊ‘μ…˜μΈ 단일 ν…μŠ€νŠΈ-이미지 쌍 데이터 μ„ΈνŠΈμ˜ 보켄 κΈ°λŠ₯κ³Ό 이미지 생성 κΈ°λŠ₯을 μ •λ ¬ν•©λ‹ˆλ‹€. 이 λ‹¨κ³„μ—μ„œ ν”„λ ˆμž„μ›Œν¬λŠ” LLM이 μΊ‘μ…˜μ„ LLM μž…λ ₯으둜 ν™œμš©ν•˜μ—¬ 보켄을 생성할 수 μžˆλ„λ‘ ν—ˆμš©ν•©λ‹ˆλ‹€. 

UASκ°€ μ„±κ³΅μ μœΌλ‘œ μ‹€ν–‰λ˜λ©΄ λͺ¨λΈμ€ 단일 ν…μŠ€νŠΈ μ„€λͺ…을 μœ„ν•œ 이미지λ₯Ό 생성할 수 μžˆμ§€λ§Œ ν…μŠ€νŠΈ-이미지 μŒμ„ ν¬ν•¨ν•œ μΈν„°λ¦¬λΈŒ μ–Έμ–΄ 및 λΉ„μ „ 생성에 어렀움을 κ²ͺ으며 이미지 및 ν…μŠ€νŠΈ μƒμ„±μ—λŠ” λ³΅μž‘ν•œ 좔둠이 ν•„μš”ν•©λ‹ˆλ‹€. 이 μž₯애물을 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ κ°œλ°œμžλŠ” VIST와 같은 μΈν„°λ¦¬λΈŒλœ λΉ„μ „ 및 μ–Έμ–΄ 데이터 μ„ΈνŠΈμ— μ˜ν•œ PEFT λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λ₯Ό λ”μš± λ―Έμ„Έ μ‘°μ •ν–ˆμŠ΅λ‹ˆλ‹€. 이 λ‹¨κ³„μ—μ„œ ν”„λ ˆμž„μ›Œν¬λŠ” 데이터 μ„ΈνŠΈμ—μ„œ μ„Έ κ°€μ§€ λ‹€λ₯Έ μž‘μ—…μ„ κ΅¬μ„±ν•©λ‹ˆλ‹€.

  1. ν…μŠ€νŠΈλ§Œ 생성 : λ‹€μŒ 이미지에 ν•΄λ‹Ήν•˜λŠ” κ΄€λ ¨ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. 
  2. μ΄λ―Έμ§€λ§Œ 생성 : λ‹€μŒ ν…μŠ€νŠΈκ°€ μ£Όμ–΄μ§€λ©΄ κ΄€λ ¨ 이미지λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. 
  3. Multimodal Generation : μ£Όμ–΄μ§„ μ»¨ν…μŠ€νŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ ν…μŠ€νŠΈ 이미지 μŒμ„ μƒμ„±ν•©λ‹ˆλ‹€. 

MiniGPT-5: 벀치마크 및 결과

닀쀑 λͺ¨λ“œ μƒμ„±μ˜ μ„±λŠ₯을 μ’…ν•©μ μœΌλ‘œ ν‰κ°€ν•˜κΈ° μœ„ν•΄ MiniGPT-5 개발 νŒ€μ€ Divter, GILL 및 Fine Tuned Unimodal Generation Model을 ν¬ν•¨ν•œ λ‹€λ₯Έ μ£Όμš” κΈ°λ³Έ λͺ¨λΈκ³Ό μ„±λŠ₯을 λΉ„κ΅ν•˜κ³  κ·Έ λΉ„κ΅λŠ” μ•„λž˜ ν‘œμ— λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€. 

MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” 닀쀑 λͺ¨λ“œ 좜λ ₯이 상황에 따라 μ˜λ―Έκ°€ μžˆμ„ 수 μžˆμ§€λ§Œ μ‹€μ œ ν˜„μ‹€κ³Ό λ‹€λ₯Ό 수 μžˆλ‹€λŠ” 점을 μ΄ν•΄ν•©λ‹ˆλ‹€. μ΄λŠ” MiniGPT-5 ν”„λ ˆμž„μ›Œν¬κ°€ λͺ¨λΈ μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ 인간 μž…λ ₯을 ν†΅ν•©ν•˜λŠ” 주된 μ΄μœ μž…λ‹ˆλ‹€. . μ „λ°˜μ μœΌλ‘œ 닀쀑 λͺ¨λ“œ μž‘μ—…μ— λŒ€ν•œ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ˜ νš¨μœ¨μ„±μ€ μ„Έ κ°€μ§€ 관점을 μ‚¬μš©ν•˜μ—¬ μΈ‘μ •λ©λ‹ˆλ‹€. 

  1. μ–Έμ–΄ 연속성: μƒμ„±λœ μ½˜ν…μΈ κ°€ 제곡된 μ»¨ν…μŠ€νŠΈμ™€ μ›ν™œν•˜κ²Œ μΌμΉ˜ν•˜λŠ”μ§€ ν‰κ°€ν•©λ‹ˆλ‹€. 
  2. 이미지 ν’ˆμ§ˆ: μƒμ„±λœ μ΄λ―Έμ§€μ˜ κ΄€λ ¨μ„±κ³Ό λͺ…확성을 ν‰κ°€ν•©λ‹ˆλ‹€. 
  3. 닀쀑 λͺ¨λ“œ 일관성: κ²°ν•©λœ ν…μŠ€νŠΈ 이미지 좜λ ₯이 초기 μ»¨ν…μŠ€νŠΈμ™€ λ™κΈ°ν™”λ˜λŠ”μ§€ ν™•μΈν•©λ‹ˆλ‹€. 

VIST μ΅œμ’… 단계 평가

μ‹€ν—˜μ˜ 첫 번째 λ‹¨κ³„μ—μ„œ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” ν•΄λ‹Ή 이미지λ₯Ό μƒμ„±ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λ©°, μ•„λž˜ ν‘œλŠ” 이 μ„€μ •μ—μ„œ 얻은 κ²°κ³Όλ₯Ό μš”μ•½ν•©λ‹ˆλ‹€. 

λ³΄μ‹œλ‹€μ‹œν”Ό, μ„Έ κ°€μ§€ μ„€μ • λͺ¨λ‘μ—μ„œ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” λ―Έμ„Έ μ‘°μ •λœ SD2 ν”„λ ˆμž„μ›Œν¬λ³΄λ‹€ μ„±λŠ₯이 λ›°μ–΄λ‚˜ MiniGPT-5 νŒŒμ΄ν”„λΌμΈμ˜ νš¨μœ¨μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€. 

μœ„ 그림은 MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯을 λ―Έμ„Έ μ‘°μ •λœ ν”„λ ˆμž„μ›Œν¬μ™€ λΉ„κ΅ν•œ κ²ƒμž…λ‹ˆλ‹€. MiniGPT-4 ν”„λ ˆμž„μ›Œν¬ S-BERT, Rouge-L 및 Meteor μ„±λŠ₯ μ§€ν‘œ. κ²°κ³ΌλŠ” 생성적 λ³΄μΌ„μ˜ μ‚¬μš©μ΄ 닀쀑 λͺ¨λ“œ 이해 μž‘μ—…μ„ μˆ˜ν–‰ν•  λ•Œ ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯에 뢀정적인 영ν–₯을 λ―ΈμΉ˜μ§€ μ•ŠμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€. κ²°κ³ΌλŠ” λ˜ν•œ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬κ°€ λ‹€μ–‘ν•œ 데이터에 걸쳐 κΈ΄ μˆ˜ν‰ 닀쀑 λͺ¨λ“œ μž…λ ₯ ν”„λ‘¬ν”„νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ 닀쀑 λͺ¨λ“œ 이해λ₯Ό μœ„ν•œ μ›λž˜ λͺ¨λΈμ˜ λŠ₯λ ₯을 μ†μƒμ‹œν‚€μ§€ μ•ŠμœΌλ©΄μ„œ κ³ ν’ˆμ§ˆμ˜ μΌκ΄€λœ 이미지λ₯Ό 생성할 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€. 

μœ„ ν‘œλŠ” 닀쀑 λͺ¨λ“œ 일관성, 이미지 ν’ˆμ§ˆ 및 μ–Έμ–΄ 연속성 μΈ‘λ©΄μ—μ„œ 닀쀑 λͺ¨λ“œ 생성을 μœ„ν•œ 5,000개 μƒ˜ν”Œμ— λŒ€ν•œ μ„Έ κ°€μ§€ ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯을 λΉ„κ΅ν•©λ‹ˆλ‹€. κ΄€μ°°ν•  수 μžˆλ“―μ΄ MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” λ‹€λ₯Έ 두 κΈ°λ³Έ λͺ¨λΈλ³΄λ‹€ 70% 이상 μ„±λŠ₯이 λ›°μ–΄λ‚©λ‹ˆλ‹€. 반면, μ•„λž˜ ν‘œλŠ” 단일 이미지 생성을 μœ„ν•œ CC5M 검증 데이터 μ„ΈνŠΈμ—μ„œ MiniGPT-3 ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 데이터 μ œν•œμœΌλ‘œ 인해 κ°œλ°œμžλŠ” Stable Diffusionκ³Ό ν•¨κ»˜ μ‚¬μš©ν•  λ•Œ Voken 정렬에 차이가 μžˆμŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ œν•œμ—λ„ λΆˆκ΅¬ν•˜κ³  MiniGPT-5 ν”„λ ˆμž„μ›Œν¬λŠ” λͺ¨λ“  μΈ‘μ • ν•­λͺ©μ—μ„œ ν˜„μž¬μ˜ μ΅œμ²¨λ‹¨ κΈ°λ³Έ GILL ν”„λ ˆμž„μ›Œν¬λ³΄λ‹€ μ„±λŠ₯이 λ›°μ–΄λ‚©λ‹ˆλ‹€. 

κ²°λ‘ 

이 κΈ°μ‚¬μ—μ„œλŠ” LLM의 κΈ°λŠ₯을 ν™œμš©ν•˜μ—¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ 사전 ν›ˆλ ¨λœ ν…μŠ€νŠΈ-이미지 생성 λͺ¨λΈμž…λ‹ˆλ‹€. μš°λ¦¬λŠ” MiniGPT-5 ν”„λ ˆμž„μ›Œν¬μ˜ ν•„μˆ˜ ꡬ성 μš”μ†Œμ™€ 전체 μ•„ν‚€ν…μ²˜μ— λŒ€ν•΄ μ΄μ•ΌκΈ°ν•˜κ³  ν˜„μž¬ κΈ°μ€€ 및 μ΅œμ‹  λͺ¨λΈκ³Ό 비ꡐ할 λ•Œ μ„±λŠ₯ 및 νš¨μœ¨μ„±μ΄ 크게 ν–₯μƒλ˜μ—ˆμŒμ„ λ‚˜νƒ€λ‚΄λŠ” 결과에 λŒ€ν•΄ μ΄μ•ΌκΈ°ν–ˆμŠ΅λ‹ˆλ‹€. MiniGPT-5λŠ” 닀쀑 λͺ¨λ“œ μ½˜ν…μΈ  및 데이터 생성 μ˜μ—­μ—μ„œ μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ„€μ •ν•˜κ³  λ™μΌν•œ 문제λ₯Ό ν•΄κ²°ν•˜λ €κ³  ν•  λ•Œ 이전 λͺ¨λΈμ΄ μ§λ©΄ν•œ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.

"직업은 μ—”μ§€λ‹ˆμ–΄, λ§ˆμŒμ€ μž‘κ°€". Kunal은 AI와 ML에 λŒ€ν•œ κΉŠμ€ μ• μ •κ³Ό 이해λ₯Ό κ°€μ§„ 기술 μž‘κ°€λ‘œ, λ§€λ ₯적이고 μœ μ΅ν•œ λ¬Έμ„œλ₯Ό 톡해 이 λΆ„μ•Όμ˜ λ³΅μž‘ν•œ κ°œλ…μ„ λ‹¨μˆœν™”ν•˜λŠ” 데 μ „λ…ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.