Rescale λ―ΈνŒ… μ˜ˆμ•½

SHOW-O: λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 ν†΅ν•©ν•˜λŠ” 단일 λ³€μ••κΈ°

인곡지λŠ₯

SHOW-O: λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 ν†΅ν•©ν•˜λŠ” 단일 λ³€μ••κΈ°

mm

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μƒλ‹Ήν•œ λ°œμ „μ€ λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)의 κ°œλ°œμ— μ˜κ°μ„ μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. LLaVA, MiniGPT-4, InstructBLIP와 같은 초기 MLLM λ…Έλ ₯은 μ£Όλͺ©ν•  λ§Œν•œ λ©€ν‹°λͺ¨λ‹¬ 이해 λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. LLM을 λ©€ν‹°λͺ¨λ‹¬ 도메인에 ν†΅ν•©ν•˜κΈ° μœ„ν•΄ μ΄λŸ¬ν•œ μ—°κ΅¬μ—μ„œλŠ” CLIPκ³Ό 같은 사전 ν›ˆλ ¨λœ λͺ¨λ‹¬λ¦¬ν‹°λ³„ μΈμ½”λ”μ—μ„œ LLM의 μž…λ ₯ κ³΅κ°„μœΌλ‘œ ν”Όμ²˜λ₯Ό νˆ¬μ‚¬ν•˜μ—¬ 트랜슀포머 λ°±λ³Έ λ‚΄μ—μ„œ λ©€ν‹°λͺ¨λ‹¬ 이해와 좔둠을 κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” 방법을 νƒκ΅¬ν–ˆμŠ΅λ‹ˆλ‹€. λΉ„μ „ 인코더, ν”Όμ²˜ μ •λ ¬ μ–΄λŒ‘ν„°, 데이터 μ„ΈνŠΈμ™€ 같은 MLLM에 λŒ€ν•œ λ‹€μ–‘ν•œ 섀계 선택 사항이 μžˆμ§€λ§Œ μ΄λŸ¬ν•œ λͺ¨λΈ λŒ€λΆ€λΆ„μ— λŒ€ν•œ ν›ˆλ ¨μ€ LLMμ—μ„œ ν…μŠ€νŠΈ 생성에 효과적인 κ²ƒμœΌλ‘œ μž…μ¦λœ 자기 νšŒκ·€ 생성 νŒ¨λŸ¬λ‹€μž„μ„ λ”°λ¦…λ‹ˆλ‹€. κ°•λ ₯ν•œ λ©€ν‹°λͺ¨λ‹¬ 이해 λŠ₯λ ₯에도 λΆˆκ΅¬ν•˜κ³  μ΄λŸ¬ν•œ λͺ¨λΈμ€ 주둜 μ‹œκ°μ  인식에 μ΄ˆμ μ„ λ§žμΆ”κ³  ν…μŠ€νŠΈλ₯Ό λ„˜μ–΄μ„  λ©€ν‹°λͺ¨λ‹¬ 좜λ ₯을 μƒμ„±ν•˜λŠ” λŠ₯λ ₯이 λΆ€μ‘±ν•©λ‹ˆλ‹€.

Transformer λͺ¨λΈμ€ μžμ—°μ–΄ μ²˜λ¦¬μ—μ„œ μžκΈ°νšŒκ·€ λͺ¨λΈλ§μ—μ„œ 큰 성곡을 κ±°λ‘μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ°œμ „μ— μ˜κ°μ„ λ°›μ•„ 이전 μ—°κ΅¬μ—μ„œλŠ” λ™μΌν•œ μžκΈ°νšŒκ·€ λͺ¨λΈλ§μ„ 직접 μ μš©ν•˜μ—¬ 이미지 및 λΉ„λ””μ˜€ 생성을 μœ„ν•œ 이미지 ν”½μ…€μ˜ 쒅속성을 ν•™μŠ΅ν–ˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, VideoPoet은 디코더 μ „μš© Transformer μ•„ν‚€ν…μ²˜λ₯Ό μ‚¬μš©ν•˜μ—¬ λ©€ν‹°λͺ¨λ‹¬ μž…λ ₯μ—μ„œ κ³ ν’ˆμ§ˆ λΉ„λ””μ˜€λ₯Ό ν•©μ„±ν•©λ‹ˆλ‹€. 졜근 LlamaGen은 Llama와 같은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ μ•„ν‚€ν…μ²˜κ°€ 이미지 토큰을 μžκΈ°νšŒκ·€μ μœΌλ‘œ λͺ¨λΈλ§ν•˜μ—¬ 클래슀 쑰건뢀 이미지 μƒμ„±μ—μ„œ μ μ ˆν•œ μ„±λŠ₯을 달성할 수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

이 κΈ€μ—μ„œλŠ” λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 ν†΅ν•©ν•˜λŠ” 톡합 트랜슀포머인 Show-O에 λŒ€ν•΄ μ„€λͺ…ν•©λ‹ˆλ‹€. μ™„μ „ν•œ 자기 νšŒκ·€ λͺ¨λΈκ³Ό 달리 Show-OλŠ” 자기 νšŒκ·€ 및 이산 ν™•μ‚° λͺ¨λΈλ§μ„ ν†΅ν•©ν•˜μ—¬ λ‹€μ–‘ν•˜κ³  ν˜Όν•©λœ λͺ¨λ‹¬λ¦¬ν‹°μ˜ μž…λ ₯κ³Ό 좜λ ₯을 μ μ‘μ μœΌλ‘œ μ²˜λ¦¬ν•©λ‹ˆλ‹€. 톡합 λͺ¨λΈμ€ μ‹œκ°μ  질문 λ‹΅λ³€, ν…μŠ€νŠΈ-이미지 생성, ν…μŠ€νŠΈ 기반 μΈνŽ˜μΈνŒ…/μ™Έμ‚½, ν˜Όν•© λͺ¨λ‹¬λ¦¬ν‹° 생성을 ν¬ν•¨ν•œ κ΄‘λ²”μœ„ν•œ μ‹œκ° μ–Έμ–΄ μž‘μ—…μ„ μœ μ—°ν•˜κ²Œ μ§€μ›ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ Show-OλŠ” λ™λ“±ν•˜κ±°λ‚˜ 더 λ§Žμ€ 수의 λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ κΈ°μ‘΄ κ°œλ³„ λͺ¨λΈκ³Ό λ™λ“±ν•˜κ±°λ‚˜ 더 μš°μˆ˜ν•œ μ„±λŠ₯을 보여 μ°¨μ„ΈλŒ€ 기반 λͺ¨λΈλ‘œμ„œμ˜ 잠재λ ₯을 κ°•μ‘°ν•©λ‹ˆλ‹€.

이 ν”„λ ˆμž„μ›Œν¬μ—μ„œ λͺ¨λΈμ€ 연속적인 잠재 ν‘œν˜„μ— μΆ”κ°€λœ κ°€μš°μ‹œμ•ˆ λ…Έμ΄μ¦ˆλ₯Ό μ˜ˆμΈ‘ν•˜λŠ” μž‘μ—…μ„ λ§‘μŠ΅λ‹ˆλ‹€. 반면, D3PM, Mask-predict, ARDM, MaskGITκ³Ό 같은 λ‹€λ₯Έ λͺ¨λΈμ€ κ°€μš°μ‹œμ•ˆ ν™•μ‚°μ˜ λŒ€μ•ˆμœΌλ‘œ 이산적 손상 ν”„λ‘œμ„ΈμŠ€λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. ꡬ체적으둜, μ΄λ―Έμ§€λŠ” 이미지 ν† ν¬λ‚˜μ΄μ €λ₯Ό μ‚¬μš©ν•˜μ—¬ 이산 ν† ν°μ˜ μ‹œν€€μŠ€λ‘œ ν‘œν˜„λ˜λ©°, 각 토큰은 λ²”μ£Όν˜• λ ˆμ΄λΈ”κ³Ό μ—°κ΄€λ©λ‹ˆλ‹€. 토큰별 λΆ„ν¬λŠ” ν™•λ₯ μ  μƒ˜ν”Œλ§ ν”„λ‘œμ„ΈμŠ€λ₯Ό 톡해 κ· μΌν•œ λΆ„ν¬λ‘œ λ³€ν™˜λ©λ‹ˆλ‹€. ν•™μŠ΅ν•˜λŠ” λ™μ•ˆ μ΄λŸ¬ν•œ ν† ν°μ˜ μΌλΆ€λŠ” λ¬΄μž‘μœ„λ‘œ 마슀크되고 λͺ¨λΈμ€ 마슀크된 ν† ν°μ˜ μ›λž˜ 값을 μ˜ˆμΈ‘ν•˜λ„λ‘ ν•™μŠ΅λ©λ‹ˆλ‹€. 이 μž‘μ—…μ—μ„œ Show-OλŠ” μ‹œκ°μ  생성을 μœ„ν•΄ 이산적 ν™•μ‚° λͺ¨λΈλ§μ„ μ±„νƒν•©λ‹ˆλ‹€.

SHOW-O: λ©€ν‹°λͺ¨λ‹¬ 이해와 μƒμ„±μ˜ 톡합

μ§€λ‚œ λͺ‡ λ…„ λ™μ•ˆ λ©€ν‹°λͺ¨λ‹¬ μΈν…”λ¦¬μ „μŠ€μ˜ 두 κ°€μ§€ 핡심 κΈ°λ‘₯인 이해와 μƒμ„±μ—μ„œ μƒλ‹Ήν•œ λ°œμ „μ΄ μ΄λ£¨μ–΄μ‘ŒμŠ΅λ‹ˆλ‹€. λ©€ν‹°λͺ¨λ‹¬ μ΄ν•΄μ˜ 경우, 닀쀑 λͺ¨λ“œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM))와 같은 LLaVAλŠ” μ‹œκ°μ  질문-λ‹΅λ³€(VQA)κ³Ό 같은 μ‹œκ° μ–Έμ–΄ μž‘μ—…μ—μ„œ λ›°μ–΄λ‚œ μ—­λŸ‰μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€. μ‹œκ°μ  μƒμ„±μ˜ 경우, λ…Έμ΄μ¦ˆ 제거 ν™•μ‚° ν™•λ₯  λͺ¨λΈ(DDPM)은 기쑴의 생성 νŒ¨λŸ¬λ‹€μž„μ— 혁λͺ…을 일으켜 ν…μŠ€νŠΈ-이미지/λΉ„λ””μ˜€ μƒμ„±μ—μ„œ μ „λ‘€ μ—†λŠ” μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

κ°œλ³„ λΆ„μ•Όμ—μ„œ μ΄λŸ¬ν•œ μ„±κ³Όλ₯Ό κ°μ•ˆν•  λ•Œ, 이λ₯Ό μ—°κ²°ν•˜λŠ” 잠재λ ₯을 νƒκ΅¬ν•˜λŠ” 것은 λ‹Ήμ—°ν•œ μΌμž…λ‹ˆλ‹€. 졜근 μ—°κ΅¬μ—μ„œλŠ” 이 두 κ°€μ§€ λ‹€λ₯Έ λ„λ©”μΈμ—μ„œ μ „λ¬Έκ°€ λͺ¨λΈμ„ μ‘°λ¦½ν•˜μ—¬ λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 λͺ¨λ‘ μ²˜λ¦¬ν•  수 μžˆλŠ” 톡합 μ‹œμŠ€ν…œμ„ ν˜•μ„±ν•˜λ €κ³  μ‹œλ„ν–ˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 기쑴의 μ‹œλ„λŠ” μ’…μ’… 이해와 생성을 μœ„ν•œ λ³„λ„μ˜ λͺ¨λΈμ„ ν¬ν•¨ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, NExT-GPTλŠ” λ©€ν‹°λͺ¨λ‹¬ 이해λ₯Ό μœ„ν•œ κΈ°λ³Έ μ–Έμ–΄ λͺ¨λΈμ„ μ‚¬μš©ν•˜μ§€λ§Œ 이미지 생성을 μœ„ν•œ μΆ”κ°€ 사전 ν•™μŠ΅λœ ν™•μ‚° λͺ¨λΈμ΄ ν•„μš”ν•©λ‹ˆλ‹€. μ΄λŠ” λ‹€μŒκ³Ό 같은 μ˜λ¬Έμ„ μ œκΈ°ν•©λ‹ˆλ‹€. ν•˜λ‚˜μ˜ 단일 λ³€ν™˜κΈ°κ°€ λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 λͺ¨λ‘ μ²˜λ¦¬ν•  수 μžˆμ„κΉŒμš”?

μ΅œκ·Όμ— Chameleon은 이것이 κ°€λŠ₯ν•˜λ‹€λŠ” 것을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. ꡬ체적으둜 Chameleon은 자기 νšŒκ·€ λͺ¨λΈλ§μ„ 톡해 λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό μœ΅ν•©ν•˜μ—¬ ν…μŠ€νŠΈμ™€ 이미지 토큰을 λͺ¨λ‘ 생성할 수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ 토큰을 자기 νšŒκ·€μ μœΌλ‘œ λͺ¨λΈλ§ν•˜λŠ” 것이 ν•©λ¦¬μ μ΄μ§€λ§Œ, 이미지 νŒ¨μΉ˜λ‚˜ 픽셀을 같은 λ°©μ‹μœΌλ‘œ λͺ¨λΈλ§ν•˜λŠ” 것이 μ΅œμ μΈμ§€λŠ” λͺ…ν™•ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 이미지λ₯Ό 자기 νšŒκ·€μ μœΌλ‘œ μ˜ˆμΈ‘ν•˜λŠ” 데 μžˆμ–΄ μ£Όμš” 병λͺ© ν˜„μƒμ€ 특히 고해상도 이미지λ₯Ό μ²˜λ¦¬ν•  λ•Œ ν•„μš”ν•œ μƒ˜ν”Œλ§ 단계 μˆ˜κ°€ λ§Žλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. 연속 ν™•μ‚° λͺ¨λΈμ€ 자기 νšŒκ·€ λͺ¨λΈμ— λΉ„ν•΄ μ‹œκ°μ  μƒμ„±μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

이λ₯Ό 톡해 단일 λ³€ν™˜κΈ°κ°€ 자기 νšŒκ·€ 및 ν™•μ‚° λͺ¨λΈλ§μ„ λͺ¨λ‘ 톡합할 수 μžˆλŠ”μ§€ μ•Œμ•„λ³΄κ²Œ λ©λ‹ˆλ‹€. Show-OλŠ” ν…μŠ€νŠΈκ°€ 이산 ν† ν°μœΌλ‘œ ν‘œν˜„λ˜κ³  자기 νšŒκ·€μ μœΌλ‘œ λͺ¨λΈλ§λ˜λŠ” 반면, 연속 이미지 픽셀은 λ…Έμ΄μ¦ˆ 제거 확산을 μ‚¬μš©ν•˜μ—¬ λͺ¨λΈλ§λ˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ κ΅¬μƒν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 이 두 κ°€μ§€ λ³„κ°œμ˜ κΈ°μˆ μ„ 단일 λ„€νŠΈμ›Œν¬λ‘œ ν†΅ν•©ν•˜λŠ” 것은 이산 ν…μŠ€νŠΈ 토큰과 연속 이미지 ν‘œν˜„ κ°„μ˜ 차이둜 인해 κ°„λ‹¨ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. λ˜ν•œ ν™•μ‚° λͺ¨λΈμ€ 일반적으둜 ν…μŠ€νŠΈ 인코더와 λ…Έμ΄μ¦ˆ 제거 λ„€νŠΈμ›Œν¬λΌλŠ” 두 κ°€μ§€ λ³„κ°œμ˜ λͺ¨λΈμ— μ˜μ‘΄ν•©λ‹ˆλ‹€.

이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Show-OλŠ” ν˜Όν•© 자기 νšŒκ·€ 및 ν™•μ‚° λͺ¨λΈλ§μ„ μ‚¬μš©ν•˜μ—¬ 닀쀑 λͺ¨λ“œ 이해 및 생성 μž‘μ—…μ„ λͺ¨λ‘ μ²˜λ¦¬ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 톡합 λͺ¨λΈμ„ λ„μž…ν•©λ‹ˆλ‹€. Show-OλŠ” 사전 ν›ˆλ ¨λœ LLM을 기반으둜 ν•˜λ©° ν…μŠ€νŠΈ 기반 좔둠을 μœ„ν•΄ 자기 νšŒκ·€ λͺ¨λΈλ§ κΈ°λŠ₯을 ν™œμš©ν•©λ‹ˆλ‹€. λ‹€λ₯Έ μž‘μ—…μ—μ„œ μ˜κ°μ„ 얻은 Show-OλŠ” 연속 ν‘œν˜„ λŒ€μ‹  이산적 λ…Έμ΄μ¦ˆ 제거 확산을 μ‚¬μš©ν•˜μ—¬ 이미지 토큰을 λͺ¨λΈλ§ν•©λ‹ˆλ‹€. λ˜ν•œ Show-OλŠ” ν…μŠ€νŠΈ 쑰건뢀 정보λ₯Ό 본질적으둜 μΈμ½”λ”©ν•˜μ—¬ μΆ”κ°€ ν…μŠ€νŠΈ 인코더가 ν•„μš”ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. Show-OλŠ” ν…μŠ€νŠΈ 및 이미지 ν† ν¬λ‚˜μ΄μ €λ₯Ό ν™œμš©ν•˜μ—¬ λ‹€μ–‘ν•œ μž…λ ₯ 데이터와 μž‘μ—…μ„ μ²˜λ¦¬ν•˜μ—¬ μ‹œκ° μ–Έμ–΄ μž‘μ—…μ— λŒ€ν•œ 자기 νšŒκ·€μ  닡변을 μ œκ³΅ν•˜κ³  이산적 λ…Έμ΄μ¦ˆ 제거 확산을 μ‚¬μš©ν•˜μ—¬ 이미지λ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€.

Show-OλŠ” λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ λ™λ“±ν•˜κ±°λ‚˜ 더 λ§Žμ€ 수의 λ§€κ°œλ³€μˆ˜λ₯Ό κ°€μ§„ κ°œλ³„ λͺ¨λΈλ³΄λ‹€ λΉ„μŠ·ν•˜κ±°λ‚˜ μ–΄λ–€ κ²½μš°μ—λŠ” 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 자기 νšŒκ·€ 이미지 생성과 달리 Show-O ν”„λ ˆμž„μ›Œν¬λŠ” μ•½ 20λ°° 적은 μƒ˜ν”Œλ§ 단계λ₯Ό ν•„μš”λ‘œ ν•˜λ―€λ‘œ 본질적으둜 더 λΉ λ¦…λ‹ˆλ‹€. λ˜ν•œ Show-O ν”„λ ˆμž„μ›Œν¬λŠ” λ‹€μŒ μ΄λ―Έμ§€μ—μ„œ 보여 주듯이 λ―Έμ„Έ 쑰정이 ν•„μš” 없이 ν…μŠ€νŠΈ 기반 μΈνŽ˜μΈνŒ… 및 μ™Έμ‚½κ³Ό 같은 λ‹€μš΄μŠ€νŠΈλ¦Ό μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ„ μ§€μ›ν•©λ‹ˆλ‹€. 

Show-OλŠ” λ˜ν•œ ν…μŠ€νŠΈ μ„€λͺ…이 ν¬ν•¨λœ μΈν„°λ¦¬λΈŒ λΉ„λ””μ˜€ ν‚€ν”„λ ˆμž„ 생성과 같은 ν˜Όν•© λͺ¨λ‹¬λ¦¬ν‹° μƒμ„±μ˜ 잠재λ ₯을 κ°€μ§€κ³  μžˆμ–΄ μž₯편 λΉ„λ””μ˜€ 생성에 λŒ€ν•œ κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€. λ‚˜μ•„κ°€ Show-O ν”„λ ˆμž„μ›Œν¬λŠ” 닀쀑 λͺ¨λ‹¬ 이해에 λŒ€ν•œ 이산 및 연속 이미지 ν‘œν˜„μ˜ 영ν–₯을 μ‘°μ‚¬ν•˜μ—¬ 미래의 톡합 λͺ¨λΈ 섀계에 λŒ€ν•œ 톡찰λ ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

λ‹€μŒ 그림은 Show-O ν”„λ ˆμž„μ›Œν¬μ™€ λ‹€μ–‘ν•œ 도메인에 걸친 κΈ°μ‘΄ 방법 κ°„μ˜ λͺ¨λΈ νŠΉμ„±μ„ λΉ„κ΅ν•œ κ²ƒμž…λ‹ˆλ‹€. Show-OλŠ” λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 μœ„ν•œ κ³ κΈ‰ κΈ°μˆ μ„ ν†΅ν•©ν•œ 톡합 λͺ¨λΈλ‘œ λ‹λ³΄μž…λ‹ˆλ‹€. 

μš”μ•½ν•˜λ©΄, λ³Έ λ…Όλ¬Έμ˜ μ£Όμš” κΈ°μ—¬λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

  • Show-OλŠ” 톡합λͺ¨λΈμž…λ‹ˆλ‹€ 단일 λ³€ν™˜κΈ°λ₯Ό μ‚¬μš©ν•˜μ—¬ 닀쀑 λͺ¨λ“œμ˜ 이해와 생성을 ν†΅ν•©ν•©λ‹ˆλ‹€.
  • Show-OλŠ” μžκΈ°νšŒκ·€ 및 이산 ν™•μ‚° λͺ¨λΈλ§μ„ ν†΅ν•©ν•©λ‹ˆλ‹€. ν•˜λ‚˜μ˜ λ³€μ••κΈ° λ‚΄μ—μ„œ ν…μŠ€νŠΈμ™€ 이미지λ₯Ό λͺ¨λ‘ 효과적으둜 μ²˜λ¦¬ν•©λ‹ˆλ‹€.
  • Show-O ν”„λ ˆμž„μ›Œν¬λŠ” κ°œλ³„ κΈ°μ€€ λͺ¨λΈλ³΄λ‹€ μ„±λŠ₯이 μš°μˆ˜ν•˜κ±°λ‚˜ μΌμΉ˜ν•©λ‹ˆλ‹€. 닀쀑 λͺ¨λ“œ 이해 및 생성 λ²€μΉ˜λ§ˆν¬μ—μ„œ λ™λ“±ν•˜κ±°λ‚˜ 더 큰 λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.
  • Show-OλŠ” λ‹€μš΄μŠ€νŠΈλ¦Ό μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ„ μ§€μ›ν•©λ‹ˆλ‹€ λ―Έμ„Έ μ‘°μ • 없이 ν…μŠ€νŠΈ 기반 μΈνŽ˜μΈνŒ… 및 외삽법을 μ‚¬μš©ν•˜κ³  ν˜Όν•© λͺ¨λ‹¬ μƒμ„±μ˜ 잠재λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
  • Show-OλŠ” λ‹€μ–‘ν•œ μœ ν˜•μ˜ ν‘œν˜„μ˜ 영ν–₯을 νƒκ΅¬ν•©λ‹ˆλ‹€.톡합 λͺ¨λΈμ—μ„œ λ©€ν‹°λͺ¨λ‹¬ 이해λ₯Ό κ°œμ„ ν•˜λŠ” 데 κ·€μ€‘ν•œ 톡찰λ ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

졜근 λͺ‡ λ…„ λ™μ•ˆ 점점 더 λ§Žμ€ 연ꡬ가 이해와 생성을 λͺ¨λ‘ μˆ˜ν–‰ν•  수 μžˆλŠ” ν†΅ν•©λœ λ©€ν‹°λͺ¨λ‹¬ μ–Έμ–΄ λͺ¨λΈμ— μ§‘μ€‘λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 일뢀 λ…Έλ ₯은 이미지λ₯Ό μƒμ„±ν•˜κΈ° μœ„ν•΄ μžλ™ νšŒκ·€ λͺ¨λΈλ§μ„ μœ„ν•΄ ν…μŠ€νŠΈ 토큰과 ν•¨κ»˜ μ‚½μž…λœ 연속 ν‘œν˜„μ„ μ‚¬μš©ν•©λ‹ˆλ‹€. SEED-XλŠ” λ©€ν‹°λͺ¨λ‹¬ 이해와 생성 μž‘μ—…μ„ λͺ¨λ‘ μ²˜λ¦¬ν•  수 μžˆλŠ” ν†΅ν•©λ˜κ³  λ‹€μž¬λ‹€λŠ₯ν•œ 기반 μ‹œμŠ€ν…œμ„ μ œμ•ˆν•©λ‹ˆλ‹€. 이 μ ‘κ·Ό λ°©μ‹μ—μ„œ CLIP ViT μΈμ½”λ”μ˜ 연속 이미지 ν‘œν˜„μ€ ν…μŠ€νŠΈ 토큰과 κ²°ν•©λ˜μ–΄ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)에 κ³΅κΈ‰λ˜μ–΄ λ‹€μŒ 단어 예츑 및 이미지 ν‘œν˜„ νšŒκ·€λ₯Ό μˆ˜ν–‰ν•©λ‹ˆλ‹€. Chameleon은 이미지λ₯Ό μ΄ν•΄ν•˜κ³  생성할 수 μžˆλŠ” 토큰 기반 ν˜Όν•© λͺ¨λ‹¬ λͺ¨λΈ νŒ¨λ°€λ¦¬λ₯Ό μ†Œκ°œν•©λ‹ˆλ‹€. 이 μ ‘κ·Ό 방식은 λͺ¨λ“  λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό 이산 ν† ν°μœΌλ‘œ ν‘œν˜„ν•˜μ—¬ ν†΅ν•©λœ λ³€ν™˜κΈ° 기반 μ•„ν‚€ν…μ²˜λ₯Ό ν™œμš©ν•˜κ³  μ²˜μŒλΆ€ν„° λͺ¨λΈμ„ 쒅단 κ°„ λ°©μ‹μœΌλ‘œ ν•™μŠ΅ν•©λ‹ˆλ‹€. 이와 λŒ€μ‘°μ μœΌλ‘œ Show-O도 λͺ¨λ“  λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν‘œν˜„ν•˜κΈ° μœ„ν•΄ 이산 토큰을 μ±„νƒν•˜μ§€λ§Œ μ‹œκ°μ  생성을 μœ„ν•΄ μžλ™ νšŒκ·€ λͺ¨λΈλ§ λŒ€μ‹  이산 ν™•μ‚° ν”„λ‘œμ„ΈμŠ€λ₯Ό ν™œμš©ν•©λ‹ˆλ‹€.

SHOW-O: 방법둠 및 μ•„ν‚€ν…μ²˜

Show-O ν”„λ ˆμž„μ›Œν¬μ˜ μ£Όμš” λͺ©μ μ€ 곡동 λ©€ν‹°λͺ¨λ‹¬ 이해 및 생성을 μœ„ν•΄ 자기 νšŒκ·€ 및 ν™•μ‚° λͺ¨λΈλ§μ„ ν†΅ν•©ν•˜λŠ” 톡합 λͺ¨λΈμ„ κ°œλ°œν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŸ¬ν•œ 톡합 λͺ¨λΈμ„ κ°œλ°œν•˜λŠ” λ°λŠ” μƒλ‹Ήν•œ κ³Όμ œκ°€ 있으며, 핡심 λ¬Έμ œλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. i) λͺ¨λΈμ˜ μž…λ ₯/좜λ ₯ 곡간 μ •μ˜, ii) λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°μ˜ λ‹€μ–‘ν•œ μœ ν˜•μ˜ μž…λ ₯ 데이터 톡합, iii) 자기 νšŒκ·€ 및 ν™•μ‚° λͺ¨λΈλ§μ„ 단일 λ³€ν™˜κΈ°λ‘œ 톡합, iv) μ΄λŸ¬ν•œ 톡합 λͺ¨λΈμ„ 효과적으둜 ν•™μŠ΅.

Show-OλŠ” λ‹€μŒκ³Ό 같은 μ†”λ£¨μ…˜μ„ 톡해 μ΄λŸ¬ν•œ 과제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€.

  • Show-OλŠ” ν…μŠ€νŠΈμ™€ 이미지 데이터λ₯Ό κ°œλ³„ ν† ν°μœΌλ‘œ ν† ν°ν™”ν•˜μ—¬ μž…μΆœλ ₯ 곡간을 κ΅¬μ„±ν•©λ‹ˆλ‹€.
  • Show-OλŠ” κΈ°λ³Έ μ•„ν‚€ν…μ²˜μ™€ ν†΅ν•©λœ ν”„λ‘¬ν”„νŒ… μ „λž΅μ„ λ„μž…ν•˜μ—¬ μž…λ ₯ 데이터와 λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό κ΅¬μ‘°ν™”ν•©λ‹ˆλ‹€.
  • Show-OλŠ” 단일 λ³€ν™˜κΈ°μ— μžκΈ°νšŒκ·€ 및 ν™•μ‚° λͺ¨λΈλ§μ„ λͺ¨λ‘ ν†΅ν•©ν•˜λŠ” 방법을 λ³΄μ—¬μ€λ‹ˆλ‹€.
  • Show-OλŠ” 톡합 λͺ¨λΈμ„ 효과적으둜 ν›ˆλ ¨ν•˜κΈ° μœ„ν•œ 3단계 ν›ˆλ ¨ νŒŒμ΄ν”„λΌμΈμ„ μ œκ³΅ν•©λ‹ˆλ‹€.

토큰 ν™”

μ œμ•ˆλœ Show-Oκ°€ λ‹€μŒκ³Ό 같은 λ‚΄μš©μ„ 기반으둜 κ΅¬μΆ•λœλ‹€λŠ” 점을 κ°μ•ˆν•  λ•Œ 사전 ν›ˆλ ¨λœ LLM, 이산 κ³΅κ°„μ—μ„œ 톡합 ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜λŠ” 것은 μžμ—°μŠ€λŸ¬μš΄ μΌμž…λ‹ˆλ‹€. 이산 ν…μŠ€νŠΈμ™€ 이미지 토큰을 ν¬ν•¨ν•˜λŠ” 톡합 μ–΄νœ˜λ₯Ό μœ μ§€ν•¨μœΌλ‘œμ¨ Show-OλŠ” λ™μΌν•œ ν•™μŠ΅ λͺ©ν‘œ, 즉 이산 토큰을 μ˜ˆμΈ‘ν•˜λŠ” 과제λ₯Ό λ§‘μŠ΅λ‹ˆλ‹€.

ν…μŠ€νŠΈ 토큰화

Show-OλŠ” 사전 ν›ˆλ ¨λœ LLM을 기반으둜 ν•˜λ©°, λ™μΌν•œ ν† ν¬λ‚˜μ΄μ €λ₯Ό μ•„λ¬΄λŸ° μˆ˜μ • 없이 ν…μŠ€νŠΈ 데이터 토큰화에 μ‚¬μš©ν•©λ‹ˆλ‹€.

이미지 토큰화

MAGVIT-v2에 따라 Show-OλŠ” μ•½ 35M 이미지 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 룩업 μ—†λŠ” μ–‘μžν™”κΈ°λ₯Ό ν•™μŠ΅ν•©λ‹ˆλ‹€. μ–‘μžν™”κΈ°λŠ” 크기가 8,192인 μ½”λ“œλΆμ„ μœ μ§€ν•˜κ³  256x256 ν•΄μƒλ„μ˜ 이미지λ₯Ό 16x16개의 κ°œλ³„ ν† ν°μœΌλ‘œ μΈμ½”λ”©ν•©λ‹ˆλ‹€. MAGVIT-v2λŠ” λ―Έμ„Έ 쑰정이 μš©μ΄ν•˜μ—¬ μ‹œκ°„ μ••μΆ• κΈ°λŠ₯이 μžˆλŠ” λΉ„λ””μ˜€ ν† ν¬λ‚˜μ΄μ €λ‘œ μ ν•©ν•˜λ©°, Show-OλŠ” 이 츑면을 λ―Έλž˜μ— 탐ꡬ할 κ³„νšμž…λ‹ˆλ‹€. 또 λ‹€λ₯Έ μ ‘κ·Ό 방식은 이해와 생성에 각각 λ‹€λ₯Έ ν† ν¬λ‚˜μ΄μ €λ₯Ό μ‚¬μš©ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. κΈ°μ‘΄ μ—°κ΅¬μ—μ„œ μ˜κ°μ„ 얻은 Show-OλŠ” λ˜ν•œ 사전 ν•™μŠ΅λœ MAGVIT-v2 및 CLIP-ViT μΈμ½”λ”μ—μ„œ 연속 이미지 ν‘œν˜„μ„ μΆ”μΆœν•˜μ—¬ 닀쀑 λͺ¨λ‹¬ 이해 κΈ°λŠ₯의 κ°œμ„  사항을 νƒκ΅¬ν•©λ‹ˆλ‹€. λ‹€μŒ μ„Ήμ…˜μ—μ„œ κΈ°λ³Έ Show-OλŠ” 닀쀑 λͺ¨λ‹¬ 이해와 생성을 μœ„ν•œ μž…λ ₯으둜 κ°œλ³„ 이미지 토큰을 μ‚¬μš©ν•©λ‹ˆλ‹€. λ‹¨μˆœν™”λ₯Ό μœ„ν•΄ 방법둠 μ„Ήμ…˜μ—μ„œλŠ” κΈ°λ³Έ Show-O에 λŒ€ν•΄μ„œλ§Œ μžμ„Ένžˆ μ„€λͺ…ν•©λ‹ˆλ‹€.

μ•„ν‚€ν…μ²˜

Show-OλŠ” λ‹€μŒμ˜ μ•„ν‚€ν…μ²˜λ₯Ό κ³„μŠΉν•©λ‹ˆλ‹€. κΈ°μ‘΄ LLM 각 μ–΄ν…μ…˜ 계측에 QK-Norm 연산을 μΆ”κ°€ν•˜λŠ” 것을 μ œμ™Έν•˜κ³ λŠ” μ•„ν‚€ν…μ²˜ μˆ˜μ • 없이 Show-OλŠ” 사전 ν•™μŠ΅λœ LLM의 κ°€μ€‘μΉ˜λ‘œ μ΄ˆκΈ°ν™”λ˜κ³  이산 이미지 토큰에 λŒ€ν•œ 8,192개의 μƒˆλ‘œμš΄ ν•™μŠ΅ κ°€λŠ₯ν•œ μž„λ² λ”©μ„ ν†΅ν•©ν•˜μ—¬ μž„λ² λ”© κ³„μΈ΅μ˜ 크기λ₯Ό ν™•μž₯ν•©λ‹ˆλ‹€. μΆ”κ°€ ν…μŠ€νŠΈ 인코더가 ν•„μš”ν•œ μ΅œμ²¨λ‹¨ ν™•μ‚° λͺ¨λΈκ³Ό 달리 Show-OλŠ” ν…μŠ€νŠΈ-이미지 생성을 μœ„ν•΄ ν…μŠ€νŠΈ 쑰건뢀 정보λ₯Ό 본질적으둜 μΈμ½”λ”©ν•©λ‹ˆλ‹€.

톡합 ν”„λ‘¬ν”„νŒ… 

λ©€ν‹°λͺ¨λ‹¬ 이해 및 생성에 λŒ€ν•œ 톡합 ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄ Show-OλŠ” 톡합 프둬핑 μ „λž΅μ„ μ‚¬μš©ν•˜μ—¬ λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ μž…λ ₯ 데이터λ₯Ό ν¬λ§·ν•©λ‹ˆλ‹€. 이미지-ν…μŠ€νŠΈ 쌍(x, y)이 μ£Όμ–΄μ§€λ©΄, 이미지 및 ν…μŠ€νŠΈ ν† ν¬λ‚˜μ΄μ €μ— μ˜ν•΄ 각각 M개의 이미지 토큰과 N개의 ν…μŠ€νŠΈ ν† ν°μœΌλ‘œ ν† ν°ν™”λ©λ‹ˆλ‹€. 그런 λ‹€μŒ 토큰은 λ‹€μŒ κ·Έλ¦Όμ—μ„œ μ„€λͺ…ν•œ λŒ€λ‘œ μž‘μ—… μœ ν˜•μ— 따라 μž…λ ₯ μ‹œν€€μŠ€λ‘œ ν˜•μ„±λ©λ‹ˆλ‹€. 

이 ν”„λ‘¬ν”„νŠΈ λ””μžμΈμ„ μ±„νƒν•¨μœΌλ‘œμ¨ Show-OλŠ” 닀쀑 λͺ¨λ“œ 이해, ν…μŠ€νŠΈ-이미지 생성 및 ν˜Όν•© λͺ¨λ“œ 생성을 μœ„ν•œ λ‹€μ–‘ν•œ μž…λ ₯ 데이터λ₯Ό 순차적 λ°μ΄ν„°λ‘œ 효과적으둜 인코딩할 수 μžˆμŠ΅λ‹ˆλ‹€. 이 섀정을 톡해 μ΄λŸ¬ν•œ λ‹€μ–‘ν•œ μž‘μ—…μ— λŒ€ν•œ μ‹œν€€μŠ€μ—μ„œ 톡합 ν•™μŠ΅μ΄ μ›ν™œν•˜κ²Œ μž‘λ™ν•  수 μžˆμŠ΅λ‹ˆλ‹€. Show-OλŠ” ν›ˆλ ¨λ˜λ©΄ μ‹œκ°μ  질문 λ‹΅λ³€ 및 ν…μŠ€νŠΈ-이미지 생성을 ν¬ν•¨ν•œ κ΄‘λ²”μœ„ν•œ μ‹œκ° μ–Έμ–΄ μž‘μ—…μ„ μ²˜λ¦¬ν•˜λ„λ‘ ν”„λ‘¬ν”„νŠΈλ  수 μžˆμŠ΅λ‹ˆλ‹€.

μ˜΄λ‹ˆ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜ 

μ‹œν€€μŠ€λ₯Ό μžκΈ°νšŒκ·€μ μœΌλ‘œλ§Œ λͺ¨λΈλ§ν•˜λŠ” κΈ°μ‘΄ μž‘μ—…κ³Ό 달리 Show-OλŠ” μ˜΄λ‹ˆ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ λ„μž…ν•˜μ—¬ λ‹€μ–‘ν•œ μœ ν˜•μ˜ μ‹ ν˜Έλ₯Ό μ„œλ‘œ λ‹€λ₯Έ λ°©μ‹μœΌλ‘œ λͺ¨λΈλ§ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 포괄적인 μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ€ μž…λ ₯ μ‹œν€€μŠ€μ˜ ν˜•μ‹μ— 따라 인과적 μ–΄ν…μ…˜κ³Ό 전체 μ–΄ν…μ…˜ 사이λ₯Ό μ μ‘μ μœΌλ‘œ μ „ν™˜ν•©λ‹ˆλ‹€. λ‹€μŒ 그림은 λ‹€μ–‘ν•œ μž…λ ₯ μ‹œν€€μŠ€μ— λŒ€ν•œ μ˜΄λ‹ˆ μ–΄ν…μ…˜μ˜ 예λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.

ꡬ체적으둜 Show-OλŠ” 인과적 주의λ₯Ό 톡해 μ‹œν€€μŠ€ λ‚΄μ˜ ν…μŠ€νŠΈ 토큰을 μ²˜λ¦¬ν•˜λŠ” 반면, 이미지 토큰은 전체 주의λ₯Ό μ‚¬μš©ν•˜μ—¬ μ²˜λ¦¬ν•˜μ—¬ 각 토큰이 λ‹€λ₯Έ λͺ¨λ“  토큰과 ν¬κ΄„μ μœΌλ‘œ μƒν˜Έ μž‘μš©ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. 닀쀑 λͺ¨λ“œ μ΄ν•΄μ—μ„œ ν…μŠ€νŠΈ 토큰은 λͺ¨λ“  이전 이미지 토큰에 주의λ₯Ό 기울일 수 μžˆλŠ” 반면, ν…μŠ€νŠΈ-이미지 μƒμ„±μ—μ„œ 이미지 토큰은 λͺ¨λ“  이전 ν…μŠ€νŠΈ 토큰과 μƒν˜Έ μž‘μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ˜΄λ‹ˆ-μ£Όμ˜λŠ” 사전 ν›ˆλ ¨λœ LLM의 ν…μŠ€νŠΈ μΆ”λ‘  지식을 μœ μ§€ν•˜κ³  μƒ˜ν”Œλ§ 단계λ₯Ό 쀄여 이미지 μƒμ„±μ˜ νš¨μœ¨μ„±μ„ ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. λ˜ν•œ λ―Έμ„Έ 쑰정이 ν•„μš” 없이 μΈνŽ˜μΈνŒ… 및 μ™Έμ‚½κ³Ό 같은 λ‹€μ–‘ν•œ λ‹€μš΄μŠ€νŠΈλ¦Ό μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ„ μ§€μ›ν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ ν† ν°λ§Œ μ£Όμ–΄μ§€λ©΄ λ©”μ»€λ‹ˆμ¦˜μ€ 인과적 주의둜 κΈ°λ³Έ μ„€μ •λ©λ‹ˆλ‹€.

SHOW-O: μ‹€ν—˜κ³Ό κ²°κ³Ό

λ‹€μŒ ν‘œλŠ” 이미지 μΊ‘μ…˜ 및 μ‹œκ°μ  μ§ˆμ˜μ‘λ‹΅ μž‘μ—…κ³Ό 같은 곡개 λ²€μΉ˜λ§ˆν¬μ— λŒ€ν•œ Show-O의 닀쀑 λͺ¨λ‹¬ 이해 λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 

ν˜„μž¬ Show-O 버전은 Phi-1.5λ₯Ό 기반으둜 κ΅¬μΆ•λ˜μ—ˆμœΌλ―€λ‘œ, Show-O의 이해 μ „μš© 버전인 LLaVA-v1.5-Phi-1.5κ°€ 직접적인 κΈ°μ€€μ„  역할을 ν•©λ‹ˆλ‹€. Show-OλŠ” λͺ¨λ“  평가 μ§€ν‘œμ—μ„œ 닀쀑 λͺ¨λ“œ μ΄ν•΄μ—λ§Œ μ „λ…ν•˜λŠ” κΈ°μ€€μ„  LLaVA-v1.5-Phi-1.5와 μœ μ‚¬ν•œ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€. μ΄λŠ” 단일 λ³€ν™˜κΈ° λ‚΄μ—μ„œ 닀쀑 λͺ¨λ“œ 이해와 생성을 ν†΅ν•©ν•˜λŠ” Show-O ν”„λ ˆμž„μ›Œν¬μ˜ λ›°μ–΄λ‚œ 잠재λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. InstructBLIP, Qwen-VL-Chat, mPLUG-Owl2와 같은 이해 μ „μš© λͺ¨λΈκ³Ό λΉ„κ΅ν–ˆμ„ λ•Œ, Show-OλŠ” λͺ¨λΈ 크기가 훨씬 μž‘μŒμ—λ„ λΆˆκ΅¬ν•˜κ³  POPE, MME, Flickr30k, VQAv2 λ²€μΉ˜λ§ˆν¬μ—μ„œ 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 λ‹¬μ„±ν–ˆμœΌλ©°, GQA λ²€μΉ˜λ§ˆν¬μ—μ„œλŠ” 더 μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. NExT-GPT-13B 및 Chameleon-34B와 같이 λ§€κ°œλ³€μˆ˜κ°€ 훨씬 더 λ§Žμ€ 톡합 λͺ¨λΈκ³Ό λΉ„κ΅ν–ˆμ„ λ•Œ Show-OλŠ” Flickr30k λ²€μΉ˜λ§ˆν¬μ—μ„œλ„ κ°•λ ₯ν•œ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμœΌλ©° VQAv2 λ²€μΉ˜λ§ˆν¬μ—μ„œλ„ 훨씬 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

μ΄λŸ¬ν•œ μœ λ§ν•œ κ²°κ³Όλ₯Ό κ°μ•ˆν•  λ•Œ, Show-OλŠ” 이해와 생성을 ν†΅ν•©ν•˜κΈ° μœ„ν•œ 잠재적인 μ°¨μ„ΈλŒ€ 기반 λͺ¨λΈλ‘œ κ΅¬μƒλ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” λ˜ν•œ Show-Oλ₯Ό ν™•μž₯ν•˜μ—¬ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 달성할 수 μžˆλŠ” 잠재λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

질적 비ꡐ

λ‹€μŒ κ·Έλ¦Όμ—μ„œ 보듯이, μš°λ¦¬λŠ” LWMκ³Ό SEED-X와 같은 톡합 λͺ¨λΈκ³Ό λ”λΆˆμ–΄ SDv1.5, SDXL, μžκΈ°νšŒκ·€ 기반 λͺ¨λΈμΈ LlamaGenκ³Ό 같은 ν™•μ‚° 기반 λͺ¨λΈκ³Όμ˜ 정성적 비ꡐλ₯Ό μ œμ‹œν•©λ‹ˆλ‹€. 

Show-OλŠ” 짧은 ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈμ™€ κΈ΄ ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈμ— λͺ¨λ‘ μΌκ΄€λœ λ‚΄μš©μ΄ μ„€λͺ…λ˜μ–΄ μžˆλŠ” 사싀적인 이미지λ₯Ό μƒμ„±ν•˜λŠ” λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. SDv1.5 및 LlamaGenκ³Ό λΉ„κ΅ν–ˆμ„ λ•Œ Show-OλŠ” 더 λ‚˜μ€ μ‹œκ°μ  ν’ˆμ§ˆκ³Ό 더 κ°•λ ₯ν•œ 이미지-ν…μŠ€νŠΈ 정렬을 λ³΄μ—¬μ€λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ 두 번째 μ—΄μ—μ„œ SDv1.5와 LlamaGen은 λͺ¨λ‘ ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλ₯Ό μ™„μ „νžˆ μ΄ν•΄ν•˜μ§€ λͺ»ν•˜κ³  μƒμ„±λœ μ΄λ―Έμ§€μ—μ„œ "일λͺ°" 및 "νŒŒλž€μƒ‰ 돔"κ³Ό 같은 속성을 λ†“μΉ©λ‹ˆλ‹€. SDXLκ³Ό λΉ„κ΅ν–ˆμ„ λ•Œ Show-OλŠ” "랠리카 κ²½μ£Ό" 및 "μƒμƒν•œ 일λͺ°κ³Όμ˜ λ†€λΌμš΄ λŒ€λΉ„"와 같은 μ˜ˆμ—μ„œ λ³Ό 수 μžˆλ“―μ΄ λΉ„μŠ·ν•œ μ‹œκ°μ  ν’ˆμ§ˆκ³Ό 정렬을 μ œκ³΅ν•©λ‹ˆλ‹€. 

ν…μŠ€νŠΈ κ°€μ΄λ“œ μΈνŽ˜μΈνŒ… 및 μ™Έμ‚½ 

Show-OλŠ” λ―Έμ„Έ μ‘°μ • 없이도 ν…μŠ€νŠΈ 기반 μΈνŽ˜μΈνŒ…κ³Ό 외삽을 μžμ—°μŠ€λŸ½κ²Œ μ§€μ›ν•©λ‹ˆλ‹€. λ‹€μŒ 그림은 μ—¬λŸ¬ κ°€μ§€ 예λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€. 

그림의 μƒλ‹¨μ—μ„œ μž…λ ₯ 이미지와 μΈνŽ˜μΈνŒ… λ§ˆμŠ€ν¬κ°€ μ£Όμ–΄μ§€λ©΄ Show-OλŠ” μ‚¬μš©μžκ°€ μ œκ³΅ν•œ ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλ₯Ό 기반으둜 빨간색 트둀리카λ₯Ό λ§€λˆν•œ 곑선과 색이 μΉ ν•΄μ§„ 창문이 μžˆλŠ” νŒŒλž€μƒ‰ 슀포츠카둜 λ³€ν™˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. Show-OλŠ” λ˜ν•œ μ£Όμ–΄μ§„ ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλ₯Ό 기반으둜 원본 이미지λ₯Ό μˆ˜ν‰ λ˜λŠ” 수직으둜 μ™Έμ‚½ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 두 번째 ν–‰μ—μ„œ Show-OλŠ” "λΉ¨κ°„ 야생화"와 같은 μƒˆ 개체λ₯Ό μΆ”κ°€ν•˜μ—¬ 이미지λ₯Ό μ™Έμ‚½ν•©λ‹ˆλ‹€. μΈνŽ˜μΈνŒ…λœ μ˜μ—­κ³Ό μ™Έμ‚½λœ μ˜μ—­μ˜ 픽셀은 원본 이미지와 일관성을 μœ μ§€ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ˜ˆλŠ” λ‹€μš΄μŠ€νŠΈλ¦Ό μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ— λŒ€ν•œ 자기 νšŒκ·€ λͺ¨λΈμ— λΉ„ν•΄ Show-O의 κ³ μœ ν•œ 이점을 λͺ…ν™•ν•˜κ²Œ λ³΄μ—¬μ€λ‹ˆλ‹€.

μ΅œμ’… 생각

이 κΈ€μ—μ„œλŠ” λ©€ν‹°λͺ¨λ‹¬ 이해와 생성을 ν†΅ν•©ν•˜λŠ” 톡합 트랜슀포머인 Show-O에 λŒ€ν•΄ μ„€λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. μ™„μ „ν•œ 자기 νšŒκ·€ λͺ¨λΈκ³Ό 달리 Show-OλŠ” 자기 νšŒκ·€ 및 이산 ν™•μ‚° λͺ¨λΈλ§μ„ ν†΅ν•©ν•˜μ—¬ λ‹€μ–‘ν•˜κ³  ν˜Όν•©λœ λͺ¨λ‹¬λ¦¬ν‹°μ˜ μž…λ ₯κ³Ό 좜λ ₯을 μ μ‘μ μœΌλ‘œ μ²˜λ¦¬ν•©λ‹ˆλ‹€. 톡합 λͺ¨λΈμ€ μ‹œκ°μ  질의 응닡, ν…μŠ€νŠΈ-이미지 생성, ν…μŠ€νŠΈ μœ λ„ μΈνŽ˜μΈνŒ…/μ™Έμ‚½, ν˜Όν•© λͺ¨λ‹¬λ¦¬ν‹° 생성을 ν¬ν•¨ν•œ κ΄‘λ²”μœ„ν•œ μ‹œκ° μ–Έμ–΄ μž‘μ—…μ„ μœ μ—°ν•˜κ²Œ μ§€μ›ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ Show-OλŠ” λ™λ“±ν•˜κ±°λ‚˜ 더 λ§Žμ€ 수의 λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ κΈ°μ‘΄ κ°œλ³„ λͺ¨λΈκ³Ό λ™λ“±ν•˜κ±°λ‚˜ 더 μš°μˆ˜ν•œ μ„±λŠ₯을 보여 μ°¨μ„ΈλŒ€ 기반 λͺ¨λΈλ‘œμ„œμ˜ 잠재λ ₯을 κ°•μ‘°ν•©λ‹ˆλ‹€. 이 ν”„λ ˆμž„μ›Œν¬μ—μ„œ λͺ¨λΈμ€ 연속적인 잠재 ν‘œν˜„μ— μΆ”κ°€λœ κ°€μš°μ‹œμ•ˆ λ…Έμ΄μ¦ˆλ₯Ό μ˜ˆμΈ‘ν•˜λŠ” μž‘μ—…μ„ λ§‘μŠ΅λ‹ˆλ‹€. 반면 D3PM, Mask-predict, ARDM, MaskGITκ³Ό 같은 λ‹€λ₯Έ λͺ¨λΈμ€ κ°€μš°μ‹œμ•ˆ ν™•μ‚°μ˜ λŒ€μ•ˆμœΌλ‘œ 이산 손상 ν”„λ‘œμ„ΈμŠ€λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. Show-OλŠ” μžκΈ°νšŒκ·€ 및 이산 ν™•μ‚° λͺ¨λΈλ§μ„ ν†΅ν•©ν•œ 졜초의 λͺ¨λΈλ‘œ, λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό μ„œλ‘œ λ‹€λ₯Έ λ°©μ‹μœΌλ‘œ μ²˜λ¦¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. κ΄‘λ²”μœ„ν•œ μ‹€ν—˜ 결과에 λ”°λ₯΄λ©΄ Show-OλŠ” κ΄‘λ²”μœ„ν•œ μ‹œκ° μ–Έμ–΄ μž‘μ—…μ—μ„œ κ°œλ³„ μ „λ¬Έκ°€ λͺ¨λΈκ³Ό λΉ„μŠ·ν•˜κ±°λ‚˜ 더 λ‚˜μ€ κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. μ΄λŠ” μ°¨μ„ΈλŒ€ 기반 λͺ¨λΈλ‘œμ„œμ˜ 잠재λ ₯을 κ°•μ‘°ν•©λ‹ˆλ‹€.

"직업은 μ—”μ§€λ‹ˆμ–΄, λ§ˆμŒμ€ μž‘κ°€". Kunal은 AI와 ML에 λŒ€ν•œ κΉŠμ€ μ• μ •κ³Ό 이해λ₯Ό κ°€μ§„ 기술 μž‘κ°€λ‘œ, λ§€λ ₯적이고 μœ μ΅ν•œ λ¬Έμ„œλ₯Ό 톡해 이 λΆ„μ•Όμ˜ λ³΅μž‘ν•œ κ°œλ…μ„ λ‹¨μˆœν™”ν•˜λŠ” 데 μ „λ…ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.