์ธ๊ณต์ง๋ฅ
LLaVA-UHD: LMM๊ฐ ไปปๆ์ Aspect Ratio ๋ฐ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์ธ์
최근의 대규모 언어 모델의 발전은 시각-언어推論, 이해, 상호 작용 능력에서 상당한 향상을 경험했습니다. 현대적인 프레임워크는 시각 신호를 LLM 또는 대규모 언어 모델에 투영하여 시각적으로 세계를 인식할 수 있는 능력을 가능하게 합니다. 시각 인코딩 전략이 중요한 역할을 하는 시나리오의 배열입니다. 그러나 실제 이미지에는 다양한 시나리오뿐만 아니라 해상도와 종횡비가 크게 다르기 때문에 LLM에 대한重大な 도전이 됩니다. 실제 이미지의重大한 분산을 해결하기 위해 현대적인 대규모 언어 모델은 224×224의 낮은 해상도와 1:1의 고정 종횡비로 이미지를 인식합니다. 낮은 해상도와 고정 종횡비를 사용하는 것은 실제 응용 프로그램에서 LLM의 일반화 가능성을 증가시키는 데 유용하지만 이미지의 내용을 크게 흐리며 심각한 모양 왜곡을 유발합니다. 이는 특히 광학 문자 인식 및 작은 객체 이해와 같은 세부 작업을 위해 최적화된 대규모 다중 모달 모델 또는 LMM의 능력에重大한 영향을 미칩니다. 또한 해상도와 종횡비가事先 정의되므로 모델은 흐린 이미지에 대한 최상의 추측만 할 수 있게 되며, 이는 모델의 환각을 유발하여 이미지에 사실적으로 근거하지 않은 텍스트 응답을 생성합니다.
이 기사에서는 LLaVA-UHD에 대해 논의할 것입니다. LLaVA-UHD는 LLaVA-1.5와 GPT-4V 프레임워크를 대표적인 예로 사용하여 시각 인코딩 전략에 내재된 체계적인 결함을暴露하려고 합니다. LLaVA-UHD 프레임워크는 다중 모달 모델로, 이러한 도전을 해결하려고 합니다. LLaVA-UHD 프레임워크는 고해상도 및 任意의 종횡비로 이미지 인식할 수 있습니다. LLaVA-UHD 프레임워크는 세 가지 주요 구성 요소로 구성됩니다. 첫째, 효율성과 인코딩을 확장하기 위해 원본 해상도 이미지들을 작은 가변 크기의 조각으로 나누는 이미지 모듈화 전략입니다. 둘째, 시각 인코더에 의해 생성된 이미지 토큰을 추가로 압축하는 압축 모듈입니다. 마지막으로, 큰 언어 모델에 대한 조각 토큰을 조직하는 공간 스키마입니다. 포괄적인 실험 결과는 LLaVA-UHD 프레임워크가 9개의 벤치마크에서 최신 대규모 언어 모델을 능가할 수 있음을 나타냅니다. 또한, LLaVA-UHD 프레임워크는 94%의 추론 계산만을 사용하여 6배 더 큰 해상도(672×1088)의 이미지 지원을 가능하게 합니다.
… (rest of the content remains the same, following the exact same structure and format as the original, with only the visible text translated into Korean)












