인공지능

LLaVA-UHD: 任意의 종횡비와 고해상도 이미지 효율적으로 인식

게시일 2024년 6월 6일

업데이트일 2026년 5월 21일

작성자

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

최근 대규모 언어 모델의 발전은 시각-언어 추론, 이해, 상호 작용 능력에서 상당한 향상을 경험했습니다. 현대적인 프레임워크에서는 시각 신호를 대규모 언어 모델(LLM)에 공급하여 시각적으로 세계를 해석할 수 있도록 합니다. 시각 인코딩 전략이 중요한 역할을 하는 다양한 시나리오가 있습니다. 그러나 실제 이미지에는 다양한 시나리오뿐만 아니라 해상도와 종횡비에서도 상당한 차이가 있습니다. 이는 다양한 도메인과 작업에서 대규모 언어 모델에 대한重大한 도전을 제기합니다. 실제 이미지의 상당한 분산을 해결하기 위해 현대적인 대규모 언어 모델은 일반적으로 저해상도(예: LLaVA-UHD의 경우 224×224)와 고정된 종횡비(예: 1:1)를 갖는 이미지로 작업합니다. 이妥協은 실제 응용 프로그램에서 대규모 언어 모델의 일반화 가능성을 높이는 데 유용하지만 이미지의 내용을 많이 흐리며 심각한 모양 왜곡을 유발합니다. 이는 특히 광학 문자 인식 및 작은 객체 이해와 같은 세부 작업을 최적화한 대규모 다중 모달 모델 또는 LMM의 능력을 저하합니다. 이미지가 미리 정의된 해상도와 종횡비를 갖기 때문에 모델은 흐린 이미지를猜测할 수만 있으며 이는 모델의 환각을 유발하여 생성된 텍스트 응답이 이미지에 사실적으로 근거하지 않는 상황에 처하게 됩니다.

이미지를 고해상도와 다양한 종횡비로 인식하는 것이 가능한 이유는 두 가지 주요 이유가 있습니다. 첫째, 시각 인코더는 고정된 해상도에서 사전 학습되므로 모델과 인코더가 다양한 종횡비와 해상도의 이미지를 처리하는 것이 어렵습니다. 이는 모델의 적응성을 크게影响합니다. 둘째, 비전 트랜스포머를 사용하여 고해상도 이미지를 직접 인코딩하는 것은 상당한 계산 비용을 수반하며 이미지 크기에 대한 계산 비용이 훨씬 더 높을 수 있습니다. 따라서 대규모 언어 모델이 고해상도 이미지의 많은 시각 토큰을 처리하는 것은 모델의 效率을 크게 저하할 수 있습니다. 이러한 도전을 극복하기 위해 LLaVA-UHD는 LLaVA-1.5와 GPT-4V 프레임워크를 대표적인 예로 사용하여 시각 인코딩 전략의 근본적인 결함을暴露하려고 합니다.

위의 이미지는 GPT-4V가 이미지 내의 객체 수를 식별하는 실험 결과를 반영합니다. LLaVA-UHD 프레임워크의 핵심에는 세 가지 구성 요소가 있습니다. 첫째, 네이티브 해상도 이미지를 효율성을 높이고 인코딩을 확장하기 위해 더 작은 가변 크기의 조각으로 나누는 이미지 모듈화 전략입니다. 최근의 LLM과 달리 LLaVA-UHD 프레임워크는 이미지의 모양을 왜곡하지 않고, 크기를 조정하지도 않고, 패딩하지도 않으면서 네이티브 해상도 이미지를 완전히 적응시킬 수 있습니다. 둘째, 시각 인코더에 의해 생성된 이미지 토큰을 더 짧은 길이로 압축하는 압축 모듈입니다. 이는 대규모 언어 모델의 계산을 크게 줄입니다. 마지막으로 대규모 언어 모델에 대한 조각 토큰의 공간적 구성입니다.

LLaVA-UHD: 방법론 및 아키텍처

GPT-4V 및 LLaVA-1.5를 포함한 기존 프레임워크에 대한 파일럿 실험의 교훈에 기반하여 LLaVA-UHD 프레임워크는 세 가지 구성 요소 아키텍처를 구현합니다.

첫째, 효율성을 높이고 인코딩을 확장하기 위해 네이티브 해상도 이미지를 더 작은 가변 크기의 조각으로 나누는 이미지 모듈화 전략입니다. 둘째, 시각 인코더에 의해 생성된 이미지 토큰을 더 짧은 길이로 압축하는 압축 모듈입니다. 마지막으로 대규모 언어 모델에 대한 조각 토큰의 공간적 구성입니다. 이러한 구성 요소에 대해 자세히 살펴보겠습니다.

모듈화된 시각 인코딩

고해상도와 다양한 종횡비의 이미지를 처리하는 일반적인 접근 방식은 비전 트랜스포머 또는 ViT의 위치 임베딩을 대상 형태로 보간하는 것입니다. 그러나 이러한 접근 방식은 일반적으로 높은 계산 비용을 수반하며, 분포 밖의 문제로 인해 성능이 저하될 수 있습니다. 이러한 도전을 극복하기 위해 LLaVA-UHD 프레임워크는 모듈화된 시각 인코딩 전략을 제시합니다. 이는 네이티브 해상도 이미지를 더 작은 가변 크기의 조각으로 나누는 것을 목표로 합니다. 각 조각의 모양은 비전 트랜스포머의 표준 사전 학습 설정과 매우 유사합니다. 가변 크기의 조각을 사용함으로써 LLaVA-UHD 프레임워크는 네이티브 해상도 이미지를 완전히 적응시킬 수 있습니다. 이미지 조각화 전략의 주요 목표는 이미지의 해상도에 대한 최소한의 변경으로 이미지의 분할을 결정하는 것입니다.

さらに, 대부분의 기존 LLM은 이미지 조각 인코딩에 대해 정적인 해상도를 구현합니다. 이는 모델이 네이티브 해상도에 완전히 적응하는 것을 방해하는 접근 방식입니다. 정적인 조각 해상도는 모델의 성능, 효율성, 정확성을 저하하며, 필연적으로 모양을 왜곡하는 크기 조정 또는 패딩을 유발합니다. 이러한 문제를 해결하기 위해 LLaVA-UHD 프레임워크는 분할 전략에 의해 정의된 종횡비로 이미지 조각을 인코딩하도록 제안합니다. 구체적으로, LLaVA-UHD 프레임워크는 원본 이미지를 비전 트랜스포머의 위치 임베딩 시퀀스 길이 내에서 적합하도록 종횡비에 따라 비례적으로 조정합니다.

압축 레이어

고해상도 이미지를 처리할 때 대규모 언어 모델이 직면하는 일반적인 문제는 처리해야 하는 시각 토큰의 양이 상당히 높다는 것입니다. 이는 계산 리소스와 비용의 주요 부분을 차지합니다. 이러한 도전을 해결하기 위해 LLaVA-UHD 모델은 시각 토큰을 압축하는 공유 퍼시버 리샘플러 레이어를 구현합니다. 모델은 시각 인코더의 출력을 더 짧은 길이로 압축하기 위해 쿼리 벡터를 통해 교차 주의를 사용합니다. 이는 기존의 다층 퍼셉트론 기반 시각 프로젝션 전략과 비교하여 이미지 해상도에 관계없이 시각 토큰의 고정된 수를 유지할 수 있습니다.

이미지 조각의 공간적 구성

이미지를 동적으로 분할하기 때문에 대규모 언어 모델에 대한 이미지 조각의 공간적 구성에 대한 정보를 제공하는 것이 필요합니다. LLaVA-UHD 프레임워크는 두 개의 특별한 토큰을 사용하여 조각의 상대적 위치에 대한 정보를 제공하는 공간적 구성도를 설계하고 구현합니다. 이 공간적 구성도에서 LLaVA-UHD 프레임워크는 행의 조각 표현을 구분하기 위해 “,”를 사용하며, 다른 행은 “n”으로 구분합니다.

LLaVA-UDH: 실험 및 결과

LLaVA-UHD 프레임워크는 일반적인 시각 질문 응답 벤치마크, 광학 문자 기반 시각 질문 응답 벤치마크, 환각 벤치마크, 포괄적인 벤치마크를 포함한 9개의 인기 있는 벤치마크에 대해 평가됩니다. 또한 LLaVA-UHD 프레임워크는 LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 등 강력한 베이스라인과 비교됩니다.

LLaVA-UHD 프레임워크의 9개 인기 있는 벤치마크에 대한 성능은 요약되고, 아래의 표와 비교됩니다.

위의 성능에 기반하여, LLaVA-UHD 프레임워크가 강력한 베이스라인 모델을 능가하는 것으로 결론지을 수 있습니다. 이는大量의 데이터에서 학습된 강력한 일반적인 베이스라인과 더불어, 계산이 많이 필요한 Fuyu-8B, Monkey 등과 같은 LLM을 능가합니다. 둘째, 결과는 또한 LLaVA-UHD 프레임워크가 LLaVA-1.5 아키텍처보다 훨씬 더 나은 결과를 달성하며, LLaVA-1.5는 고정된 336×336 해상도를 지원하는 반면, LLaVA-UHD 프레임워크는任意의 종횡비와 672×1088 해상도의 이미지를 지원하며, 동일한 수의 시각 토큰을 생성합니다.

최종 생각

이 기사에서 우리는 LLaVA-UHD, LLaVA-1.5와 GPT-4V 프레임워크를 대표적인 예로 사용하여 시각 인코딩 전략의 근본적인 결함을暴露하려고 하는 새로운 접근 방식에 대해 논의했습니다. LLaVA-UHD 프레임워크는 다중 모달 모델로, 이러한 도전을 해결하려고 합니다. LLaVA-UHD 프레임워크는 고해상도와任意의 종횡비의 이미지를 인식할 수 있습니다. LLaVA-UHD 프레임워크는 세 가지 핵심 구성 요소로 구성됩니다. 첫째, 효율성을 높이고 인코딩을 확장하기 위해 네이티브 해상도 이미지를 더 작은 가변 크기의 조각으로 나누는 이미지 모듈화 전략입니다. 둘째, 시각 인코더에 의해 생성된 이미지 토큰을 더 짧은 길이로 압축하는 압축 모듈입니다. 마지막으로 대규모 언어 모델에 대한 조각 토큰의 공간적 구성입니다. 포괄적인 실험에 따르면, LLaVA-UHD 프레임워크가 9개의 벤치마크에서 최첨단 대규모 언어 모델을 능가하는 것으로 나타났습니다. 또한, 추론 계산의 94%만을 사용하여, LLaVA-UHD 프레임워크는 6배 더 큰 해상도(672×1088)의 이미지를 지원할 수 있습니다.