인공지능

Osprey: 픽셀 수준 이해를 위한 시각적 지침 조정

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

최근 시각적 지침 조정 방법의 향상으로 다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 놀라운 범용 시각-언어 능력을展示했습니다. 이러한 능력은 현대 범용 시각 어시스턴트의 핵심 빌딩 블록을 만듭니다. 최근 모델, MiniGPT-4, LLaVA, InstructBLIP 및 기타 모델은 인상적인 시각적 추론 및 지침-추종 능력을展示합니다. 그들 중 대부분은 이미지-텍스트 쌍에 의존하여 이미지 수준의 시각-언어 정렬을 수행하지만, 이 도메인에서 잘 수행됩니다. 그러나 박스 수준 및 이미지 수준의 이해에 대한 그들의 의존은 MLLMs가 픽셀 수준의 미세한 시각-언어 정렬 작업에서 그들의 성능을 복제하지 못하는 주요 이유입니다. 또한, 마스크 기반 지침 데이터의 제한된 가용성은 MLLMs를さらに 향상시키는 데 도전을 제기합니다.

Osprey는 마스크-텍스트 지침 훈련 방법으로, 주요 목표는 미세한 마스크 영역을 언어 지침에 통합하여 픽셀 수준의 시각-언어 이해를 달성하는 것입니다. 이를 위해 Osprey 프레임워크는 70만 개 이상의 샘플을 갖는 마스크 기반 지역-텍스트 데이터셋을 구축합니다. 또한, Osprey 프레임워크는 대규모 언어 모델(Large Language Models, LLMs)에 픽셀 수준의 표현을 주입하여 시각-언어 모델을 설계합니다. 특히, Osprey 프레임워크는 컨볼루션 CLIP 모델을 시각 인코더로 채택하고, 마스크 인식 시각 추출기를其 구조에 통합합니다. 이는 높은 해상도 입력에서 정밀한 시각 마스크 특징을 추출하는 것을 가능하게 합니다.

이 기사에서, Osprey 프레임워크와その 구조에 대해 논의할 것입니다. 또한, 70만 개 이상의 샘플을 갖는 구축된 지역-텍스트 데이터셋과 다양한 지역 이해 작업에서의 성능을 비교할 것입니다. 따라서, 시작해 보겠습니다.

Osprey: 픽셀 이해를 위한 시각적 지침 조정

다중 모달 대규모 언어 모델(Multimodal Large Language Models)인 MiniGPT-4, Otter, Qwen-LV, InstructBLIP 및 기타 모델은 범용 시각 어시스턴트 개발을 위한 선두 주자이며, 그들의 예외적인 다중 모달 및 시각 생성 능력으로 유명합니다. 그러나 다중 모달 대규모 언어 모델은 미세한 이미지 이해 작업에서 불만족스러운 결과를 제공합니다. 이러한 작업에는 캡션, 지역 분류, 추론 등이 포함됩니다. 미세한 이미지 이해 작업에서 성능이 부족한 주요 이유는 지역 수준의 정렬이 부족하기 때문입니다. 최근의 다중 모달 대규모 언어 모델인 GPT4RoI, Shikra 및 기타 모델은 객체 수준의 시각적 지침 조정과 공간 특징을 사용하여 지역 수준의 이해를 가능하게 합니다.

지역 수준의 이해를 가능하게 하는 접근 방식은 성능을 개선할 수 있지만, 희박한 바운딩 박스를 직접 참조 입력 지역으로 사용하면 관련 없는 배경 특징을 도입하여 시각적 지침 조정에서 지역-텍스트 쌍 정렬이 불准确해질 수 있습니다. 추론过程에서 박스 수준의 참조 입력은 객체를 정확하게 감지하고 표현하지 못할 수 있으며, 이는 의미적 편차를 초래할 수 있습니다.

반면에, 粗한 바운딩 박스 대신 미세한 마스크를 참조 입력으로 사용하면 객체를 더 정밀하게 표현할 수 있습니다. 최근 개발된 SAM(Segment Anything Model) 또는 기타 모델은 높은 품질의 마스크를 사용하여 훈련하며, 영역 객체에 대한 놀라운 분할 품질을 보여주고, 점 또는 간단한 바운딩 박스를 프롬프트로 사용하는 것을 지원합니다. 그러나 SAM 프레임워크는 기본적인 의미적 레이블을 생성할 수 없으며,詳細한 의미적 캡션 및 속성을 제공할 수 없습니다. 따라서, 기존 모델은 내재적인 다중 모달 미세한 정보를缺하고 있으며, 실제 세계의 장면에 대한 이해가 제한적입니다.

기존 다중 모달 대규모 언어 모델의 도전을 해결하기 위해, Osprey는 미세한 마스크 영역을 언어 지침에 통합하여 픽셀 수준의 시각-언어 이해를 달성하는 새로운 마스크-텍스트 지침 훈련 방법입니다. Osprey 프레임워크는 미세한 마스크 특징을 캡처하는 마스크 인식 시각 추출기를 도입합니다. Osprey 프레임워크는 시각적 특징을 언어 지침과 함께 입력 시퀸스를 생성하고, 컨볼루션 CLIP 아키텍처를 사용하여 높은 해상도 입력을 가능하게 합니다. Osprey 프레임워크의 설계와 구조로 인해, 객체 수준과 부분 수준의 지역에 대한 미세한 의미적 이해를 달성하고, 객체 속성 및 복잡한 장면에 대한詳細한 설명을 제공할 수 있습니다.

시각적 지침 조정을 활용하여, Osprey 프레임워크는 이미지 수준과 박스 수준의 이해를 넘어서는 새로운 능력을 가능하게 합니다. Osprey 프레임워크는 SAM과 같은 오프-더-쉘프 모델에서 클래스-에이그노런트 마스크를 사용하여 미세한 의미를 생성할 수 있습니다. 또한, Osprey는 객체 분류, 오픈 보카블러리 인식, 지역 수준 캡션 및詳細한 지역 설명 작업에서 뛰어난 능력을 보여줍니다.

Osprey: 방법론 및 아키텍처

다음 그림은 Osprey 프레임워크의 아키텍처 개요를 보여주며, 대규모 언어 모델, 픽셀 수준 마스크 인식 시각 추출기 및 이미지 수준 시각 인코더로 구성됩니다.

입력 이미지, 언어 및 참조 마스크 지역이 주어지면, 프레임워크는 변환 및 토큰화하여 임베딩을 생성하고, 언어 임베딩 시퀸스 및 마스크 특징을 대규모 언어 모델에 보내어 미세한 의미적 이해를 얻습니다.

컨볼루션 CLIP 시각 인코더

다중 모달 대규모 언어 모델에서 사용되는 시각 인코더는 주로 ViT 기반 CLIP 모델을 사용합니다. 따라서, 프레임워크는 224×224 픽셀 또는 336×336 픽셀의 이미지 해상도를 사용합니다. 그러나, ViT 기반 CLIP 모델을 사용하면 픽셀 수준의 이미지 이해를 달성하기가 어려워집니다. 이는 작은 지역에서 더욱 심해집니다. 또한, ViT 아키텍처의 계산 오버헤드는 입력 이미지 해상도를 증가시키는 가능성을 방해합니다.

이 도전을 해결하기 위해, Osprey 프레임워크는 컨볼루션 CLIP 모델을 시각 인코더로 구현합니다. 전통적으로, 컨볼루션 신경망 기반 CLIP 모델은 다양한 입력 해상도에서 뛰어난 일반화 능력을 보여주었습니다. 컨볼루션 기반 CLIP 모델을 구현하면 빠른 추론 및 효율적인 훈련이 가능하며, 모델의 성능을 저하하지 않습니다. 또한, 컨볼루션 기반 CLIP 모델은 다중 스케일 특징 맵을 생성할 수 있으며, 프레임워크는 이후의 객체 지역에서 특징 추출에 직접 사용합니다.

마스크 인식 시각 추출기

기존 지역 기반 모델과 달리, Osprey 프레임워크는 희박한 바운딩 박스 대신 미세한 마스크 지역을 참조 입력으로 사용합니다. Osprey 모델은 객체 기반 표현을 구현하기 위해 마스크 인식 시각 추출기 구성 요소를 사용합니다. 마스크 인식 시각 추출기 구성 요소는 각 객체 지역 내의 픽셀 수준 특징을 캡처합니다.

이를 위해, Osprey는 시각 인코더에서 생성된 다중 수준 이미지 특징을 사용하여 마스크 풀링 연산을 채택하고, 각 특징 수준에서 마스크 지역 내의 모든 특징을 풀링합니다. 모델은 다양한 층에서 특징을 인코딩하고, 선형 투영层를 통해 지역 수준 임베딩을 생성하며, 다중 수준 특징을 합산하여 시각 마스크 토큰을 생성합니다. 모델은 또한, 이진 마스크를 통해 각 객체 지역의 픽셀 수준 위치 관계를 인코딩하여 공간 기하학을 보존합니다. 마지막으로, Osprey는 각 마스크 지역 임베딩에 대한 시각 마스크 토큰과 공간 토큰을 포함합니다.

LLM 토큰화

이전과 같이, 모델은 이미지 수준 임베딩을 생성하기 위해 이미지로 미리 훈련된 CNN 기반 시각 인코더를 사용합니다. 텍스트 정보의 경우, 모델은 미리 훈련된 LLM 토크나이저를 사용하여 텍스트 시퀸스를 토큰화하고, 토큰화된 텍스트 시퀸스를 임베딩으로 투영합니다. 마스크 기반 지역의 경우, 모델은 특수 토큰을 플레이스홀더로 정의하고, 공간 토큰 및 마스크 토큰으로 대체합니다. 모델은 텍스트 입력에서 객체 지역을 참조할 때, 지역 이름 뒤에 플레이스홀더를追加하여 마스크 지역이 텍스트와 잘 혼합되도록 합니다.

Osprey: 3단계 훈련 과정

Osprey 프레임워크는 3단계 훈련 과정을 사용하며, 각 훈련 단계는 다음 토큰 예측 손실을 최소화하여 감독됩니다.

단계 1: 이미지-텍스트 정렬 훈련

첫 번째 단계에서, Osprey 프레임워크는 CNN 기반 CLIP 시각 인코더를 사용하여 이미지 수준 특징과 언어 커넥터를 훈련하여 이미지-텍스트 특징 정렬을 수행합니다. 첫 번째 단계에서, 프레임워크는 세 가지 구성 요소를 사용합니다. 미리 훈련된 대규모 언어 모델, 미리 훈련된 시각 인코더 및 이미지 수준 프로젝터입니다. 또한, Osprey는 시각-언어 커넥터로 MLP 층을 사용하여 Osprey의 다중 모달 생성 능력을 향상합니다.

단계 2: 마스크-텍스트 정렬 프리 트레이닝

두 번째 단계에서, Osprey는 첫 번째 단계에서 훈련된 가중치를 로드하고, 마스크 인식 시각 추출기 구성 요소를 사용하여 픽셀 수준 지역 특징을 캡처합니다. 두 번째 단계에서, 프레임워크는 마스크 인식 시각 추출기만을 훈련하여 언어 임베딩과 마스크 기반 지역 특징을 정렬합니다. 또한, 모델은 픽셀 수준 마스크 쌍과 짧은 텍스트를 부분 수준 및 공개적으로 사용 가능한 객체 수준 데이터셋에서 수집하여 지침-추종 데이터를 생성하고 모델을 추가로 훈련합니다.

단계 3: 종단 간 미세 조정

세 번째 및 최종 단계에서, 모델은 시각 인코더의 가중치를 고정하고, 대규모 언어 모델, 마스크 기반 지역 특징 추출기 및 이미지 수준 프로젝터 구성 요소를 미세 조정합니다. 세 번째 단계의 주요 목표는 모델의 능력을 확장하여 사용자 지침을 정확하게 따라하고, 픽셀 수준 지역 이해 작업을 효율적으로 수행하는 것입니다.

세 단계의 훈련을 완료한 후, Osprey 프레임워크는 사용자 지침과 픽셀 수준 마스크 지역으로 정의된 복잡한 시나리오를 이해할 수 있습니다.

Osprey: 실험 결과

Osprey 개발자는 모델의 능력을 평가하기 위해 다양한 실험을 수행하여 분류, 픽셀 수준 지역 기반 인식 및 복잡한 설명에 대한 모델의 능력을展示합니다.

오픈 보카블러리 분할

오픈 보카블러리 분할의 주요 목표는 마스크 기반 지역 인식 및 해당 카테고리를 명시적으로 생성하는 것입니다. 이를 위해, Osprey는 입력 텍스트 프롬프트를 사용하고, 모델의 성능을 평가하기 위해 실제 마스크 지역을 사용합니다. 다중 모달 대규모 언어 모델의 출력에 대한 문장 응답을 계산하여, 어휘 목록과 각 데이터셋의 출력 사이의 의미적 유사성을 계산합니다. 다음 그림은 Osprey를 상태 오프 더 아트 다중 모달 대규모 언어 모델과 비교합니다.

그림에서 볼 수 있듯이, Osprey 프레임워크는 Cityscapes 및 ADE20K-150 데이터셋에서 기존 방법을 상당한 차이로 능가합니다. 결과는 Osprey의 미세한 객체 지역에 대한 이해 및 인식 능력을 보여줍니다.

참조 객체 분류

참조 객체 분류 작업에서, 모델은 특정 지역 내의 객체를 분류해야 합니다. Osprey 프레임워크는 두 가지 의미적 관련성 지표를 사용하여 분류 능력을 평가합니다. 의미적 IoU(Semantic IoU)와 의미적 유사성(Semantic Similarity)입니다. 의미적 IoU는 실제 레이블과 예측 레이블 사이의 단어의 중첩을 나타내며, 의미적 유사성은 예측 레이블과 실제 레이블 사이의 의미적 공간에서의 유사성을 측정합니다. 다음 그림은 Osprey의 박스 수준 및 이미지 수준 접근 방식과 비교한 참조 객체 분류 작업에서의 Osprey의 성능을 보여줍니다.

상세 지역 설명

상세 지역 설명 작업에서, 모델은 지침-추종 상세 설명 능력 및 기타 지역 기반 접근 방식의 성능을 평가합니다. 모델은 랜덤으로 입력 추론 프롬프트를 선택하고, GPT-4 LLM 프레임워크를 사용하여 모델의 응답의 품질을 평가합니다. 지침 생성 파이프라인을 사용하여, 모델은 질문을 생성하고, GPT-4의 답변을 구한 후, 참조 지역의 의미적 이해의 정확성과 정밀성을 평가합니다. 다음 표는 Osprey의 상태 오프 더 아트 모델과 비교한 상세 지역 설명 작업에서의 Osprey의 성능을 보여줍니다.

지역 수준 캡션

Osprey 프레임워크는 또한 지역 수준 캡션 작업에서 현재 접근 방식을 능가합니다. 결과는 다음 그림에 포함되어 있습니다.

최종 생각

이 기사에서, Osprey에 대해 논의했습니다. Osprey는 미세한 마스크 지역을 언어 지침에 통합하여 픽셀 수준의 시각-언어 이해를 달성하는 마스크-텍스트 지침 훈련 방법입니다. 이를 위해, Osprey 프레임워크는 70만 개 이상의 샘플을 갖는 마스크 기반 지역-텍스트 데이터셋을 구축하고, 대규모 언어 모델에 픽셀 수준의 표현을 주입하여 시각-언어 모델을 설계합니다. Osprey 프레임워크는 컨볼루션 CLIP 모델과 마스크 인식 시각 추출기를 사용하여 객체 및 부분 수준의 지역에 대한 미세한 의미적 이해를 달성합니다.