์ธ๊ณต์ง๋ฅ
Osprey: ํฝ์ ์์ค ์ดํด๋ฅผ ์ํ ์๊ฐ์ ์ง์นจ ์กฐ์

최근 시각적 지침 조정 방법이 향상됨에 따라 다중 모드 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 뛰어난 일반적인 시각-언어 기능을 보여주고 있다. 이러한 기능은 현대적인 일반적인 시각 보조기를 구축하는 데 중요한 구성 요소이다. 최근 모델, MiniGPT-4, LLaVA, InstructBLIP 등은 인상적인 시각적 추론과 지침을 따르는 능력을 보여주고 있다. 그러나 이들 대부분은 이미지-텍스트 쌍에 의존하여 이미지 수준의 시각-언어 정렬을 수행하며, 이 영역에서 잘 작동한다. 그러나 박스 수준과 이미지 수준의 이해에 대한 의존은 MLLMs가 픽셀 수준의 미세한 시각-언어 정렬 작업에서 그 성능을 반복하지 못하는 주요 이유이다. 또한, 마스크 기반 지침 데이터의 제한된 가용성은 MLLMs를 더욱 향상시키는 데 도전을 제기한다.
Osprey는 마스크-텍스트 지침 훈련 방법으로, 주요 목표는 미세한 마스크 영역을 언어 지침에 통합하여 픽셀 수준의 시각-언어 이해를 달성하는 것이다. 이를 위해 Osprey 프레임워크는 70만 개 이상의 샘플을 포함하는 마스크 기반 영역-텍스트 데이터셋을 구축한다. 또한, Osprey 프레임워크는 CNN 기반 CLIP 모델을 시각 인코더로 사용하며, 마스크 인식 시각 추출기를 통합하여 고해상도 입력에서 시각 마스크 특징을 정밀하게 추출할 수 있다.
이 기사에서 Osprey 프레임워크와その 구조에 대해 자세히 다루고, 구축된 데이터셋과 다양한 지역 이해 작업에서의 성능을 비교해 볼 것이다. Osprey 프레임워크는 CNN 기반 CLIP 모델과 마스크 인식 시각 추출기를 사용하여 픽셀 수준의 시각-언어 이해를 달성하며, 이는 부분 수준과 객체 수준의 영역에서 이미지 이해를 가능하게 한다.
Osprey: 픽셀 수준 이해를 위한 시각적 지침 조정
다중 모드 대규모 언어 모델(Multimodal Large Language Models)인 MiniGPT-4, Otter, Qwen-LV, InstructBLIP 등은 일반적인 시각 보조기를 개발하는 데 앞장서고 있으며, 뛰어난 다중 모드와 시각 생성 능력을 가지고 있다. 그러나 다중 모드 대규모 언어 모델은 미세한 이미지 이해 작업에서 불만족스러운 결과를 보여준다. 이는 지역 수준의 정렬이 부족하기 때문이다. 최근의 MLLMs는 GPT4RoI, Shikra 등이 객체 수준의 영역을 처리하고 시각적 지침 조정을 통해 공간 특징을 사용하여 지역 수준의 이해를 가능하게 한다.
그러나 박스 수준의 입력 영역을 직접 사용하여 지역 수준의 이해를 가능하게 하는 접근법은 배경 특징을 도입하여 시각적 지침 조정에서 불准确한 지역-텍스트 쌍 정렬을 초래할 수 있다. 다음과 같은 이미지가 이를 보여준다.

반면에, 미세한 마스크를 사용하여 객체를 표현하는 것은 더 정밀한 결과를 가져올 수 있다. 최근 개발된 SAM(Segment Anything Model)은 수십억 개의 고품질 마스크에서 훈련되어 영역 인식 작업에서 뛰어난 성능을 보여주며, 점이나 간단한 박스를 프롬프트로 사용할 수 있다. 그러나 SAM 프레임워크는 기본적인 의미적 레이블을 생성하지 못하며,詳細한 의미적 캡션과 속성을 제공하지 못한다. 따라서 기존 모델은 내재된 다중 모드 미세한 정보가 부족하며, 실제 세계의 장면을 제한적으로 이해한다.
Osprey는 다중 모드 대규모 언어 모델의 능력을 확장하여 픽셀 수준의 미세한 이해를 달성하는 것을 목표로 하는 새로운 마스크-텍스트 지침 훈련 방법이다. Osprey 프레임워크는 마스크 인식 시각 추출기를 사용하여 미세한 마스크 특징을 정밀하게 추출하며, 시각적 특징을 언어 지침과 함께 결합하여 입력 시퀀스를 생성한다. 또한, Osprey 프레임워크는 CNN 기반 CLIP 모델을 사용하여 고해상도 입력에서 시각 마스크 특징을 추출할 수 있다.
Osprey: 방법론과 구조
다음 그림은 Osprey 프레임워크의 구조 개요를 보여준다.

컨볼루션 네트워크 기반 CLIP 시각 인코더
다중 모드 대규모 언어 모델에서 사용되는 시각 인코더는 일반적으로 ViT 기반 CLIP 모델을 사용한다. Osprey 프레임워크는 CNN 기반 CLIP 모델을 사용하여 고해상도 입력에서 시각 마스크 특징을 추출할 수 있다.
마스크 인식 시각 추출기
Osprey 프레임워크는 마스크 인식 시각 추출기를 사용하여 미세한 마스크 특징을 정밀하게 추출한다. 마스크 인식 시각 추출기는 마스크 특징을 인코딩하고, 공간 위치 정보를 수집한다.
LLM 토큰화
Osprey 프레임워크는 이미지-레벨 임베딩을 추출하고, 텍스트 시퀀스를 토큰화하여 언어 임베딩을 생성한다. 또한, 마스크 기반 영역을 토큰화하여 시각적 마스크 토큰을 생성한다.
Osprey: 3단계 훈련 과정
Osprey 프레임워크는 3단계 훈련 과정을 사용하여 모델을 훈련한다. 각 훈련 단계는 다음 토큰 예측 손실을 최소화하여 감독된다.
단계 1: 이미지-텍스트 정렬 훈련
첫 번째 단계에서, Osprey 프레임워크는 CNN 기반 CLIP 시각 인코더를 사용하여 이미지-레벨 특징을 훈련하고, 언어 커넥터를 훈련하여 이미지-텍스트 특징 정렬을 수행한다.
단계 2: 마스크-텍스트 정렬 프리 트레이닝
두 번째 단계에서, Osprey 프레임워크는 첫 번째 단계에서 훈련된 가중치를 로드하고, 마스크 인식 시각 추출기를 사용하여 픽셀 수준의 지역 특징을 캡처한다.
단계 3: 종단 간 미세 조정
세 번째 단계에서, Osprey 프레임워크는 시각 인코더의 가중치를 고정하고, 대규모 언어 모델, 마스크 기반 지역 특징 추출기, 이미지-레벨 프로젝터를 미세하게 조정한다.
Osprey: 실험 결과
Osprey 개발자는 다양한 실험을 수행하여 모델의 능력을 평가한다.

오픈 보카빌러리 세그멘테이션
Osprey 프레임워크는 오픈 보카빌러리 세그멘테이션 작업에서 뛰어난 성능을 보여준다.

참조 객체 분류
Osprey 프레임워크는 참조 객체 분류 작업에서 뛰어난 성능을 보여준다.

상세 지역 설명
Osprey 프레임워크는 상세 지역 설명 작업에서 뛰어난 성능을 보여준다.

지역 수준 캡션
Osprey 프레임워크는 지역 수준 캡션 작업에서 뛰어난 성능을 보여준다.

최종 생각
이 기사에서 Osprey 프레임워크에 대해 논의했으며, Osprey 프레임워크는 미세한 마스크 영역을 언어 지침에 통합하여 픽셀 수준의 시각-언어 이해를 달성하는 것을 목표로 한다. Osprey 프레임워크는 CNN 기반 CLIP 모델과 마스크 인식 시각 추출기를 사용하여 고해상도 입력에서 시각 마스크 특징을 추출할 수 있다. Osprey 프레임워크는 다중 모드 대규모 언어 모델의 능력을 확장하여 미세한 시각-언어 이해를 달성하는 것을 목표로 한다.












