인공지능

Mini-Gemini: 멀티 모달리티 비전 언어 모델의 잠재력을 khai thác하다

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

대규모 언어 모델의 발전은 자연어 처리, 또는 NLP의 개발을 크게 가속화했습니다. 트랜스포머 프레임워크의 도입은 언어 모델의 개발을 촉진하는 중요한 里程碑이었습니다. 이것은 OPT와 BERT를 포함한 새로운 언어 모델의 파도를 촉발했으며, 이는 심오한 언어 이해를 보여주었습니다. 또한, GPT, 또는 생성적 사전 학습 트랜스포머 모델의 도입은 자율 회귀 모델링의 새로운 패러다임을 giới thiệu했으며, 언어 예측 및 생성을 위한 강력한 방법을 확립했습니다. GPT-4, ChatGPT, Mixtral, LLaMA 등과 같은 언어 모델의 출현은 빠른 발전을 더욱 가속화했으며, 각 모델은 복잡한 언어 처리 작업에서 향상된 성능을 보여주었습니다. 기존 방법 중에서 지침 조정이 대규모 언어 모델의 출력을 정제하는 데 중요한 기술로 부상했습니다. 이러한 모델을 시각 작업을 위한 특정 도구와 통합하면 그들의 적응성과 미래의 응용 프로그램을 위한 문을 열었습니다. 이것은 전통적인 텍스트 기반 처리를 넘어 시각 작업을 포함한 멀티 모달 상호 작용을 포함합니다.

또한, 자연어 처리와 컴퓨터 비전 모델의 융합은 언어와 비전 모델을 결합하여 교차 모달 이해와 추론 능력을 달성하는 VLM, 또는 비전 언어 모델을 탄생시켰습니다. 시각 및 언어 모델의 통합과 출현은 언어 처리와 시각 이해가 필요한 작업을 발전시키는 데 중요한 역할을 했습니다. 혁신적인 모델인 CLIP의 출현은 시각 작업과 언어 모델 사이의 간격을 좁혔으며, 교차 모달 응용 프로그램의 실용성을 보여주었습니다. 최근의 프레임워크인 LLaMA와 BLIP는 사용자 지정 지침 데이터를 활용하여 효율적인 전략을 개발했으며, 모델의 강력한 능력을展示했습니다. 또한, 대규모 언어 모델과 이미지 출력을 결합하는 것이 최근의 멀티 모달 연구의 초점입니다. 최근의 방법은 이미지 생성을 직접 생성하는 대신 이미지 검색 접근 방식을 사용하여 이미지 출력과 중첩 텍스트를 생성할 수 있습니다.

그러나, 비전 언어 모델과 더 발전된 모델 사이에는 여전히 성능 격차가 존재합니다. Mini-Gemini는 VLM의 잠재력을 khai thác하여 세 가지 측면에서 성능을 향상시키는 시도입니다: VLM-가이드 생성, 높은 품질의 데이터, 높은 해상도의 시각 토큰. 시각 토큰을 향상시키기 위해, Mini-Gemini 프레임워크는 추가적인 시각 인코더를 사용하여 시각 토큰의 수를 증가시키지 않고 높은 해상도의 정제를 제안합니다. Mini-Gemini 프레임워크는 또한 이미지와 추론 기반 생성의 정확한 이해를 촉진하기 위해 높은 품질의 데이터 세트를 구성합니다. 전체적으로, Mini-Gemini 프레임워크는 비전 언어 모델의 잠재력을 khai thác하고, 기존 프레임워크에 이미지 추론, 이해, 생성 능력을 동시에 제공하는 것을 목표로 합니다. 이 문서는 Mini-Gemini 프레임워크를 깊이 있게 다루고, 메커니즘, 방법론, 아키텍처 및 최신 프레임워크와의 비교를 탐구합니다. 따라서 시작해 봅시다.

Mini-Gemini: 멀티 모달리티 VLM의 가속화

최근 몇 년 동안, 대규모 언어 모델은 발전했으며, 이제는卓越한 멀티 모달리티 능력을 보유하고 있으며, 현재 비전 언어 모델의 중요한 부분이 되었습니다. 그러나, 대규모 언어 모델과 비전 언어 모델 사이에는 여전히 성능 격차가 존재합니다. 최근의 연구는 이미지와 비디오를 사용하여 비전과 대규모 언어 모델을 결합하는 방법을 찾고 있습니다. 비전 작업 자체에서, 이미지 해상도는 최소한의 시각적 환상으로 окруж되는 환경을 명확히 나타내는 데 중요한 요소입니다. 이를 통해, 연구자들은 시각적 이해를 향상시키기 위해 현재 비전 언어 모델을 개발하고 있으며, 두 가지 가장 일반적인 접근 방식은 해상도를 증가시키고 시각 토큰의 수를 증가시키는 것입니다. 높은 해상도의 이미지로 시각 토큰의 수를 증가시키면 시각적 이해가 향상되지만, 이는 종종 계산 요구와 관련된 비용이 증가하는 것을 동반합니다. 또한, 기존 모델의 능력, 데이터의 품질, 적용 가능성은 발전 과정을 가속화하기에 불충분하며, 연구자들은 “비전 언어 모델을 수용 가능한 비용으로 어떻게 가속화할 수 있는가?”라는 질문을 남깁니다.

Mini-Gemini 프레임워크는 이 질문에 대한 답변을 시도하며, 세 가지 측면에서 비전 언어 모델의 잠재력을 khai thác합니다: VLM-가이드 생성 또는 확장된 응용 프로그램, 높은 품질의 데이터, 높은 해상도의 시각 토큰. 먼저, Mini-Gemini 프레임워크는 ConvNet 아키텍처를 사용하여 효율적으로 높은 해상도의 후보를 생성하며, 시각적 세부 사항을 향상시키면서 대규모 언어 모델을 위한 시각 토큰의 수를 유지합니다. Mini-Gemini 프레임워크는 공개적으로 사용 가능한 높은 품질의 데이터 세트를 결합하여 데이터의 품질을 향상시키고, 이러한 향상을 최신의 생성 및 대규모 언어 모델과 통합하여 VLM의 성능을 향상시키고 사용자 경험을 개선합니다. Mini-Gemini 프레임워크의 다면적인 전략은 비전 언어 모델의 숨겨진 능력을 khai thác하며, 명백한 자원 제약과 함께 상당한 발전을 달성합니다.

일반적으로, Mini-Gemini 프레임워크는 任意에서 任意의 패러다임을 사용합니다. 즉, 텍스트와 이미지를 입력 및 출력으로 처리할 수 있습니다. 특히, Mini-Gemini 프레임워크는 입력 이미지에 대한 시각 토큰을 향상시키기 위한 효율적인 파이프라인을 도입하며, 쌍둥이 인코더 시스템을 특징으로 합니다. 첫 번째 인코더는 높은 해상도의 이미지용이며, 두 번째 인코더는 낮은 품질의 시각적 임베딩용입니다. 추론 중에, 인코더는 주의 메커니즘에서 작동하며, 낮은 해상도의 인코더는 시각적 쿼리를 생성하며, 높은 해상도의 인코더는 키와 값을 참조하기 위해 제공합니다. 데이터 품질을 향상시키기 위해, Mini-Gemini 프레임워크는 공개 리소스를 기반으로 더 많은 데이터를 수집 및 생성하며, 이는 작업 지향적 인струк션, 생성 관련 데이터 및 높은 해상도의 응답을 포함합니다. 이러한 증가된 양과 향상된 품질은 모델의 전체 성능과 능력을 향상시킵니다. 또한, Mini-Gemini 프레임워크는 비전 언어 모델과 최신의 생성 모델을 통합하여 동시적인 텍스트 및 이미지 생성을 지원합니다.

Mini-Gemini : 방법론 및 아키텍처

본질적으로, Mini-Gemini 프레임워크는 개념적으로 간단하며, 세 가지 구성 요소로 구성됩니다.

프레임워크는 낮은 해상도의 시각적 임베딩과 높은 해상도의 후보를 제공하기 위해 쌍둥이 시각 인코더를 사용합니다.
프레임워크는 낮은 해상도의 시각적 쿼리와 높은 해상도의 지역 사이에서 패치 수준에서 마이닝을 수행하기 위해 패치 정보 마이닝을 구현하는 것을 제안합니다.
Mini-Gemini 프레임워크는 텍스트와 이미지를 동시에 생성 및 이해하기 위해 대규모 언어 모델을 사용합니다.

쌍둥이 시각 인코더

Mini-Gemini 프레임워크는 텍스트와 이미지를 개별적으로 또는 결합하여 처리할 수 있습니다. 다음 이미지를 보여주듯이, Mini-Gemini 프레임워크는 높은 해상도의 이미지에서 낮은 해상도의 이미지를 생성하기 위해 双线형 보간을 사용하여 프로세스를 시작합니다.

그런 다음 프레임워크는 이러한 이미지를 처리하고, 두 개의 병렬 이미지 흐름에서 다중 그리드 시각적 임베딩으로 인코딩합니다. 더 구체적으로, Mini-Gemini 프레임워크는 낮은 해상도 흐름에 대한 전통적인 파이프라인을 유지하고, 시각적 임베딩을 인코딩하기 위해 CLIP-사전 학습된 비전 트랜스포머를 사용합니다. 높은 해상도 흐름에 대해서는, Mini-Gemini 프레임워크는 적응적이고 효율적인 높은 해상도 이미지 처리를 위한 CNN 또는 합성 신경망 기반 인코더를 채택합니다.

패치 정보 마이닝

쌍둥이 시각 인코더가 LR 임베딩과 HR 특징을 생성한 후, Mini-Gemini 프레임워크는 비전 언어 모델의 잠재력을 khai thác하기 위해 패치 정보 마이닝을 구현하는 것을 제안합니다. 효율성을 위해 대규모 언어 모델에서 시각 토큰의 수를 유지하기 위해, Mini-Gemini 프레임워크는 낮은 해상도의 시각적 임베딩을 쿼리として 사용하고, HR 특징 후보에서 관련 시각적 힌트를 검색합니다. 프레임워크는 HR 특징 맵을 키와 값으로 사용합니다.

위의 이미지에示된 바와 같이, 수식은 시각적 힌트를 정제하고 합성하는 프로세스를 캡슐화하며, 이는 이후의 대규모 언어 모델 처리를 위한 고급 시각 토큰의 생성으로 이어집니다. 이 프로세스는 프레임워크가 HR 특징 맵의 해당 서브 지역에 대한 쿼리 마이닝을 제한할 수 있음을 보장하며, 픽셀 단위의 특징 수로 인해 효율성이 향상됩니다. 이 설계로 인해, Mini-Gemini 프레임워크는 시각 토큰의 수를 증가시키지 않고 HR 특징 세부 사항을 추출할 수 있으며, 계산 가능성과 세부 사항의 풍부함 사이에서 균형을 유지합니다.

텍스트 및 이미지 생성

Mini-Gemini 프레임워크는 시각 토큰과 입력 텍스트 토큰을 대규모 언어 모델의 입력으로 연결하여 자율 회귀 생성을 수행합니다. 전통적인 비전 언어 모델과는 달리, Mini-Gemini 프레임워크는 텍스트 전용 및 텍스트-이미지 생성을 입력 및 출력으로 지원하며, 이는 텍스트-이미지 이해와 추론 능력의 결과입니다. Mini-Gemini는 높은 품질의 이미지를 생성할 수 있습니다. 최근의 연구가 생성 모델과 대규모 언어 모델 사이의 도메인 격차에 초점을 맞춘 반면, Mini-Gemini 프레임워크는 언어 프롬프트의 도메인에서 격차를 최적화하려고 시도하며, 사용자 지침을 높은 품질의 프롬프트로 번역하여 잠재 확산 모델에서 컨텍스트 관련 이미지를 생성합니다. 또한, 지침 세부 조정 및 교차 모달 정렬에 대한 더 나은 이해를 위해, Mini-Gemini 프레임워크는 공개적으로 사용 가능한 높은 품질의 데이터 세트에서 샘플을 수집하고, GPT-4 터보 프레임워크를 사용하여 이미지 생성을 지원하기 위해 13K 지침 데이터 세트를 구성합니다.

Mini-Gemini : 실험 및 결과

성능을 평가하기 위해, Mini-Gemini 프레임워크는 사전 학습된 ConvNext-L 프레임워크를 HR 비전 인코더로 사용하며, CLIP-사전 학습된 비전 트랜스포머를 LR 비전 인코더로 사용합니다. 훈련 효율성을 보장하기 위해, Mini-Gemini 프레임워크는 두 개의 비전 인코더를 고정하고, 패치 정보 마이닝의 프로젝터를 모든 단계에서 최적화하며, 지침 조정 단계에서 대규모 언어 모델을 최적화합니다.

다음 표는 Mini-Gemini 프레임워크의 성능을 최신 모델과 비교하며, 비공개 모델도 고려합니다. 관찰할 수 있듯이, Mini-Gemini는 일관되게 정상 해상도에서 최신 프레임워크를 능가하며, 효율적인 모델의 Gemma-2B 카테고리에서卓越한 성능을 보여줍니다. 또한, 더 큰 대규모 언어 모델을 사용할 때, Mini-Gemini 프레임워크의 확장성은 명백합니다.

높은 해상도와 확장된 시각 토큰에 대한 성능을 평가하기 위해, 실험은 LR 비전 인코더의 입력 크기가 672이고, 시각 인코더의 입력 크기가 1536인 경우에 수행됩니다. 이전에 언급한 바와 같이, HR 비전 인코더의 주요 목적은 높은 해상도의 후보 정보를 제공하는 것입니다. 관찰할 수 있듯이, Mini-Gemini 프레임워크는 최신 프레임워크와 비교하여卓越한 성능을 보여줍니다.

또한, Mini-Gemini 프레임워크의 시각적 이해력을 실제 환경에서 평가하기 위해, 개발자는 다양한 추론 및 이해 작업에 모델을 적용합니다. 관찰할 수 있듯이, Mini-Gemini 프레임워크는 패치 정보 마이닝과 높은 품질의 데이터의 구현으로 인해 다양한 복잡한 작업을 해결할 수 있습니다. 그러나, 더 놀라운 것은 Mini-Gemini 프레임워크가 단순한 인식 능력을 넘어선 세부 사항에 대한 추가를 보여주며, 정교한 요소를 정교하게 설명한다는 것입니다.

다음 그림은 Mini-Gemini 프레임워크의 생성 능력을全面적으로 평가합니다.

최근 모델인 ChatIllusion과 AnyGPT와 비교하여, Mini-Gemini 프레임워크는 더 강력한 멀티 모달 이해 능력을 보여주며, 입력 지침과 더 잘 일치하는 텍스트-이미지 캡션을 생성하며, 이미지-텍스트 답변에서 더 강한 개념적 유사성을 보여줍니다. 더 놀라운 것은 Mini-Gemini 프레임워크가 텍스트 훈련 데이터만 사용하여 멀티 모델 인간 지침을 사용하여 높은 품질의 콘텐츠를 생성하는 데卓越한 능력을 보여준다는 것입니다. 이는 Mini-Gemini의 강력한 의미적 해석 및 이미지-텍스트 정렬 능력을 보여줍니다.

최종 생각

이 문서에서 우리는 멀티 모달리티 비전 언어 모델을 위한 강력하고 효율적인 프레임워크인 Mini-Gemini에 대해 논의했습니다. Mini-Gemini 프레임워크의 주요 목적은 높은 품질의 데이터, 전략적인 설계 및 확장된 기능 범위를 통해 VLM의 잠재력을 khai thác하는 것입니다. Mini-Gemini는 VLM의 잠재력을 khai thác하여 세 가지 측면에서 성능을 향상시키는 시도입니다: VLM-가이드 생성, 높은 품질의 데이터, 높은 해상도의 시각 토큰. 시각 토큰을 향상시키기 위해, Mini-Gemini 프레임워크는 추가적인 시각 인코더를 사용하여 시각 토큰의 수를 증가시키지 않고 높은 해상도의 정제를 제안합니다. Mini-Gemini 프레임워크는 또한 이미지와 추론 기반 생성의 정확한 이해를 촉진하기 위해 높은 품질의 데이터 세트를 구성합니다. 전체적으로, Mini-Gemini 프레임워크는 비전 언어 모델의 잠재력을 khai thác하고, 기존 프레임워크에 이미지 추론, 이해, 생성 능력을 동시에 제공하는 것을 목표로 합니다.