인공 지능

Mini-Gemini: 다중 양식 비전 언어 모델의 잠재력 발굴

게재

1 주 전

2024 년 4 월 26 일

의 발전 큰 언어 모델 개발이 크게 가속화되었습니다. 자연어 처리또는 NLP. 변환기 프레임워크의 도입은 심오한 언어 이해를 보여주는 OPT 및 BERT를 포함한 새로운 언어 모델의 개발을 촉진하는 이정표임이 입증되었습니다. 또한, GPT(Generative Pre-trained Transformer 모델)의 시작은 자동 회귀 모델링을 통해 새로운 패러다임을 도입하고 언어 예측 및 생성을 위한 강력한 방법을 확립했습니다. GPT-4, ChatGPT, Mixtral, LLaMA 등과 같은 언어 모델의 출현으로 급속한 발전이 가속화되었으며 각 모델은 복잡한 언어 처리와 관련된 작업에서 향상된 성능을 보여주었습니다. 기존 방법 중에서 명령어 조정은 사전 훈련된 대규모 언어 모델의 출력을 개선하기 위한 핵심 기술로 부상했으며, 이러한 모델을 시각적 작업을 위한 특정 도구와 통합하여 적응성을 강조하고 향후 애플리케이션을 위한 문을 열었습니다. 이는 LLM의 기존 텍스트 기반 처리를 훨씬 뛰어넘어 다중 모드 상호 작용을 포함합니다.

또한, 자연어 처리와 컴퓨터 비전 모델의 융합으로 언어 모델과 비전 모델을 결합하여 교차 모드 이해 및 추론 기능을 달성하는 VLM(비전 언어 모델)이 탄생했습니다. 시각적 모델과 언어적 모델의 통합과 출현은 언어 처리와 시각적 이해가 모두 필요한 작업을 발전시키는 데 중요한 역할을 했습니다. CLIP과 같은 혁신적인 모델의 출현으로 비전 작업과 언어 모델 간의 격차가 더욱 해소되어 교차 모드 애플리케이션의 타당성과 실용성이 입증되었습니다. LLaMA 및 BLIP과 같은 최신 프레임워크는 맞춤형 지침 데이터를 활용하여 모델의 강력한 기능을 보여주는 효율적인 전략을 고안합니다. 또한 대규모 언어 모델과 이미지 출력을 결합하는 것이 최근 다중 모드 연구의 초점이며, 최근 방법에서는 이미지 검색 접근 방식을 활용하여 이미지 출력과 인터리브된 텍스트를 생성함으로써 직접 생성을 우회할 수 있습니다.

즉, 기본적인 추론과 시각적 대화를 촉진하는 비전 언어 모델의 급속한 발전에도 불구하고 GPT-4와 같은 고급 모델과 비전 언어 모델 사이에는 여전히 상당한 성능 격차가 존재합니다. Mini-Gemini는 VLM 기반 생성, 고품질 데이터 및 고해상도 시각적 토큰의 세 가지 측면에서 더 나은 성능을 위해 VLM의 잠재력을 발굴하여 비전 언어 모델과 고급 모델 사이에 존재하는 격차를 좁히려는 시도입니다. 시각적 토큰을 향상시키기 위해 Mini-Gemini 프레임워크는 시각적 토큰 수를 늘리지 않고 고해상도 개선을 위해 추가 시각적 인코더를 활용할 것을 제안합니다. Mini-Gemini 프레임워크는 이미지의 정확한 이해와 추론 기반 생성을 촉진하기 위해 고품질 데이터 세트를 추가로 구성합니다. 전반적으로 Mini-Gemini 프레임워크는 비전 언어 모델의 잠재력을 발굴하려고 시도하고 이미지 추론, 이해 및 생성 기능을 동시에 사용하여 기존 프레임워크를 강화하는 것을 목표로 합니다. 이 글은 Mini-Gemini 프레임워크를 심도있게 다루는 것을 목표로 하고 있으며, 최신 프레임워크와의 비교와 함께 프레임워크의 메커니즘, 방법론, 아키텍처를 탐구합니다. 그럼 시작해 보겠습니다.

Mini-Gemini: 다중 모드 VLM 가속화

수년에 걸쳐 대규모 언어 모델이 발전해 왔으며 이제 놀라운 다중 모드 기능을 자랑하며 현재 비전 언어 모델의 필수 부분이 되고 있습니다. 그러나 이미지와 비디오를 사용하여 비전과 대규모 언어 모델을 결합하는 방법을 모색하는 최근 연구에서는 대규모 언어 모델의 다중 모드 성능과 비전 언어 모델 사이에 격차가 존재합니다. 비전 작업 자체의 경우 이미지 해상도는 시각적 환각을 최소화하면서 주변 환경에도 불구하고 명시적으로 중요한 요소입니다. 격차를 해소하기 위해 연구자들은 현재의 시각적 이해를 향상시키는 모델을 개발하고 있습니다. 비전 언어 모델, 가장 일반적인 두 가지 접근 방식은 해상도를 높이는 것과 시각적 토큰 수를 늘리는 것입니다. 고해상도 이미지로 시각적 토큰 수를 늘리면 시각적 이해가 향상되지만, 특히 여러 이미지를 처리할 때 계산 요구 사항 및 관련 비용이 증가하는 경우가 많습니다. 또한, 기존 모델의 기능, 기존 데이터의 품질 및 적용 가능성은 가속화된 개발 프로세스에 여전히 부적합하여 연구자들은 "허용 가능한 비용으로 비전 언어 모델 개발을 가속화하는 방법"?

Mini-Gemini 프레임워크는 VLM 기반 생성 또는 확장된 애플리케이션, 고품질 데이터 및 고해상도 시각적 토큰의 세 가지 측면에서 비전 언어 모델의 잠재력을 탐색하려고 시도하면서 질문에 답하려는 시도입니다. 첫째, Mini-Gemini 프레임워크는 고해상도 후보를 효율적으로 생성하기 위해 ConvNet 아키텍처를 구현하여 대규모 언어 모델의 시각적 토큰 수를 유지하면서 시각적 세부 정보를 향상시킵니다. Mini-Gemini 프레임워크는 데이터 품질을 향상시키기 위해 공개적으로 사용 가능한 고품질 데이터 세트를 통합하고 VLM의 성능을 향상시키고 사용자 경험. Mini-Gemini 프레임워크에 의해 구현된 다각적인 전략을 통해 비전 언어 모델의 숨겨진 기능을 탐색할 수 있으며, 명백한 리소스 제약 속에서도 상당한 발전을 이룰 수 있습니다.

일반적으로 Mini-Gemini 프레임워크는 입력 및 출력으로 텍스트와 이미지를 모두 처리할 수 있으므로 any to any 패러다임을 사용합니다. 특히 Mini-Gemini 프레임워크는 입력 이미지에 대한 시각적 토큰을 향상시키기 위한 효율적인 파이프라인을 도입하고 트윈 인코더로 구성된 듀얼 인코더 시스템을 특징으로 합니다. 첫 번째 인코더는 고해상도 이미지용이고 두 번째 인코더는 저해상도 이미지용입니다. 고품질의 시각적 임베딩. 추론 중에 인코더는 저해상도 인코더가 시각적 쿼리를 생성하는 반면 고해상도 인코더는 참조용 키와 값을 제공하는 주의 메커니즘에서 작동합니다. 데이터 품질을 높이기 위해 Mini-Gemini 프레임워크는 작업 중심 지침, 생성 관련 데이터 및 고해상도 응답을 포함한 공공 자원을 기반으로 더 많은 데이터를 수집하고 생성합니다. 양이 늘어나고 품질이 향상되어 전반적인 성능이 향상되고 모델의 능력. 또한 Mini-Gemini 프레임워크는 비전 언어 모델과 고급 생성 모델을 통합한 결과 동시 텍스트 및 이미지 생성을 지원합니다.

Mini-Gemini : 방법론 및 아키텍처

Mini-Gemini 프레임워크의 핵심은 개념적으로 단순하며 세 가지 구성 요소로 구성됩니다.

프레임워크는 듀얼 비전 인코더를 사용하여 저해상도 시각적 임베딩 및 고해상도 후보를 제공합니다.
프레임워크는 저해상도 시각적 쿼리와 고해상도 영역 간의 패치 수준에서 마이닝을 수행하기 위해 패치 정보 마이닝을 구현하도록 제안합니다.
Mini-Gemini 프레임워크는 생성 및 이해를 위해 텍스트와 이미지를 동시에 결합하기 위해 대규모 언어 모델을 활용합니다.

듀얼 비전 인코더

Mini-Gemini 프레임워크는 텍스트 및 이미지 입력을 모두 처리할 수 있으며 이를 개별적으로 또는 조합하여 처리할 수 있는 옵션을 제공합니다. 다음 이미지에서 볼 수 있듯이 Mini-Gemini 프레임워크는 쌍선형 보간을 사용하여 해당 고해상도 이미지에서 저해상도 이미지를 생성하는 프로세스를 시작합니다.

그런 다음 프레임워크는 이러한 이미지를 처리하고 두 개의 병렬 이미지 흐름에 있는 다중 그리드 시각적 임베딩으로 인코딩합니다. 보다 구체적으로 Mini-Gemini 프레임워크는 저해상도 흐름을 위한 기존 파이프라인을 유지하고 CLIP 사전 훈련된 Visual Transformer를 사용하여 시각적 임베딩을 인코딩하여 모델이 대규모 언어의 후속 상호 작용을 위해 시각적 패치 간의 장거리 관계를 보존하도록 촉진합니다. 모델. 고해상도 흐름의 경우 Mini-Gemini 프레임워크는 적응적이고 효율적인 고해상도 이미지 처리를 위해 CNN 또는 Convolution Neural Networks 기반 인코더를 채택합니다.

패치 정보 마이닝

LR 임베딩 및 HR 기능을 생성하는 듀얼 비전 인코더를 통해 Mini-Gemini 프레임워크는 향상된 시각적 토큰으로 비전 언어 모델의 잠재력을 확장하려는 목적으로 패치 정보 마이닝을 구현할 것을 제안합니다. 대규모 언어 모델에서 효율성을 위한 시각적 토큰 수를 유지하기 위해 Mini-Gemini 프레임워크는 저해상도 시각적 임베딩을 쿼리로 사용하고 HR 기능 후보로부터 관련 시각적 단서를 검색하는 것을 목표로 합니다. HR 기능 맵을 키와 값으로 사용합니다.

위 이미지에서 볼 수 있듯이 공식은 시각적 단서를 정제하고 합성하는 프로세스를 캡슐화하여 후속 대규모 언어 모델 처리를 위한 고급 시각적 토큰을 생성합니다. 이 프로세스는 프레임워크가 각 쿼리에 대한 마이닝을 픽셀별 기능 수를 사용하여 HR 기능 맵의 해당 하위 영역으로 제한하여 효율성을 향상시킬 수 있도록 보장합니다. 이러한 설계로 인해 Mini-Gemini 프레임워크는 시각적 토큰 수를 늘리지 않고도 HR 기능 세부 정보를 추출할 수 있으며 계산 타당성과 세부 정보 풍부함 간의 균형을 유지할 수 있습니다.

텍스트 및 이미지 생성

Mini-Gemini 프레임워크는 자동 회귀 생성을 위한 대규모 언어 모델에 대한 입력으로 시각적 토큰과 입력 텍스트 토큰을 연결합니다. 전통적인 비전 언어 모델과 달리 Mini-Gemini 프레임워크는 텍스트 전용 생성과 텍스트-이미지 생성을 입력 및 출력으로 지원합니다. 즉, 모든 추론에 대해 이는 뛰어난 이미지-텍스트 이해 및 추론 기능의 결과입니다. Mini-Gemini는 고품질 이미지를 생성할 수 있습니다. 생성 모델의 텍스트 임베딩과 대규모 언어 모델 간의 도메인 격차에 초점을 맞춘 최근 작업과 달리 Mini-Gemini 프레임워크는 사용자 지침을 상황 관련 이미지를 생성하는 고품질 프롬프트로 변환하여 언어 프롬프트 도메인의 격차를 최적화하려고 시도합니다. 잠재 확산 모델에서. 또한 명령어 미세 조정 및 교차 양식 정렬을 더 잘 이해하기 위해 Mini-Gemini 프레임워크는 공개적으로 사용 가능한 고품질 데이터 세트에서 샘플을 수집하고 GPT-4 터보 프레임워크를 사용하여 데이터 세트에 따라 13K 명령어를 추가로 구성하여 이미지 생성을 지원합니다.

미니 쌍둥이자리 : 실험 및 결과

성능을 평가하기 위해 Mini-Gemini 프레임워크는 HR 비전 인코더에 대해 사전 훈련된 ConvNext-L 프레임워크와 CLIP 사전 훈련된 프레임워크를 사용하여 인스턴스화됩니다. 비전 변압기 LR 비전 인코더용. 교육 효율성을 보장하기 위해 Mini-Gemini 프레임워크는 두 개의 비전 인코더를 고정하고 모든 단계에서 패치 정보 마이닝의 프로젝터를 최적화하며 명령 조정 단계 자체에서 대규모 언어 모델을 최적화합니다.

다음 표는 다양한 설정에서 Mini-Gemini 프레임워크의 성능을 최신 모델과 비교하고 개인 모델도 고려합니다. 관찰할 수 있듯이 Mini-Gemini는 일반 해상도에서 일관되게 광범위한 LLM에 걸쳐 기존 프레임워크보다 성능이 뛰어나며 효율적인 모델 범주에서 Gemma-2B로 구성할 때 탁월한 성능을 보여줍니다. 또한 더 큰 규모의 언어 모델을 사용하는 경우 Mini-Gemini 프레임워크의 확장성이 분명합니다.

고해상도 및 확장된 시각적 토큰에 대한 성능을 평가하기 위해 실험은 LR 비전 인코더의 경우 672, 시각적 인코더의 경우 1536의 입력 크기로 수행되었습니다. 앞서 언급했듯이 HR 비주얼 인코더의 주요 목적은 고해상도의 후보자 정보를 제공하는 것입니다. 관찰할 수 있듯이 Mini-Gemini 프레임워크는 최신 프레임워크와 비교할 때 뛰어난 성능을 제공합니다.

또한 실제 환경에서 Mini-Gemini 프레임워크의 시각적 이해력을 평가하기 위해 개발자는 다음 이미지에 표시된 대로 다양한 추론 및 이해 작업에 모델을 적용합니다. 관찰할 수 있듯이 Mini-Gemini 프레임워크는 패치 정보 마이닝 및 고품질 데이터 구현 덕분에 광범위하고 복잡한 작업을 해결할 수 있습니다. 그러나 더 인상적인 것은 Mini-Gemini 프레임워크가 단순한 인식 능력을 넘어 세부 사항에 대한 예리한 추가 기능을 보여주고 복잡한 요소를 복잡하게 설명한다는 사실입니다.

다음 그림은 Mini-Gemini 프레임워크의 생성 능력에 대한 포괄적인 평가를 제공합니다.

ChatIllusion 및 AnyGPT와 같은 최신 모델과 비교할 때 Mini-Gemini 프레임워크는 더 강력한 다중 모드 이해 능력을 보여줍니다. 텍스트를 이미지로 입력 지침과 더 잘 일치하는 캡션을 제공하고 개념적 유사성이 더 강한 이미지 대 텍스트 답변을 제공합니다. 더욱 인상적인 점은 Mini-Gemini 프레임워크가 텍스트 훈련 데이터만을 사용하여 다중 모델 인간 지침을 사용하여 고품질 콘텐츠를 생성하는 놀라운 능력을 보여준다는 사실입니다. 이는 Mini-Gemini의 강력한 의미 해석 및 이미지-텍스트 정렬 기술을 보여주는 기능입니다.

최종 생각

이 기사에서 우리는 다중 양식 비전 언어 모델을 위한 강력하고 효율적인 프레임워크인 Mini-Gemini에 대해 이야기했습니다. Mini-Gemini 프레임워크의 주요 목표는 고품질 데이터, 프레임워크의 전략적 설계 및 확장된 기능 범위를 사용하여 비전 언어 모델의 잠재 기능을 활용하는 것입니다. Mini-Gemini는 VLM 기반 생성, 고품질 데이터 및 고해상도 시각적 토큰의 세 가지 측면에서 더 나은 성능을 위해 VLM의 잠재력을 발굴하여 비전 언어 모델과 고급 모델 사이에 존재하는 격차를 좁히려는 시도입니다. 시각적 토큰을 향상시키기 위해 Mini-Gemini 프레임워크는 시각적 토큰 수를 늘리지 않고 고해상도 개선을 위해 추가 시각적 인코더를 활용할 것을 제안합니다. Mini-Gemini 프레임워크는 이미지의 정확한 이해와 추론 기반 생성을 촉진하기 위해 고품질 데이터 세트를 추가로 구성합니다. 전반적으로 Mini-Gemini 프레임워크는 비전 언어 모델의 잠재력을 발굴하고 이미지 추론, 이해 및 생성 기능을 동시에 사용하여 기존 프레임워크를 강화하는 것을 목표로 합니다.