인공 지능

MoE-LLaVA: 대규모 시각 언어 모델을 위한 전문가 혼합

업데이트 on 2024 년 4 월 23 일

LVLM(Large Vision Language Models)의 최근 발전으로 인해 이러한 프레임워크를 확장하면 다양한 다운스트림 작업에서 성능이 크게 향상되는 것으로 나타났습니다. MiniGPT, LLaMA 등을 포함한 LVLM은 시각적 프로젝션 레이어와 이미지 인코더를 아키텍처에 통합하여 놀라운 기능을 달성했습니다. 이러한 구성 요소를 구현함으로써 LVLM은 LLM(대형 언어 모델)의 시각적 인식 기능을 향상시킵니다. 모델의 크기와 매개변수 수를 늘리고 데이터 세트 규모를 확장하면 성능을 더욱 향상시킬 수 있습니다.

InternVL과 같은 모델은 이미지 인코더를 6억 개 이상의 매개변수로 확장했으며 다른 모델은 LVLM의 백엔드를 13억 개 매개변수로 확장하여 다양한 작업에서 뛰어난 성능을 달성했습니다. IDEFICS는 80억 개가 넘는 매개변수로 LVLM을 교육했습니다. 이러한 확장 방법은 34, 70, 심지어 100억 개가 넘는 매개변수에 대해 사전 훈련된 LLM의 성능과 일치하거나 그 이상이었습니다. 그러나 확장에는 단점이 있습니다. 훈련 및 추론 비용이 크게 증가합니다. 이는 계산 시 각 토큰에 대해 모든 매개변수가 활성화되어야 하므로 계산 요구량이 높아지고 결과적으로 비용이 높아지기 때문입니다.

이 기사에서는 LVLM에 효과적인 훈련 전략인 MoE-Tuning을 사용하는 MoE(Mixture of Experts) 기반 희소 LVLM 아키텍처인 MoE-LLaVA에 대해 설명합니다. MoE-Tuning은 다중 모드 희소성 학습의 성능 저하를 혁신적으로 해결하여 매개변수가 많지만 일관된 훈련 및 추론 비용을 갖춘 모델을 만듭니다. MoE-LLaVA 아키텍처는 배포 중에 최고 전문가만 활성화하고 나머지는 비활성화되도록 설계되었습니다.

우리는 MoE-LLaVA 프레임워크를 탐색하고 그 메커니즘, 방법론, 아키텍처를 검토하고 이를 주요 이미지 및 비디오 생성 프레임워크와 비교하는 방법을 설명합니다.

MoE-LLaVA: 대형 비전 언어 모델을 합리적인 가격으로 확장

시각적 프로젝션 레이어와 이미지 인코더를 활용하는 것 외에도 대형 비전 언어 모델은 모델 성능을 향상시키기 위해 매개변수 수를 늘려 모델 크기를 확장합니다. 성능을 향상시키기 위해 이 접근 방식을 따른 대형 비전 언어 모델의 주목할만한 예로는 MiniGPT-4, InternGPT, InternVL 등이 있습니다. 실제 애플리케이션에서는 모델 성능을 향상시키기 위해 고품질 교육 데이터로 대규모 언어 모델 또는 대규모 비전 언어 모델을 확장하는 것이 필요한 경우가 많습니다. 모델 크기를 조정하면 성능이 향상되지만 모델을 훈련하고 배포하는 데 드는 계산 비용도 증가하며 동시에 병렬 장치에 모델을 배포하는 데 따른 복잡성과 효율성도 더욱 높아집니다. 계산 요구 사항과 함께 훈련 및 추론 비용이 증가하는 주요 이유는 프레임워크의 각 토큰이 밀집 모델이라고 알려진 모델 내의 모든 단일 매개 변수에 대한 계산을 요구하기 때문입니다.

반면, 희소 MoE 또는 전문가 모델 혼합은 자연어 처리 분야에서 널리 채택된 접근 방식인 고정된 활성화 매개변수의 도움으로 데이터를 처리하여 프레임워크의 효과적인 확장을 입증했습니다. 그러나 LLM을 LVLM으로 변환하고 동시에 모델을 희소화하면 상당한 성능 저하가 발생하므로 Mixture of Expert를 사용하여 희소 대형 비전 언어 모델을 직접 훈련하는 것은 어렵습니다. LLM 및 LVLM을 확장하기 위해 모델 혼합을 구현하려면 먼저 희소화를 위해 LVLM을 초기화하는 것이 중요합니다. 이를 달성하기 위해 MoE-LLaVA 프레임워크는 간단하면서도 효과적인 3단계 훈련 전략인 MoE-Tuning을 도입합니다.

위 그림에서 볼 수 있듯이 MoE-Tuning 프로세스는 먼저 첫 번째 단계에서 시각적 토큰을 대규모 언어 모델에 적용하는 MLP 또는 다층 퍼셉트론을 교육합니다. 그런 다음 프레임워크는 LLM의 전체 매개변수를 훈련하여 일반적인 다중 모드 이해 기능으로 대형 비전 언어 모델을 사전 강화합니다. 마지막으로 세 번째 단계에서 프레임워크는 FFN 또는 피드포워드 네트워크를 전문가의 초기화 가중치로 복제하고 전문가 혼합 레이어만 교육합니다. 전반적으로 훈련 프로세스는 희소 모델을 LVLM 초기화에서 희소 혼합 전문가 모델로 점진적으로 전환하는 데 도움이 됩니다.

교육 과정을 다루면서 학습 가능한 라우터와 MoE 모델을 통합하는 전문가 모델이 혼합된 대형 비전 언어 모델의 기준인 MoE-LLaVA에 대해 조명해 보겠습니다. 기본적으로 MoE-LLaVA 모델은 여러 개의 희소 경로로 구성되며 프레임워크는 이러한 경로를 사용하여 학습 가능한 라우터를 통해 각 토큰을 다른 전문가에게 전달합니다. 그런 다음 토큰은 비활성 경로를 침묵으로 유지하면서 활성화된 전문가에 의해 공동으로 처리됩니다. 그런 다음 프레임워크는 Expert 인코더 레이어의 혼합을 반복적으로 스택하여 더 크고 강력한 LVLM을 향한 희박한 경로를 제공합니다.

MoE-LLaVA 프레임워크에 의해 구현된 접근 방식 덕분에 활성화된 매개변수 수가 비슷한 모델보다 성능이 뛰어나고 매개변수가 2.2억 개에 불과함에도 불구하고 POPE 객체 환각 벤치마크에서 큰 차이로 이를 능가할 수 있습니다. 또한 2.2억 개의 매개변수가 있는 MoE-LLaVA 프레임워크는 활성화된 매개변수 수가 거의 19배에 달하는 InternVL-Chat-8B 프레임워크와 비슷한 성능을 달성할 수 있습니다.

강력한 일반화 및 지시 따르기 기능을 갖춘 강력한 대규모 언어 모델이 구현되었습니다. 대형 비전 언어 모델. BLIP와 같은 초기 LLM은 시각적 신호를 일련의 시각적 토큰으로 인코딩하여 여러 프로젝션 레이어를 사용하여 비전을 LLM에 성공적으로 적용할 수 있도록 했습니다. 동시에 최근 연구에서는 명령 조정 데이터 세트 확장, 이미지 해상도 증가, 훈련 전략 최적화, 입력 정렬, 이미지 인코더 향상 등과 같은 방법을 구현하여 모델 성능을 향상시키는 데 중점을 두고 있습니다. 이러한 접근 방식은 시각적 지침 미세 조정 데이터 세트 및 모델 규모를 확장하여 LVLM에 강력한 시각적 이해 기능을 제공하는 데 도움이 되었습니다. 또한 일부 LVLM은 픽셀 단위 접지 기능과 함께 지역 및 다중 지역 이해와 같은 세밀한 이미지 이해 기능도 갖추고 있습니다. 그러나 밀도가 높은 시각적 데이터와 모델을 확장하는 데 수반되는 계산 비용이 상당히 높아 착용하기 어려운 경우가 많습니다. 반면, MoE-LLaVA 프레임워크는 MoE 모델의 기능을 활용하여 LVLM 연구를 보다 저렴하게 만드는 것을 목표로 합니다.

MoE-LLaVA : 방법 및 아키텍처

MoE-LLaVA 프레임워크는 핵심적으로 시각적 프로젝션 레이어(Multilayer Perceptron), 비전 인코더, MoE 블록, 다중 스택 LLM 블록 및 단어 임베딩 레이어로 구성됩니다.

아키텍처

다음 표에는 MoE-LLaVA 프레임워크의 세부 구성이 요약되어 있습니다.

주어진 RGB 이미지에 대해 비전 인코더는 시각적 토큰 시퀀스를 입력 이미지에 매핑하는 시각적 투영 레이어를 사용하여 이미지를 처리하여 시각적 토큰 시퀀스를 얻습니다. 텍스트 입력은 단어 임베딩 레이어에 의해 처리된 다음 이를 투영하여 시퀀스 토큰을 얻습니다. 동시에 MoE-LLaVA 프레임워크는 텍스트와 시각적 토큰을 함께 연결하고 이를 LLM. 그러나 프레임워크는 FFN(Feedforward Neural Networks) 및 Multi-Head Self Attention Layers로 구성된 대규모 언어 모델을 사용하여 시각적 프로젝션 계층만 교육합니다. 마지막으로 프레임워크는 잔여 연결과 레이어 정규화를 각 블록에 적용합니다.

MoE-LLaVA 프레임워크는 두 번째 단계에서 FFN 또는 피드포워드 신경망을 복제하여 초기화 단계에서 전문가 앙상블을 형성합니다. 선형 레이어인 라우터는 각 토큰이 각 전문가에게 할당될 확률을 예측합니다. 각 토큰은 최대 확률의 Top-K 전문가에 의해 처리되며, 확률의 소프트맥스 결과를 기반으로 가중합을 계산합니다.

MoE 튜닝

MoE-Tuning은 첫 번째 단계에서 시각적 토큰을 대규모 언어 모델에 적용하는 MLP 또는 다층 퍼셉트론을 먼저 훈련시키는 간단하면서도 효과적인 3단계 훈련 전략입니다. 그런 다음 프레임워크는 LLM의 전체 매개변수를 훈련하여 일반적인 다중 모드 이해 기능으로 대형 비전 언어 모델을 사전 강화합니다. 마지막으로 세 번째 단계에서 프레임워크는 FFN 또는 피드포워드 네트워크를 전문가의 초기화 가중치로 복제하고 전문가 혼합 레이어만 교육합니다.

무대 1

첫 번째 단계의 주요 목표는 LLM이 이미지의 인스턴스를 이해할 수 있도록 이미지 토큰을 대규모 언어 모델에 적용하는 것입니다. MoE-LLaVA 프레임워크는 다층 퍼셉트론을 사용하여 이미지 토큰을 대규모 언어 모델의 입력 도메인에 투영하고 이미지 패치를 의사 텍스트 토큰으로 처리합니다. 이 단계에서 MoE-LLaVA 프레임워크는 LLM을 교육하여 이미지를 설명하며 이 단계에서는 MoE 레이어를 LLM에 적용하지 않습니다.

무대 2

두 번째 단계에서 MoE-LLaVA는 다중 모드 명령 데이터로 모델을 조정하여 프레임워크의 기능과 제어 가능성을 향상시키려고 시도합니다. MoE-LLaVA 프레임워크는 LLM을 다중 모드 이해 기능을 갖춘 LVLM으로 조정하여 이를 달성합니다. 프레임워크는 모델이 더 강력한 다중 모드 기능을 보유해야 하는 텍스트 인식 및 논리적 이미지 추론 작업을 포함하여 더 복잡한 지침을 사용합니다. 전통적으로 밀집 모델의 훈련 과정은 이 단계에서 완료된 것으로 간주됩니다. 그러나 MoE-LLaVA 프레임워크는 LLM을 LVLM 동시에 LVLM을 희소화합니다. 이러한 문제에 대응하기 위해 프레임워크는 희소 모델의 학습 어려움을 완화하기 위해 다음 단계의 초기화로 단계의 가중치를 활용합니다.

무대 3

세 번째 단계에서 모델은 초기화 절차로 전문가를 초기화하기 위해 피드포워드 신경망을 여러 번 복제합니다. 그런 다음 프레임워크는 텍스트와 이미지 토큰을 전문가 레이어의 혼합에 공급하고 라우터는 전문가와 각 토큰 간의 일치 가중치를 계산합니다. 그런 다음 각 토큰은 라우터의 가중치를 기반으로 한 가중치 합산으로 계산된 집계 출력을 통해 상위 k 전문가에 의해 처리됩니다. 상위 K 전문가가 활성화되면 모델은 나머지 전문가를 종료합니다. 이는 MoE-LLaVA 프레임워크에 무한히 가능한 희소 경로를 제공하여 모델에 광범위한 기능을 제공하는 접근 방식입니다.

MoE-LLaVA : 결과 및 실험

MoE-LLaVA 프레임워크는 두 개의 레이어를 분리하는 GELU 활성화 레이어가 있는 두 개의 레이어로 구성된 Multilayer Perceptron을 갖춘 CLIP-Large를 비전 인코더로 채택합니다. 기본적으로 프레임워크는 피드포워드 신경망을 전문 레이어 혼합으로 교대로 대체합니다. 즉, 전문 레이어 혼합이 전체 레이어 수의 50%를 구성합니다. 다음 표에는 MoE-LLaVA 프레임워크를 훈련하고 평가하는 데 사용되는 샘플 크기와 함께 다양한 데이터 세트가 포함되어 있습니다.

제로샷 이미지 질문 답변

다음 그림은 MoE-LLaVA가 LVLM 기반의 소프트 라우터를 갖춘 희소 모델임을 보여줍니다. 프레임워크는 5개의 이미지 질문 응답 벤치마크에서 평가되었으며, 관찰할 수 있듯이 MoE-LLaVA 프레임워크는 놀라운 이미지 이해 기능을 보여주고 1.5개의 다른 벤치마크에서 최첨단 LLaVA XNUMX 프레임워크에 필적하는 성능을 제공합니다.

대상 환각 평가

MoE-LLaVA 프레임워크는 객체환각을 평가하기 위해 폴링 기반 쿼리 방법인 POPE 평가 파이프라인을 채택했으며 그 결과는 다음 표에 나와 있습니다. 관찰할 수 있듯이 모든 프레임워크 중에서 MoE-LLaVA는 가장 강력한 결과를 제공하며, 이는 프레임워크가 입력 이미지와 일치하는 개체를 생성하는 능력을 나타냅니다. 또한 MoE-LLaVA 프레임워크가 예 비율의 균형을 잘 유지하여 주어진 질문에 대한 정확한 피드백을 제공하는 희소 모델의 기능을 나타냅니다.

다음 이미지에는 전문가 로딩의 분포가 포함되어 있습니다. 여기서 불연속 선은 양식 또는 전문가 간의 균형 잡힌 토큰 분포를 나타냅니다. 첫 번째 그림은 전문가의 작업량을 보여주고 나머지 이미지는 다양한 양식에 대한 전문가의 성과를 보여줍니다.

또한 다음 그림은 다양한 전문가 간의 양식 분포를 보여줍니다.

최종 생각

이 기사에서는 학습 가능한 라우터와 MoE 모델을 통합하는 전문가 모델이 혼합된 대형 비전 언어 모델의 기준인 MoE-LLaVA에 대해 설명했습니다. 기본적으로 MoE-LLaVA 모델은 여러 개의 희소 경로로 구성되며 프레임워크는 이러한 경로를 사용하여 학습 가능한 라우터를 통해 각 토큰을 다른 전문가에게 전달합니다. 그런 다음 토큰은 비활성 경로를 침묵으로 유지하면서 활성화된 전문가에 의해 공동으로 처리됩니다. 그런 다음 프레임워크는 Expert 인코더 레이어의 혼합을 반복적으로 스택하여 더 크고 강력한 LVLM을 향한 희박한 경로를 제공합니다. MoE-Tuning 전략은 다중 모드 희소성 학습에서 성능 저하라는 일반적인 문제를 혁신적으로 해결하여 결과적으로 상당히 많은 수의 매개변수를 사용하지만 일관된 훈련 및 추론 비용을 사용하여 모델을 구성합니다. MoE-LLaVA 프레임워크의 아키텍처는 배포 중에 상위 전문가만 활성화하고 나머지 전문가는 비활성화하는 방식으로 설계되었습니다.