인공지능
MoE-LLaVA: 전문가 모음 для 대규모 비전 언어 모델
최근 대규모 비전 언어 모델(LVLM)의 발전은 이러한 프레임워크를 크게 확장하면 다양한 다운스트림 작업에서 성능이 크게 향상된다는 것을 보여주었습니다. MiniGPT, LLaMA 등과 같은 LVLM은 시각 프로젝션 레이어와 이미지 인코더를 아키텍처에 통합함으로써卓越한 능력을 발휘했습니다. 이러한 구성 요소를 구현함으로써 LVLM은 대규모 언어 모델(LLM)의 시각 인식 능력을 향상시킵니다. 성능을进一步 향상시키려면 모델의 크기와 매개 변수 수를 늘리고 데이터셋 크기를 확대하는 것이 중요합니다.
InternVL과 같은 모델은 이미지 인코더를 60억 개의 매개 변수 이상으로 확장했으며, 다른 모델은 LVLM의 백엔드를 130억 개의 매개 변수로 확장하여 다양한 작업에서卓越한 성능을 발휘했습니다. IDEFICS는 800억 개 이상의 매개 변수를 가진 LVLM을 훈련시켰습니다. 이러한 확장 방법은 340억, 700억, 또는 1,000억 개의 매개 변수로 사전 훈련된 LLM의 성능과 일치하거나 초과했습니다. 그러나 확장은 단점이 있습니다. 훈련 및 추론 비용을 크게 증가시킵니다. 이는 모든 매개 변수가 계산에서 활성화되어야 하기 때문입니다. 이는 높은 계산需求과 결과적으로 높은 비용을 초래합니다.
이 기사에서는 MoE-LLaVA, 즉 MoE(전문가 모음)-기반의 희박한 LVLM 아키텍처에 대해 논의합니다. MoE-Tuning은 LVLM을 위한 효과적인 훈련 전략입니다. MoE-Tuning은 다중 모드 희박성 학습에서 성능 저하를 혁신적으로 해결하여 많은 매개 변수를 가진 모델이지만 일관된 훈련 및 추론 비용을 제공합니다. MoE-LLaVA 아키텍처는 배포 중에 최상위 전문가만 활성화하고 나머지를 비활성화하도록 설계되었습니다.
MoE-LLaVA 프레임워크, 메커니즘, 방법론, 아키텍처 및 주요 이미지 및 비디오 생성 프레임워크와의 비교를 탐구할 것입니다.
MoE-LLaVA: 대규모 비전 언어 모델을 경제적으로 확장
시각 프로젝션 레이어와 이미지 인코더를 활용하는 것 외에도 대규모 비전 언어 모델은 모델의 크기를 매개 변수 수를 늘려 성능을 향상시킵니다. MiniGPT-4, InternGPT, InternVL 등이 이러한 접근 방식을 통해 성능을 향상시킨 대표적인 대규모 비전 언어 모델입니다. 실제 응용에서 높은 품질의 훈련 데이터로 대규모 언어 모델 또는 대규모 비전 언어 모델을 확장하는 것은 모델의 성능을 향상시키기 위해 종종 필요합니다. 모델의 크기를 확장하면 성능이 향상되지만 훈련 및 배포의 계산 비용과 복잡성을 증가시키며, 병렬 장치에서 모델을 동시에 배포하는 효율성을 낮춥니다. 이러한 비용과 계산需求의 증가의 주요 이유는 프레임워크에서 각 토큰이 모델 내의 모든 매개 변수와 계산을 요구하기 때문입니다.
반면에, 희박한 MoE 또는 전문가 모음 모델은 데이터를 고정 활성화 매개 변수의 도움으로 처리함으로써 프레임워크의 효과적인 확장을 보여주었습니다. 이는 자연어 처리 분야에서 널리 채택된 접근 방식입니다. 그러나 MoE를 직접 사용하여 희박한 대규모 비전 언어 모델을 훈련하는 것은 어려울 수 있습니다. LLM을 LVLM으로 변환하고 모델을同時 희박화하면 성능 저하가 발생하기 때문입니다. LLM과 LVLM을 확장하기 위해 MoE를 구현하려면 LVLM을 희박화 초기화하는 것이 필수적입니다. 이를 달성하기 위해 MoE-LLaVA 프레임워크는 MoE-Tuning, 즉 간단하지만 효과적인 3단계 훈련 전략을 도입합니다.

위의 그림에서 볼 수 있듯이, MoE-Tuning 프로세스는 첫 번째 단계에서 다층 퍼셉트론(MLP)을 훈련하여 시각 토큰을 대규모 언어 모델에 적응시킵니다. 프레임워크는 затем 전체 매개 변수를 훈련하여 대규모 비전 언어 모델에 일반적인 다중 모드 이해 능력을 제공합니다. 마지막으로, 세 번째 단계에서 프레임워크는 전문가 초기화 가중치를 위해 FFN(피드 포워드 네트워크)을 복제하고, MoE 레이어만 훈련합니다. 전반적인 훈련 프로세스는 희박한 모델이 LVLM 초기화에서 전문가 모음 모델로 점진적으로 전환하는 것을 도와줍니다.
훈련 프로세스를 다루었으니, MoE-LLaVA에 대해 더 자세히 살펴보겠습니다. MoE-LLaVA는 학습 가능한 라우터와 MoE 모델을 통합한 대규모 비전 언어 모델의 기준점입니다. 핵심적으로, MoE-LLaVA 모델은 여러 희박한 경로로 구성되며, 프레임워크는 이러한 경로를 사용하여 각 토큰을 학습 가능한 라우터를 통해 다른 전문가에게派遣합니다. 토큰은 활성화된 전문가에 의해 집합적으로 처리되며, 비활성 경로는 침묵합니다. 프레임워크는 MoE 인코더 레이어를 반복적으로 쌓음으로써 더 큰 및 더 강력한 LVLM으로 향하는 희박한 경로를 제공합니다.

MoE-LLaVA 프레임워크의 접근 방식 덕분에, 활성화된 매개 변수 수와 비슷한 모델을 능가하며, POPE 오브젝트 홀루시네이션 벤치마크에서 큰 차이로 앞서갑니다. 이는 22억 개의 매개 변수만을 가지고 있음에도 불구하고, InternVL-Chat-19B 프레임워크와 비교하여 약 8배의 활성화된 매개 변수를 갖추고 있습니다.
강력한 대규모 언어 모델은 일반화 및 지시 능력에 강한 모델이 구현되어 있습니다. 대규모 비전 언어 모델을 위한 강력한 시각 이해 능력이 있습니다. 초기 LLM인 BLIP은 시각 신호를 시각 토큰의 시퀀스로 인코딩하여 다중 프로젝션 레이어를 사용하여 시각을 LLM에 성공적으로 적응시켰습니다. 최근 연구는 지시-튜닝 데이터셋을 확장하고, 이미지 해상도를 증가시키고, 훈련 전략을 최적화하고, 입력을 정렬하고, 이미지 인코더를 향상시키는 등 모델 성능을 향상시키는 방법에 중점을 두었습니다. 이러한 접근 방식은 시각적 지시 튜닝 데이터셋과 모델 규모를 확장함으로써 LVLM을 강력한 시각 이해 능력으로 구현하는 데 도움이 되었습니다. 또한, 일부 LVLM은 지역 및 다중 지역 이해와 픽셀 단위 그라운드링 능력과 같은 세부적인 이미지 이해 능력을具備합니다. 그러나 밀도 있는 시각 데이터 및 모델을 확장하는 데 따른 계산 비용은 종종 매우 높아 이를 구현하기 어렵습니다. 반면에, MoE-LLaVA 프레임워크는 MoE 모델의 능력을 활용하여 LVLM 연구를 더 경제적으로 만들기 위해 설계되었습니다.
MoE-LLaVA : 방법 및 아키텍처
MoE-LLaVA 프레임워크의 핵심은 시각 프로젝션 레이어(다층 퍼셉트론), 비전 인코더, MoE 블록, 여러 개의 스택된 LLM 블록, 및 단어 임베딩 레이어로 구성됩니다.

아키텍처
다음 표는 MoE-LLaVA 프레임워크의 자세한 구성 요소를 요약합니다.

주어진 RGB 이미지에 대해, 비전 인코더는 이미지를 처리하여 시각 토큰의 시퀀스를 얻으며, 시각 프로젝션 레이어는 시각 토큰 시퀀스를 입력 이미지에 매핑합니다. 텍스트 입력은 단어 임베딩 레이어에 의해 처리되어 시퀀스 토큰을 얻습니다.同時에, MoE-LLaVA 프레임워크는 텍스트 및 시각 토큰을 연결하고, 이를 LLM에 공급합니다. 그러나 프레임워크는 시각 프로젝션 레이어만을 대규모 언어 모델과 함께 훈련하며, 이는 FFN 또는 피드 포워드 신경 네트워크와 멀티 헤드 셀프 어텐션 레이어로 구성됩니다. 마지막으로, 프레임워크는 각 블록에 잔차 연결 및 레이어 정규화를 적용합니다.
계속하여, MoE-LLaVA 프레임워크는 두 번째 단계에서 FFN 또는 피드 포워드 신경 네트워크를 복제하여 전문가 초기화 가중치를 형성합니다. 라우터는 선형 레이어이며, 각 토큰이 각 전문가에 할당될 확률을 예측합니다. 각 토큰은 최대 확률을 가진 최상위 전문가에 의해 처리되며, 라우터의 확률에 기반한 가중 합을 계산합니다.
MoE-Tuning
MoE-Tuning은 간단하지만 효과적인 3단계 훈련 전략입니다. 첫 번째 단계에서 다층 퍼셉트론을 훈련하여 시각 토큰을 대규모 언어 모델에 적응시킵니다. 프레임워크는 затем 전체 매개 변수를 훈련하여 대규모 비전 언어 모델에 일반적인 다중 모드 이해 능력을 제공합니다. 마지막으로, 세 번째 단계에서 프레임워크는 FFN 또는 피드 포워드 네트워크를 전문가 초기화 가중치로 복제하고, MoE 레이어만을 훈련합니다.
1단계
첫 번째 단계에서, 주요 목표는 이미지 토큰을 대규모 언어 모델에 적응시키는 것입니다. 이는 LLM이 이미지의 인스턴스를 이해할 수 있도록 합니다. MoE-LLaVA 프레임워크는 다층 퍼셉트론을 사용하여 이미지 토큰을 대규모 언어 모델의 입력 도메인에 투영하며, 이미지 패치를 가상 텍스트 토큰으로 처리합니다. 이 단계에서, MoE-LLaVA 프레임워크는 LLM을 이미지에 대해 설명하도록 훈련하며, 이 단계에서 LLM에 MoE 레이어를 적용하지 않습니다.
2단계
두 번째 단계에서, MoE-LLaVA는 다중 모드 지시 데이터로 모델을 튜닝하여 프레임워크의 능력과 제어력을 향상시키려고 합니다. MoE-LLaVA 프레임워크는 이를 통해 LLM을 다중 모드 이해 능력이 있는 LVLM으로 만듭니다. 프레임워크는 텍스트 인식 및 이미지 논리적 추론과 같은 더 복잡한 지시를 사용하여, 모델이 더 강한 다중 모드 능력을 갖추도록 합니다. 전통적으로, 밀도 있는 모델의 훈련 프로세스는 이 단계에서 완료됩니다. 그러나 MoE-LLaVA 프레임워크는 LLM을 LVLM으로 변환하고同時에 모델을 희박화하는 데 어려움을 gặp습니다. 이러한 어려움을 극복하기 위해, 프레임워크는 두 번째 단계의 가중치를 다음 단계의 초기화로 사용하여 희박한 모델의 학습 어려움을 완화하려고 합니다.
3단계
세 번째 단계에서, 모델은 피드 포워드 신경 네트워크를 여러 번 복제하여 전문가 초기화를 위한 초기화 단계로 사용합니다. 프레임워크는 텍스트 및 이미지 토큰을 MoE 레이어에 공급하며, 라우터는 전문가와 각 토큰 사이의 일치 가중치를 계산합니다. 각 토큰은 최대 확률을 가진 최상위 전문가에 의해 처리되며, 가중 합은 라우터의 가중치에 기반하여 계산됩니다. 최상위 전문가가 활성화되면, 모델은 나머지 전문가를 비활성화합니다. 이는 MoE-LLaVA 프레임워크가 무한한 희박한 경로를 갖도록 하며, 이는 모델이 다양한 능력을 갖추도록 합니다.
MoE-LLaVA : 결과 및 실험
MoE-LLaVA 프레임워크는 CLIP-Large를 비전 인코더로 사용하며, 다층 퍼셉트론은 두 개의 레이어로 구성되며, GELU 활성화 레이어가 두 레이어 사이에 있습니다. 기본적으로, 프레임워크는 피드 포워드 신경 네트워크와 MoE 레이어의 교대 사용을 사용하며, 이는 MoE 레이어가 총 레이어 수의 50%를 구성한다는 것을 의미합니다. 다음 표에는 MoE-LLaVA 프레임워크를 훈련 및 평가하기 위해 사용된 다양한 데이터셋과 샘플 크기가 포함되어 있습니다.

제로샷 이미지 질문 답변
다음 그림은 MoE-LLaVA가 LVLM을 기반으로 하는 소프트 라우터를 갖춘 희박한 모델임을 보여줍니다. 프레임워크는 5개의 이미지 질문 답변 벤치마크에서 평가되었으며, MoE-LLaVA 프레임워크는卓越한 이미지 이해 능력을 보여주며, 5개의 다른 벤치마크에서 LLaVA 1.5 프레임워크와 비교하여 유사한 성능을 발휘합니다.

오브젝트 홀루시네이션 평가
오브젝트 홀루시네이션을 평가하기 위해 MoE-LLaVA 프레임워크는 POPE 평가 파이프라인을 사용하며, 결과는 다음 표에示되어 있습니다. 모든 프레임워크 중에서 MoE-LLaVA가 가장 강력한 결과를 보여주며, 이는 입력 이미지와 일관된 오브젝트를 생성하는 능력을 나타냅니다. 또한, MoE-LLaVA 프레임워크가 잘 균형된_yes 비율을 보여주며, 이는 희박한 모델이 주어진 질문에 대해 정확한 피드백을 제공하는 능력을 나타냅니다.

다음 이미지는 전문가 로딩의 분포를 보여주며, 불連續한 선은 모달리티 또는 전문가 사이에서 토큰의 잘 균형된 분포를 나타냅니다. 첫 번째 그림은 전문가 내의 작업량을 보여주며, 나머지 이미지는 다양한 모달리티에 대한 전문가의 성능을 보여줍니다.

さらに, 다음 그림은 다양한 모달리티를 전문가에 걸쳐 분포한 것을 보여줍니다.

최종 생각
이 기사에서 우리는 MoE-LLaVA, 즉 학습 가능한 라우터와 MoE 모델을 통합한 대규모 비전 언어 모델의 기준점에 대해 논의했습니다. MoE-LLaVA 모델은 여러 희박한 경로로 구성되며, 프레임워크는 이러한 경로를 사용하여 각 토큰을 학습 가능한 라우터를 통해 다른 전문가에게派遣합니다. 토큰은 활성화된 전문가에 의해 집합적으로 처리되며, 비활성 경로는 침묵합니다. 프레임워크는 MoE 인코더 레이어를 반복적으로 쌓음으로써 더 큰 및 더 강력한 LVLM으로 향하는 희박한 경로를 제공합니다. MoE-Tuning 전략은 다중 모드 희박성 학습에서 성능 저하를 혁신적으로 해결하여, 많은 매개 변수를 가진 모델이지만 일관된 훈련 및 추론 비용을 제공합니다. MoE-LLaVA 프레임워크의 아키텍처는 배포 중에 최상위 전문가만 활성화하고, 나머지 전문가를 비활성화하도록 설계되었습니다.












