인공지능
Uni-MoE: 전문가 혼합을 통한 통합 다중 모드 LLM 확장
다중 모드 대형 언어 모델(MLLM)의 아키텍처 및 성능이 최근 발전함에 따라 성능 향상을 위한 확장 가능한 데이터 및 모델의 중요성이 강조되었습니다. 이 접근 방식은 성능을 향상시키지만 이러한 접근 방식의 실용성과 유용성을 제한하는 상당한 계산 비용이 발생합니다. 전문가 혼합 모델은 계산 비용이 상당히 낮고 성능이 강력하기 때문에 수년에 걸쳐 전문가 혼합 또는 MoE 모델은 이미지 텍스트 및 대규모 언어 모델을 효율적으로 확장하기 위한 성공적인 대체 접근 방식으로 등장했습니다. 그러나 장점에도 불구하고 모델 혼합은 전문가 수가 적고 양식이 제한되어 애플리케이션이 제한되는 경우가 많기 때문에 대규모 언어 모델을 확장하는 데 이상적인 접근 방식이 아닙니다.
현재 접근 방식에서 직면하는 장애물에 대응하고 대규모 언어 모델을 효율적으로 확장하기 위해 이 기사에서는 광범위한 언어를 처리할 수 있는 MoE 또는 전문가 혼합 아키텍처를 갖춘 통합 다중 모드 대규모 언어 모델인 Uni-MoE에 대해 설명합니다. 다양한 방식과 전문가. Uni-MoE 프레임워크는 또한 전문가 수준 모델 병렬성과 데이터 병렬성을 사용하여 훈련 및 추론 프로세스를 보다 효율적으로 만들기 위해 대규모 언어 모델 내에서 전문가 혼합 아키텍처를 구현합니다. 또한 일반화 및 다중 전문가 협업을 강화하기 위해 Uni-MoE 프레임워크는 세 가지 프로세스를 결합한 진보적인 교육 전략을 제시합니다. 첫 번째로 Uni-MoE 프레임워크는 다양한 교차 양식 데이터가 있는 다양한 커넥터를 사용하여 교차 양식 정렬을 달성합니다. 둘째, Uni-MoE 프레임워크는 교차 양식 교육 데이터를 통해 양식별 전문가를 교육함으로써 전문가 구성 요소의 선호도를 활성화합니다. 마지막으로 Uni-MoE 모델은 모델을 조정하기 위해 혼합 다중 모드 명령 데이터에 LoRA 또는 Low-Rank Adaptation 학습 기술을 구현합니다. 명령 조정 Uni-MoE 프레임워크가 포괄적인 다중 모드 데이터 세트에서 평가되었을 때 광범위한 실험 결과는 혼합 다중 모드 데이터 세트를 처리할 때 성능 편향을 크게 줄이는 데 있어 Uni-MoE 프레임워크의 주요 이점을 강조했습니다. 결과는 또한 다중 전문가 협업 및 일반화가 크게 개선되었음을 나타냅니다.
이 기사는 Uni-MoE 프레임워크를 심층적으로 다루는 것을 목표로 하며 프레임워크의 메커니즘, 방법론, 아키텍처를 탐색하고 최신 프레임워크와 비교합니다. 그럼 시작해 보겠습니다.
Uni-MoE: 통합 다중 모드 LLM 확장
LLama 및 InstantBlip을 포함한 오픈 소스 다중 모드 대형 언어 모델의 출현은 지난 몇 년 동안 이미지-텍스트 이해와 관련된 작업에서 주목할만한 성공과 발전을 보여주었습니다. 또한 AI 커뮤니티는 전통적인 이미지-텍스트 패러다임을 넘어 이미지, 텍스트, 오디오, 비디오 등 다양한 형식을 수용할 수 있는 통합 다중 모드 대형 언어 모델을 구축하기 위해 적극적으로 노력하고 있습니다. 다중 모드 대형 언어 모델의 기능을 강화하기 위해 오픈 소스 커뮤니티에서 따르는 일반적인 접근 방식은 비전 기반 모델의 크기를 늘리고, 이를 수십억 개의 매개 변수가 있는 대형 언어 모델과 통합하고, 다양한 다중 모드 데이터 세트를 사용하여 명령 조정을 향상시키는 것입니다. 이러한 개발은 다중 양식을 추론하고 처리하는 다중 모드 대형 언어 모델의 능력 증가를 강조했으며, 다중 모드 교육 데이터 및 모델 확장성의 확장의 중요성을 보여주었습니다.
모델 확장은 상당한 결과를 제공하는 시도되고 테스트된 접근 방식이지만 모델 확장은 훈련 및 추론 프로세스 모두에서 계산 비용이 많이 드는 프로세스입니다.
높은 오버헤드 계산 비용 문제에 대응하기 위해 오픈 소스 커뮤니티는 MoE 또는 전문가의 혼합 훈련 및 추론 효율성을 모두 향상시키기 위해 대규모 언어 모델의 모델 아키텍처. 각 입력을 처리하기 위해 사용 가능한 모든 매개변수를 사용하는 다중 모드 대형 언어 및 대형 언어 모델과 달리, 전문가 혼합 아키텍처에서는 사용자가 각 입력에 대해 전문가 매개변수의 하위 집합만 활성화하면 됩니다. 결과적으로 Mixture of Expert 접근 방식은 광범위한 매개변수 활성화 및 높은 오버헤드 계산 비용 없이 대형 모델의 효율성을 향상시킬 수 있는 실행 가능한 경로로 떠오릅니다. 기존 연구에서는 텍스트 전용 및 텍스트 이미지 대규모 모델 구축에서 전문가 혼합 모델의 성공적인 구현 및 통합을 강조했지만, 연구자들은 아직 강력한 통합 다중 모드 대규모 구축을 위한 전문가 혼합 아키텍처 개발의 잠재력을 완전히 탐색하지 못했습니다. 언어 모델.
Uni-MoE는 MoE 아키텍처로 통합 다중 모드 대형 언어 모델 확장을 탐색하려는 시도로 여러 양식을 해석하고 관리하기 위해 희박한 전문가 혼합 모델을 활용하는 다중 모드 대형 언어 모델입니다. 다음 이미지에서 볼 수 있듯이 Uni-MoE 프레임워크는 먼저 양식별 인코더를 사용하여 다양한 양식의 인코딩을 얻은 다음 이러한 인코딩을 다양한 설계된 커넥터를 사용하여 대규모 언어 모델의 언어 표현 공간에 매핑합니다. 이러한 커넥터에는 고정 인코더의 출력 표현을 추출하고 투영하기 위한 후속 선형 투영이 포함된 훈련 가능한 변환기 모델이 포함되어 있습니다. 그런 다음 Uni-MoE 프레임워크는 조밀한 대형 언어 모델의 내부 블록 내에 전문가 레이어의 희소 혼합을 도입합니다. 결과적으로 각 전문가 혼합 기반 블록은 모든 양식에 적용 가능한 공유 셀프 어텐션 레이어, 토큰 수준에서 전문 지식을 할당하기 위한 희소 라우터, 피드포워드 네트워크를 기반으로 하는 다양한 전문가를 특징으로 합니다. 이러한 접근 방식으로 인해 Uni-MoE 프레임워크는 음성, 오디오, 텍스트, 비디오, 이미지를 포함한 다양한 양식을 이해할 수 있으며 추론 중에 부분 매개변수만 활성화하면 됩니다.

또한, 다중 전문가 협업 및 일반화를 강화하기 위해 Uni-MoE 프레임워크는 3단계 교육 전략을 구현합니다. 첫 번째 단계에서 프레임워크는 광범위한 이미지/오디오/음성을 언어 쌍으로 사용하여 대규모 언어 모델의 언어 공간에서 통합된 양식 표현으로 인해 해당 커넥터를 훈련합니다. 둘째, Uni-MoE 모델은 각 영역 내에서 각 전문가의 숙련도를 개선하기 위해 교차 양식 데이터 세트를 별도로 사용하여 양식별 전문가를 교육합니다. 세 번째 단계에서 Uni-MoE 프레임워크는 이러한 훈련된 전문가를 대규모 언어 모델의 전문가 혼합 계층에 통합하고 혼합 다중 모드 명령 데이터로 전체 Uni-MoE 프레임워크를 훈련합니다. 훈련 비용을 더욱 줄이기 위해 Uni-MoE 프레임워크는 LoRA 학습 접근 방식을 사용하여 이러한 self-attention 레이어와 사전 조정된 전문가를 미세 조정합니다.
Uni-MoE: 방법론 및 아키텍처
Uni-MoE 프레임워크의 기본 동기는 전문가 모델 혼합의 효율성과 함께 다중 모드 대형 언어 모델을 확장하는 데 드는 높은 훈련 및 추론 비용이며, 다음을 활용하여 효율적이고 강력하며 통합된 다중 모드 대형 언어 모델을 생성할 수 있는 가능성을 탐색합니다. 그만큼 MoE 아키텍처. 다음 그림은 Uni-MoE 프레임워크에 구현된 아키텍처를 보여주며, 각각의 양식 커넥터와 함께 오디오, 음성, 시각 등 다양한 양식에 대한 개별 인코더를 포함하는 설계를 보여줍니다.

그런 다음 Uni-MoE 프레임워크는 Mixture of Expert 아키텍처를 핵심 대형 언어 모델 블록과 통합합니다. 이는 훈련 및 추론 프로세스의 전반적인 효율성을 높이는 데 중요한 프로세스입니다. Uni-MoE 프레임워크는 희소 라우팅 메커니즘을 구현하여 이를 달성합니다. Uni-MoE 프레임워크의 전체 교육 프로세스는 양식 간 정렬, 양식별 전문가 교육, 다양한 다중 모드 지침 데이터 세트를 사용하여 Uni-MoE 조정의 세 단계로 나눌 수 있습니다. 다양한 모달 입력을 언어 형식으로 효율적으로 변환하기 위해 Uni-MoE 프레임워크는 사전 훈련된 시각적 언어 프레임워크인 LLaVA 위에 구축되었습니다. LLaVA 기본 모델은 이미지 특징을 해당 소프트 이미지 토큰으로 변환하는 선형 프로젝션 레이어와 함께 CLIP을 시각적 인코더로 통합합니다. 또한 비디오 콘텐츠를 처리하기 위해 Uni-MoE 프레임워크는 각 비디오에서 8개의 대표 프레임을 선택하고 평균 풀링을 통해 이를 비디오 토큰으로 변환하여 이미지 또는 프레임 기반 표현을 집계합니다. 오디오 작업의 경우 Uni-MoE 프레임워크는 두 개의 인코더, BEAT 및 Whisper 인코더를 배포하여 특징 추출을 향상시킵니다. 그런 다음 모델은 오디오 특징 벡터와 고정 길이 음성을 추출하고 이를 선형 프로젝션 레이어를 통해 각각 음성 토큰과 소프트 오디오로 매핑합니다.
훈련 전략
Uni-MoE 프레임워크는 모델의 점진적인 개발을 위한 점진적인 교육 전략을 도입합니다. 진보적인 교육 전략에서는 다양한 전문가의 고유한 역량을 활용하고, 다중 전문가 협업 효율성을 높이며, 프레임워크의 전반적인 일반화 가능성을 높이려는 시도를 도입했습니다. 훈련 과정은 3단계로 나누어져 실제 목표를 달성하려는 시도를 하게 됩니다. 엠 통합된 전문가 혼합물 위에 구축된 구조입니다.
1단계: 교차 양식 정렬
첫 번째 단계에서 Uni-MoE 프레임워크는 다양한 언어학과 양식 간의 연결성을 구축하려고 시도합니다. Uni-MoE 프레임워크는 커넥터를 구성하여 모달 데이터를 소프트 토큰으로 변환함으로써 이를 달성합니다. 첫 번째 훈련 단계의 주요 목표는 생성적 엔트로피 손실을 최소화하는 것입니다. Uni-MoE 프레임워크 내에서 LLM은 다양한 양식의 입력에 대한 설명을 생성하도록 최적화되어 있으며, 모델은 커넥터에만 교육을 적용합니다. 이는 Uni-MoE 프레임워크가 통합 언어 프레임워크 내에서 다양한 양식을 통합할 수 있도록 하는 전략입니다.

2단계: 특정 전문가 교육 방식
두 번째 단계에서 Uni-MoE 프레임워크는 특정 교차 양식 데이터에 대해 모델을 전담적으로 훈련하여 단일 양식 전문가를 양성하는 데 중점을 둡니다. 주요 목표는 해당 영역 내에서 각 전문가의 숙련도를 개선하여 광범위한 다중 모드 데이터에 대한 전문가 혼합 시스템의 전반적인 성능을 향상시키는 것입니다. 또한 Uni-MoE 프레임워크는 생성적 엔트로피 손실을 초점 메트릭 훈련으로 유지하면서 양식의 특성과 더욱 밀접하게 정렬되도록 피드포워드 네트워크를 조정합니다.

3단계: Uni-MoE 조정
세 번째이자 마지막 단계에서는 Uni-MoE 프레임워크가 2단계에서 전문가가 조정한 가중치를 Mixture of Expert 레이어에 통합합니다. 그런 다음 Uni-MoE 프레임워크는 혼합 다중 모드 명령 데이터를 공동으로 활용하여 MLLM을 미세 조정합니다. 다음 이미지의 손실 곡선은 학습 프로세스의 진행 상황을 반영합니다.

Mixture of Expert 구성 간의 비교 분석 결과, 2차 훈련 단계에서 모델이 개선된 전문가는 향상된 안정성을 나타내고 혼합 모드 데이터 세트에서 더 빠른 수렴을 달성한 것으로 나타났습니다. 또한 텍스트, 이미지, 오디오, 비디오를 포함한 복잡한 다중 모드 데이터와 관련된 작업에서 Uni-MoE 프레임워크는 전문가 XNUMX명을 고용했을 때보다 전문가 XNUMX명을 고용했을 때 더 일관된 훈련 성능과 감소된 손실 변동성을 보여주었습니다.

Uni-MoE : 실험 및 결과
다음 표에는 Uni-MoE 프레임워크의 아키텍처 사양이 요약되어 있습니다. LLaMA-7B 아키텍처를 기반으로 구축된 Uni-MoE 프레임워크의 주요 목표는 모델 크기를 확장하는 것입니다.

다음 표에는 전문 교육 작업에 따라 Uni-MoE 프레임워크의 설계 및 최적화가 요약되어 있습니다. 이러한 작업은 MLP 계층의 기능을 개선하여 향상된 모델 성능을 위해 전문 지식을 활용하는 데 중요한 역할을 합니다. Uni-MoE 프레임워크는 다양한 훈련 방법론의 차별적인 영향을 설명하기 위해 8가지 단일 방식의 전문가 작업을 수행합니다.

이 모델은 2개의 비디오 이해, 3개의 오디오 이해, 5개의 음성 관련 작업을 포함하는 다양한 벤치마크 세트에서 다양한 모델 변형의 성능을 평가합니다. 먼저 모델의 음성-이미지 및 음성-텍스트 작업을 이해하는 능력을 테스트하고 그 결과는 다음 표에 포함되어 있습니다.

관찰할 수 있듯이 이전 기본 모델은 음성 이해 작업 전반에 걸쳐 열등한 결과를 제공하며 이는 이미지 음성 추론 작업의 성능에 더욱 영향을 미칩니다. 결과는 Mixture of Expert 아키텍처를 도입하면 보이지 않는 오디오 이미지 추론 작업에 대한 MLLM의 일반화 가능성을 향상시킬 수 있음을 나타냅니다. 다음 표는 이미지-텍스트 이해 작업에 대한 실험 결과를 나타냅니다. 관찰할 수 있듯이 Uni-MoE 모델의 최상의 결과는 기준선을 능가하고 평균 4포인트 차이로 미세 조정 작업을 능가합니다.

최종 생각
이 기사에서 우리는 다양한 형식과 전문가를 처리할 수 있는 MoE 또는 전문가 혼합 아키텍처를 갖춘 통합 다중 모드 대형 언어 모델인 Uni-MoE에 대해 설명했습니다. Uni-MoE 프레임워크는 또한 전문가 수준의 모델 병렬성과 데이터 병렬성을 사용하여 훈련 및 추론 프로세스를 보다 효율적으로 만들기 위해 대규모 언어 모델 내에서 전문가 혼합 아키텍처를 구현합니다. 또한 일반화 및 다중 전문가 협업을 강화하기 위해 Uni-MoE 프레임워크는 세 가지 프로세스를 결합한 진보적인 교육 전략을 제시합니다. 첫 번째로 Uni-MoE 프레임워크는 다양한 교차 양식 데이터가 있는 다양한 커넥터를 사용하여 교차 양식 정렬을 달성합니다. 둘째, Uni-MoE 프레임워크는 교차 양식 교육 데이터를 통해 양식별 전문가를 교육함으로써 전문가 구성 요소의 선호도를 활성화합니다. 마지막으로 Uni-MoE 모델은 모델을 조정하기 위해 혼합 다중 모드 명령 데이터에 LoRA 또는 Low-Rank Adaptation 학습 기술을 구현합니다.












