인공지능

Uni-MoE: 다중 모달 대형 언어 모델을 전문가混合으로 확장

Published May 31, 2024

Updated April 27, 2026

Kunal Kejriwal

최근 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 아키텍처와 성능에 대한 발전은 성능을 향상시키기 위해 확장 가능한 데이터와 모델의 중요성을 강조했다. 이러한 접근 방식은 성능을 향상시키지만 실제로 사용하기 어렵고 비용이 많이 드는 계산 비용을 초래한다. 지난 몇 년 동안, 전문가 혼합(Mixture of Experts, MoE) 모델은 이미지-텍스트 및 대형 언어 모델을 효율적으로 확장하는 데 성공적인 대안 접근 방식으로 등장했다. MoE 모델은 계산 비용이 낮고 강력한 성능을 가지고 있기 때문이다. 그러나 이러한 모델은 대형 언어 모델을 확장하는 데 이상적인 접근 방식이 아니며, 일반적으로 전문가가 적고 모달리티가 제한적이기 때문에 적용 범위가 제한된다.

현재 접근 방식의 문제를 해결하고 대형 언어 모델을 효율적으로 확장하기 위해, 본 문서에서는 Uni-MoE를介绍한다. Uni-MoE는 다중 모달 대형 언어 모델로, 전문가 혼합(MoE) 아키텍처를 사용하여 다양한 모달리티와 전문가를 처리할 수 있다. Uni-MoE 프레임워크는 또한 대형 언어 모델 내에서 희박한 전문가 혼합 아키텍처를 구현하여 전문가 수준의 모델 병렬성과 데이터 병렬성을 사용하여 훈련과 추론 과정을 더 효율적으로 만든다.さらに, 일반화와 다중 전문가 협력을 향상시키기 위해, Uni-MoE 프레임워크는 세 가지 다른 프로세스의 조합인 점진적인 훈련 전략을 제시한다. 첫째, Uni-MoE 프레임워크는 다양한 모달리티 데이터를 사용하여 모달리티 간의 정렬을 달성한다. 둘째, Uni-MoE 프레임워크는 모달리티별 전문가를 훈련하여 각 전문가의 숙련도를 향상시킨다. 마지막으로, Uni-MoE 모델은 혼합 다중 모달 지시 데이터에 Low-Rank Adaptation(LoRA) 학습 기술을 적용하여 모델을 조정한다. 지시-tuned Uni-MoE 프레임워크가 다양한 다중 모달 데이터셋에서 평가되었을 때, 광범위한 실험 결과는 Uni-MoE 프레임워크가 혼합 다중 모달 데이터셋을 처리할 때 성능 편향을 크게 감소시키는 주요 이점을 강조했다. 결과는 또한 다중 전문가 협력과 일반화의显著한 개선을 나타냈다.

본 문서는 Uni-MoE 프레임워크를 깊이 있게 다루고, 메커니즘, 방법론, 아키텍처 및 최신 프레임워크와의 비교를 탐구한다. 따라서 시작해 보자.

Uni-MoE: 다중 모달 대형 언어 모델 확장

LLama와 InstantBlip를 포함한 오픈 소스 다중 모달 대형 언어 모델의 등장은 지난 몇 년 동안 이미지-텍스트 이해와 관련된 작업에서 주목할만한 성공과 발전을 보여주었다.さらに, AI 커뮤니티는 전통적인 이미지-텍스트 패러다임을 넘어서 이미지, 텍스트, 오디오, 비디오 등 다양한 모달리티를 수용할 수 있는 통합 다중 모달 대형 언어 모델을 구축하기 위해 적극적으로 노력하고 있다. 오픈 소스 커뮤니티에서 다중 모달 대형 언어 모델의 능력을 향상시키기 위한 일반적인 접근 방식은 비전 기초 모델의 크기를 증가시키고, 이를 대형 언어 모델과 통합하고, 다양한 다중 모달 데이터셋을 사용하여 지시 튜닝을 향상시키는 것이다. 이러한 발전은 다중 모달 대형 언어 모델이 여러 모달리티를 처리하고推論하는 능力的 중요성을 강조했다.

모델을 확장하는 것은 성과를 내는 검증된 접근 방식이지만, 이는 훈련과 추론 과정을 위해 계산 비용이 많이 든다.

고 비용의 계산 비용 문제를 해결하기 위해, 오픈 소스 커뮤니티는 대형 언어 모델에 전문가 혼합(MoE) 아키텍처를 통합하여 훈련과 추론 효율성을 향상시키고 있다. 다중 모달 대형 언어 모델과 대형 언어 모델은 모든 입력에 대해 모든 매개변수를 사용하여 처리하여 밀도 계산 접근 방식을 사용하는 반면, 전문가 혼합 아키텍처는 각 입력에 대해 전문가 매개변수의 부분집합만 활성화하여 계산 비용을 줄인다. 따라서 전문가 혼합 접근 방식은 광범위한 매개변수 활성화와 높은 계산 비용 없이 대형 모델의 효율성을 향상시키는 жиз력 있는 경로로 나타난다. 기존 연구는 텍스트 전용 및 텍스트-이미지 대형 모델의 구축에서 전문가 혼합 모델의 성공적인 구현과 통합을 강조했지만, 연구자들은 아직 전문가 혼합 아키텍처를 사용하여 강력한 통합 다중 모달 대형 언어 모델을 개발하는 잠재력을 완전히 탐구하지 못했다.

Uni-MoE는 다중 모달 대형 언어 모델로, 희박한 전문가 혼합 모델을 사용하여 여러 모달리티를 해석하고 관리한다. 다음 이미지를 참조하면, Uni-MoE 프레임워크는 먼저 다양한 모달리티의 인코딩을 얻은 다음, 이러한 인코딩을 대형 언어 모델의 언어 표현 공간으로 매핑한다. 이러한 매핑은 다양한 커넥터를 사용하여 수행되며, 이는 훈련 가능한 트랜스포머 모델과 선형 투영을 포함한다.

さらに, 다중 전문가 협력과 일반화를 향상시키기 위해, Uni-MoE 프레임워크는 세 단계의 훈련 전략을 구현한다. 첫째, 프레임워크는 이미지/오디오/스피치와 언어 간의 연결을 위해 다양한 커넥터를 사용한다. 둘째, Uni-MoE 모델은 모달리티별 전문가를 훈련하여 각 전문家的 숙련도를 향상시킨다. 마지막으로, Uni-MoE 모델은 혼합 다중 모달 지시 데이터에 Low-Rank Adaptation(LoRA) 학습 기술을 적용하여 모델을 조정한다.

Uni-MoE : 방법론과 아키텍처

Uni-MoE 프레임워크의 기본 동기는 다중 모달 대형 언어 모델의 훈련과 추론 비용을 줄이고, 전문가 혼합 아키텍처의 효율성을 활용하여 강력한 통합 다중 모달 대형 언어 모델을 구축하는 것이다. 다음 그림은 Uni-MoE 프레임워크의 아키텍처를 보여준다.

Uni-MoE 프레임워크는 대형 언어 모델의 내부 블록에 전문가 혼합 아키텍처를 통합하여 훈련과 추론 과정을 더 효율적으로 만든다. 이는 희박한 라우팅 메커니즘을 구현함으로써 달성된다. 전체적인 훈련 과정은 세 단계로 나뉜다: 모달리티 간의 정렬, 모달리티별 전문가 훈련, 그리고 혼합 다중 모달 지시 데이터셋을 사용한 Uni-MoE 모델의 조정.

훈련 전략

Uni-MoE 프레임워크는 점진적인 훈련 전략을 도입하여 모델을 개발한다. 이 전략은 다양한 전문가의 능력을 활용하고, 다중 전문가 협력을 향상시키고, 모델의 일반화를 향상시키기 위해 시도한다.

단계 1 : 모달리티 간의 정렬

첫째, Uni-MoE 프레임워크는 다양한 모달리티 간의 연결을 설정한다. 이는 커넥터를 사용하여 수행된다.

단계 2: 모달리티별 전문가 훈련

둘째, Uni-MoE 프레임워크는 모달리티별 전문가를 훈련하여 각 전문家的 숙련도를 향상시킨다.

단계 3: Uni-MoE 모델의 조정

셋째, Uni-MoE 프레임워크는 전문가의 가중치를 통합하여 모델을 조정한다.

비교 분석은 전문가 혼합 모델의 구성이 모델의 성능과 안정성을 향상시킬 수 있음을 보여주었다.

Uni-MoE : 실험과 결과

다음 표는 Uni-MoE 프레임워크의 아키텍처 사양을 요약한다.

다음 표는 Uni-MoE 프레임워크의 설계와 최적화를 보여준다.

모델은 다양한 벤치마크에서 성능을 평가한다.

결과는 Uni-MoE 모델이 기존 모델보다 우수한 성능을 보여준다.

최종 생각

본 문서에서 우리는 Uni-MoE에 대해 논의했다. Uni-MoE는 다중 모달 대형 언어 모델로, 전문가 혼합 아키텍처를 사용하여 다양한 모달리티와 전문가를 처리할 수 있다. Uni-MoE 프레임워크는 또한 대형 언어 모델 내에서 희박한 전문가 혼합 아키텍처를 구현하여 전문가 수준의 모델 병렬성과 데이터 병렬성을 사용하여 훈련과 추론 과정을 더 효율적으로 만든다.さらに, 일반화를 향상시키기 위해, Uni-MoE 프레임워크는 세 가지 다른 프로세스의 조합인 점진적인 훈련 전략을 제시한다.