인공지능
Mistral AI의 최신 Mixture of Experts (MoE) 8x7B 모델

는 파리 기반의 오픈 소스 모델 스타트업으로, 간단한 토렌트 링크를 통해 최신 대형 언어 모델(LLM), MoE 8x7B를 출시함으로써 규범을 도전했습니다. 이것은 Google의 전통적인 Gemini 출시 접근 방식과 대조되며, AI 커뮤니티 내에서 대화를 일으키고 흥분을 유발합니다.
Mistral AI의 출시 접근 방식은 항상 비전통적이었습니다. 종종 논문, 블로그 또는 보도 자료와 같은 일반적인 동반자를 생략하면서, 그들의 전략은 AI 커뮤니티의 주목을 사로잡는 데 독자적으로 효과적이었습니다.
최근에, 회사는 Andreessen Horowitz가 주도하는 자금 조달 라운드에 따라 $2 억 달러의 평가를 달성했습니다. 이 자금 조달 라운드는 유럽 역사상 가장 큰 $1.18 억의 시드 라운드를 기록하면서 역사적인 기록을 세웠습니다. 자금 조달 성공을 넘어서, Mistral AI는 오픈 소스 AI에서 규제를 줄이기 위해 EU AI 법안을 둘러싼 논의에 적극적으로 참여했습니다.
MoE 8x7B가 주목받는 이유
“GPT-4의 축소판”으로 설명되는 Mixtral 8x7B는 8개의 전문가가 있는 Mixture of Experts (MoE) 프레임워크를 사용합니다. 각 전문가는 111B 파라미터를 가지고 있으며, 55B 공유 주의 파라미터와 결합되어 모델당 총 166B 파라미터를 제공합니다. 이 설계 선택은 중요한데, 각 토큰의 추론에 두 명의 전문가만 참여할 수 있으므로, 더 효율적이고 집중적인 AI 처리로의 전환을 강조합니다.
Mixtral의 주요 특징 중 하나는 32,000 토큰의 광범위한 컨텍스트를 관리할 수 있는 능력으로, 복잡한 작업을 처리하기 위한 충분한 범위를 제공합니다. 모델의 다국어 기능에는 영어, 프랑스어, 이탈리아어, 독일어 및 스페인어를 포함한 강력한 지원이 포함되어 있으며, 글로벌 개발자 커뮤니티를 지원합니다.
Mixtral의 사전 훈련에는 웹에서 가져온 데이터가 포함되며, 전문가와 라우터 모두를 동시에 훈련하는 훈련 접근 방식이 사용됩니다. 이 방법은 모델이 파라미터 공간에서만巨大하지 않지만, 노출된 광범위한 데이터의细微한 점에도 미세하게 조정되도록 보장합니다.

Mixtral 8x7B가 인상적인 점수를 달성
Mixtral 8x7B는 LLaMA 2 70B를 능가하고 GPT-3.5와 경쟁하며, 특히 MBPP 작업에서 60.7%의 성공률을 보이며, 그 대응물보다 훨씬 높은 성능을 보입니다. 또한, 지시를 따르는 모델을 위한 MT-Bench와 같은 엄격한 벤치마크에서 Mixtral 8x7B는 인상적인 점수를 달성하며, 거의 GPT-3.5와 일치합니다.
Mixture of Experts (MoE) 프레임워크 이해
Mixture of Experts (MoE) 모델은 Mistral AI의 MoE 8x7B와 같은 최신 언어 모델에 통합되면서 최근 주목을 받고 있지만, 실제로는 수년 전으로 거슬러 올라가는 기초 개념에 기반합니다. 이 아이디어의 기원을 통해 선구적인 연구 논문을 다시 살펴보겠습니다.
MoE 개념
Mixture of Experts (MoE)는 신경망 아키텍처에 대한 패러다임 전환을 나타냅니다. 전통적인 모델이 모든 유형의 데이터를 처리하기 위해 단일의 동질적인 네트워크를 사용하는 반면, MoE는 더 전문적이고 모듈식인 접근 방식을 채택합니다. 이것은 각기 다른 유형의 데이터 또는 작업을 처리하도록 설계된 여러 ‘전문가’ 네트워크로 구성되며, 입력 데이터를 가장 적절한 전문가에게 동적으로 направ하는 ‘게이팅 네트워크’가 있습니다.

재귀 언어 모델 내에埋입된 Mixture of Experts (MoE) 레이어 (출처)
위의 이미지에는 언어 모델 내에埋입된 MoE 레이어의 높은 수준의 뷰가 표시됩니다. 본질적으로, MoE 레이어는 데이터의 다른 측면을 처리할 수 있는 여러 피드 포워드 서브 네트워크로 구성되며, 각 서브 네트워크는 ‘전문가’라고 합니다. 게이팅 네트워크는 다이어그램에 강조 표시된 대로, 입력 데이터에 참여할 전문가의 조합을 결정합니다. 이 조건부 활성화는 네트워크가 계산 요구 без에 상응하는 증가 없이 용량을 크게 증가시킬 수 있도록 합니다.
MoE 레이어의 기능
실제로, 게이팅 네트워크는 입력(다이어그램에서 G(x)로 표시됨)을 평가하고, 이를 처리하기 위한 전문가의 조합을 선택합니다. 이 선택은 게이팅 네트워크의 출력에 의해 조정되며, 효과적으로 각 전문家的 ‘투표’ 또는 최종 출력에 대한 기여도를 결정합니다. 예를 들어, 다이어그램에 표시된 대로, 각 특정 입력 토큰에 대한 출력을 계산하기 위해 두 명의 전문가만 선택될 수 있으며, 이는 필요한 곳에서 계산 리소스를 집중시키는 효율적인 프로세스를 만듭니다.

MoE 레이어가 있는 Transformer 인코더 (출처)
위의 두 번째 삽화는 전통적인 Transformer 인코더와 MoE 레이어가 추가된 인코더를 대조합니다. Transformer 아키텍처는 언어 관련 작업에서 그 효율성을 널리 인정받았으며, 전통적으로 자기 주의와 피드 포워드 레이어가 순차적으로 쌓여 있습니다. MoE 레이어의 도입은 일부 피드 포워드 레이어를 대체하여, 모델이 용량에 대해 더 효과적으로 확장할 수 있도록 합니다.
증강된 모델에서, MoE 레이어는 여러 장치에 걸쳐 샤딩되어, 모델 병렬 접근 방식을 보여줍니다. 이것은 매우 큰 모델로 확장할 때 중요합니다. 이는 계산 부하와 메모리 요구 사항을 장치 클러스터(예: GPU 또는 TPU)로 분산할 수 있도록 허용하기 때문입니다. 이 샤딩은 수십억에서 수조 개의 파라미터를 갖는 모델을 효율적으로 훈련하고 배포하는 데 필수적입니다.
LLM에 대한 지시 튜닝과 함께 희소 MoE 접근 방식
“Mixture of Experts (MoE) for Scalable Language Modeling”라는 제목의 논문은 Large Language Models (LLMs)을 개선하기 위한 혁신적인 접근 방식을 논의합니다. 이것은 Mixture of Experts 아키텍처와 지시 튜닝 기술을 통합하는 것입니다.
일반적인 도전 과제 중 하나는 MoE 모델이 특정 작업에 미세하게 조정될 때, 동일한 계산 능력의 밀도 모델보다 성능이 떨어지는 것입니다. 이것은 일반적인 사전 훈련과 작업 특정 미세 조정 사이의 불일치 때문입니다.
지시 튜닝은 모델을 자연어 지시를 더 잘 따르도록 미세 조정하는 훈련 방법론으로, 효과적으로 작업 성능을 향상시킵니다. 이 논문은 MoE 모델이 지시 튜닝과 결합될 때, 특히 작업 특정 미세 조정을 추가로 수행할 때, 밀도 모델보다 훨씬 더 좋은 성능을 보인다고 제안합니다. 이 기술은 모델의 사전 훈련된 표현을 지시를 더 잘 따르도록 정렬함으로써, 하위 작업에서 상당한 성능 향상을 가져옵니다.
연구자들은 세 가지 실험 설정에서 연구를 수행했으며, MoE 모델이 직접 작업 특정 미세 조정에서 초기에 밀도 모델보다 성능이 떨어진다는 것을 보여주었습니다. 그러나 지시 튜닝을 적용하면 MoE 모델이 특히 작업 특정 미세 조정을 추가로 수행할 때卓越합니다. 이것은 지시 튜닝이 MoE 모델이 하위 작업에서 밀도 모델을 능가하기 위한 필수적인 단계임을 시사합니다.
또한 FLAN-MOE32B 모델을 도입했으며, 이러한 개념의 성공적인 적용을 보여줍니다. 특히, FLAN-PALM62B와 같은 밀도 모델을 능가하는 성능을 보여주며, 계산 리소스의 1/3만을 사용합니다. 이것은 지시 튜닝과 결합된 희소 MoE 모델이 LLM 효율성 및 성능의 새로운 표준을 설정할 수 있는 잠재력을 보여줍니다.
실제 시나리오에서 Mixture of Experts 구현
MoE 모델의 다용도성은 다양한 응용 분야에 적합합니다:
- 자연어 처리 (NLP): MoE 모델은 인간 언어의細微한 점과 복잡성을 더 효과적으로 처리할 수 있으므로, 고급 NLP 작업에 이상적입니다.
- 이미지 및 비디오 처리: 높은 해상도 처리가 필요한 작업에서 MoE는 이미지 또는 비디오 프레임의 다른 측면을 처리할 수 있으며, 품질과 처리 속도를 향상시킵니다.
- 사용자 정의 AI 솔루션: 비즈니스와 연구자는 MoE 모델을 특정 작업에 맞추어 더 목적에 맞고 효과적인 AI 솔루션을 만들 수 있습니다.
도전 과제 및 고려 사항
MoE 모델은 많은 이점을 제공하지만, 고유한 도전 과제도 제시합니다:
- 훈련 및 튜닝의 복잡성: MoE 모델의 분산 특성은 훈련 과정을 복잡하게 만들 수 있으며, 전문가와 게이팅 네트워크의 세심한 균형과 튜닝이 필요합니다.
- 리소스 관리: 여러 전문가에 걸친 계산 리소스를 효율적으로 관리하는 것이 MoE 모델의 이점을 최대화하는 데 중요합니다.
MoE 레이어를 신경망에 통합하는 것은, 특히 언어 모델의 영역에서, 이전에는 계산 제약으로 인해 불가능했던 크기로 모델을 확장하는 경로를 제공합니다. MoE 레이어에서 가능해지는 조건부 계산은 계산 리소스를 더 효율적으로 분배할 수 있도록 허용하여, 더 큰, 더 강력한 모델을 훈련하고 배포하는 것이 가능해 집니다. 우리가 우리의 AI 시스템에서 더 많은 것을 요구할수록, MoE 레이어가 포함된 Transformer와 같은 아키텍처는 다양한 영역에서 복잡하고 대규모 작업을 처리하는 표준이 될 것입니다.













