AI 101

์ „๋ฌธ๊ฐ€ ๆททๅˆ ๋ชจ๋ธ์˜ ๋ถ€์ƒ: ํฌ์†Œํ•œ AI ๋ชจ๋ธ์ด ๊ธฐ๊ณ„ ํ•™์Šต์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•

mm

전문가 混合 (MoE) 모델은 AI를 확장하는 방식을 혁신적으로 바꾸고 있습니다. 모델의 구성 요소를 부분적으로만 활성화함으로써, MoE는 모델 크기와 계산 효율성 간의 트레이드 오프를 관리하는 새로운 접근 방식을 제공합니다. 전통적인 밀집 모델과 달리 모든 매개 변수를 모든 입력에 사용하는 대신, MoE는 엄청난 매개 변수 수를 달성하면서 추론 및 교육 비용을 관리할 수 있습니다. 이 혁신은 연구 및 개발의 물결을 일으켰고, 기술 거대 기업과 스타트업 모두가 MoE 기반 아키텍처에大量으로 투자하고 있습니다.

전문가 混합 모델의 작동 방식

MoE 모델의 핵심은 여러 전문가 서브 네트워크로 구성되어 있으며, 게이팅 메커니즘이 각 입력에 대한 전문가의 할당을 결정합니다. 예를 들어, 언어 모델에 입력된 문장이 8개의 전문가 중 2개만 활성화할 수 있습니다. 이는 계산 작업을 크게 줄입니다.

이 개념은 구글의 스위치 트랜스포머와 GLaM 모델로 대중화되었습니다. 여기서 전문가들은 전통적인 피드 포워드 레이어를 대체했습니다. 스위치 트랜스포머는 각 레이어에서 하나의 전문가로 토큰을 라우팅하는 반면, GLaM은 성능 개선을 위해 상위 2개의 전문가로 라우팅합니다. 이러한 설계는 MoE가 GPT-3와 같은 밀집 모델을 능가하는 성능을 보여주면서도 훨씬 적은 에너지와 계산을 사용한다는 것을 보여주었습니다.

핵심 혁신은 조건부 계산에 있습니다. 모델의 전체를 활성화하는 대신, MoE는 관련 부분만 활성화합니다. 이는 수백억 또는 수조개의 매개 변수를 갖는 모델이 훨씬 더 작은 모델의 효율성으로 실행될 수 있음을 의미합니다. 이는 전통적인 확장 방법으로는 달성할 수 없는 성과입니다.

실제 세계에서의 MoE 적용

MoE 모델은 이미 여러 도메인에서 자신의 존재감을 보여주었습니다. 구글의 GLaM과 스위치 트랜스포머는 언어 모델링에서 최첨단 결과를 보여주었으며, 교육 및 추론 비용이 줄었습니다. 마이크로소프트의 Z-Code MoE는 번역기에서 운영 중이며, 이전 모델보다 더 정확하고 효율적인 결과를 보여주고 있습니다. 이는 연구 프로젝트가 아니라 실제 서비스입니다.

컴퓨터 비전에서 구글의 V-MoE 아키텍처는 ImageNet 벤치마크에서 분류 정확도를 개선했습니다. 또한, LIMoE 모델은 이미지와 텍스트를 포함한 멀티모달 작업에서 강한 성능을 보여주었습니다. 전문가들이 특정 작업을 수행할 수 있는 능력은 AI 시스템에 새로운 기능을 추가합니다.

추천 시스템과 멀티 태스크 학습 플랫폼도 MoE의 혜택을 받았습니다. 예를 들어, 유튜브의 추천 엔진은 MoE와 같은 아키텍처를 사용하여 시청 시간과 클릭률을 더 효율적으로 처리합니다. 다양한 작업이나 사용자 행동에 대한 전문가를 할당함으로써, MoE는 더 강력한 개인화 엔진을 구축하는 데 도움이 됩니다.

이점과 도전

MoE의 주요 이점은 효율성입니다. 대규모 모델을 교육하고 배포할 수 있으면서도 계산 비용을 크게 줄일 수 있습니다. 예를 들어, Mistral AI의 Mixtral 8×7B 모델은 47B의 총 매개 변수를 갖지만, 토큰당 12.9B의 매개 변수만 활성화합니다. 이는 13B 모델의 비용 효율성을 제공하면서 GPT-3.5와 같은 모델의 품질을 달성합니다.

MoE는 또한 전문성을 촉진합니다. 다양한 패턴을 학습할 수 있는 전문가들이 있기 때문에, 전체 모델은 다양한 입력을 더 잘 처리할 수 있습니다. 이는 멀티링구얼, 멀티 도메인, 또는 멀티모달 작업에서 특히 유용합니다. 여기서 일괄 처리 모델은 성능이 저하될 수 있습니다.

그러나 MoE는 엔지니어링 도전을 수반합니다. 효과적으로 사용되기 위해서는 모든 전문가가 사용되도록 교육해야 합니다. 메모리 오버헤드도 문제입니다. 추론 시에 일부 매개 변수만 활성화되지만, 모든 매개 변수를 메모리에 로드해야 합니다. GPU 또는 TPU에서 계산을 효율적으로 분산하는 것은 간단하지 않으며, 마이크로소프트의 DeepSpeed와 구글의 GShard와 같은 특수 프레임워크의 개발로 이어졌습니다.

이러한 장애물에도 불구하고, 성능과 비용의 혜택은 상당하여 MoE는 이제 대규모 AI 설계의 중요한 구성 요소로 간주됩니다. 더 많은 도구와 인프라가 성숙함에 따라, 이러한 도전은 점차적으로 극복되고 있습니다.

MoE와 다른 확장 방법의 비교

전통적인 밀집 확장은 모델 크기와 계산을 선형적으로 증가시킵니다. MoE는 총 매개 변수를 증가시키면서 입력당 계산을 증가시키지 않습니다. 이는 수조개의 매개 변수를 갖는 모델을 이전에 수십억 매개 변수로 제한된 하드웨어에서 교육할 수 있음을 의미합니다.

모델 앙상블과 비교하여 MoE는 훨씬 더 효율적입니다. 여러 모델을 병렬로 실행하는 대신, MoE는 하나의 모델을 실행하지만, 여러 전문가 경로의 이점을 제공합니다.

MoE는 또한 데이터 확장 전략(예: Chinchilla 방법)을 보완합니다. Chinchilla는 더 작은 모델에서 더 많은 데이터를 사용하는 반면, MoE는 모델 용량을 확장하면서 계산을 안정적으로 유지합니다. 이는 계산이 병목 현상인 경우에 이상적입니다.

마지막으로, 모델 가지치기와 양자화와 같은 기술은 모델을 축소하지만, MoE는 모델 용량을 확장합니다. 이는 압축의 대체가 아니라, 효율적인 성장에 대한 직교 도구입니다.

MoE 혁명을 이끄는 회사

기술 거대 기업

구글오늘날의 MoE 연구를 주도했습니다. 스위치 트랜스포머와 GLaM 모델은 각각 1.6T와 1.2T 매개 변수를 달성했습니다. GLaM은 GPT-3의 성능을 달성하면서 에너지 사용량을 3분의 1로 줄였습니다. 구글은 또한 MoE를 비전(V-MoE)과 멀티모달 작업(LIMoE)에 적용했습니다. 이는 유니버설 AI 모델에 대한 구글의 Pathways 비전과 일치합니다.

마이크로소프트Z-Code 모델을 통해 MoE를 생산에 통합했습니다. 또한 DeepSpeed-MoE를 개발하여 수조 매개 변수 모델의 빠른 교육과 낮은 지연 시간 추론을 가능하게 했습니다. 마이크로소프트의 기여에는 라우팅 알고리즘과 효율적인 MoE 계산을 위한 Tutel 라이브러리가 포함됩니다.

메타대규모 언어 모델과 추천 시스템에서 MoE를 탐구했습니다. 1.1T MoE 모델은 4배 적은 계산으로 밀집 모델의 품질을 달성할 수 있음을 보여주었습니다. LLaMA 모델은 밀집 모델이지만, 메타의 MoE 연구는 더 넓은 커뮤니티에 정보를 제공하고 있습니다.

아마존SageMaker 플랫폼을 통해 MoE를 지원합니다. 아마존은 Mistral의 Mixtral 모델을 교육하는 것을 촉진했으며, Alexa AI와 같은 서비스에서 MoE를 사용하고 있는 것으로 알려져 있습니다. AWS 문서는 대규모 모델 교육을 위해 MoE를 적극적으로 홍보합니다.

화웨이중국의 BAAI는 MoE 모델을 개발하여 기록을 깨고 있습니다. 이는 언어와 멀티모달 작업에서 MoE의 잠재력을 보여주고, 글로벌적인 관심을 받고 있습니다.

스타트업과 도전자

Mistral AIMoE 혁신의 오픈 소스 대표입니다. Mixtral 8×7B와 8×22B 모델은 MoE가 밀집 모델을 능가하는 성능을 보여주면서도 비용을 크게 줄일 수 있음을 보여주었습니다. 6억 유로 이상의 자금을 투자받은 Mistral은 희소 아키텍처에 큰賭を 걸었습니다.

xAI, 일론 머스크가 설립한 회사,는 Grok 모델에서 MoE를 탐구하는 것으로 알려져 있습니다. 자세한 정보는 제한적이지만, MoE는 스타트업이 대규모 컴퓨팅 없이도 큰 기업과 경쟁할 수 있는 방법을 제공합니다.

Databricks는 MosaicML을 인수하여 DBRX를 출시했습니다. 이는 효율성을 위한 오픈 MoE 모델입니다. 또한 MoE 교육을 위한 인프라와 레시피를 제공하여, 더 많은 개발자가 이를 사용할 수 있도록 합니다.

다른 회사들, 예를 들어 Hugging Face,는 라이브러리에 MoE 지원을 통합했습니다. 이는 개발자가 이러한 모델을 사용하여 빌드할 수 있도록 합니다. 직접 MoE를 구축하지 않더라도, 이러한 모델을 가능하게 하는 플랫폼은 생태계에 중요합니다.

결론

전문가 混합 모델은 단순한 트렌드가 아니라, AI 시스템을 구축하고 확장하는 방식의 근본적인 변화를 나타냅니다. 네트워크의 일부만을 선택적으로 활성화함으로써, MoE는 대규모 모델의 힘을 제공하면서도 그 비용을 피할 수 있습니다. 소프트웨어 인프라가 따라가고 라우팅 알고리즘이 개선됨에 따라, MoE는 멀티 도메인, 멀티링구얼, 멀티모달 AI의 기본 아키텍처가 될 것입니다.

연구자, 엔지니어, 투자자이든, MoE는 앞으로 더 강력하고 효율적이며 적응력이 뛰어난 AI의 미래를 예측합니다.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.