인공 지능

Snowflake Arctic: 엔터프라이즈 AI를 위한 최첨단 LLM

게재

2 주 전

2024 년 4 월 25 일

오늘날 기업에서는 LLM(대형 언어 모델)을 활용하여 생산성을 높이고 지능형 애플리케이션을 만드는 방법을 점점 더 모색하고 있습니다. 그러나 사용 가능한 LLM 옵션 중 다수는 데이터 분석, 코딩 및 작업 자동화와 같은 전문적인 기업 요구 사항에 맞게 맞춤화되지 않은 일반 모델입니다. 입력하다 눈송이 북극 – 핵심 기업 사용 사례에 맞게 의도적으로 설계되고 최적화된 최첨단 LLM입니다.

Snowflake의 AI 연구팀이 개발한 Arctic은 효율적인 교육, 비용 효율성 및 비교할 수 없는 수준의 개방성을 통해 가능한 것의 경계를 넓혀갑니다. 이 혁신적인 모델은 기존 LLM에 비해 훨씬 적은 컴퓨팅 성능을 필요로 하면서 주요 기업 벤치마크에서 탁월한 성능을 발휘합니다. Arctic이 엔터프라이즈 AI의 판도를 바꾸는 이유가 무엇인지 살펴보겠습니다.

기업 인텔리전스 재정의 기본적으로 Arctic은 코딩, SQL 쿼리, 복잡한 지침 따르기, 근거 있는 사실 기반 출력 생성 등 기업에 정말로 중요한 측정 기준에 대한 탁월한 성능을 제공하는 데 중점을 두고 있습니다. Snowflake는 이러한 중요한 기능을 새로운 "엔터프라이즈 인텔리전스" 메트릭.

결과가 말해줍니다. Arctic은 교육에 컴퓨팅 예산을 절반 미만으로 사용하면서 엔터프라이즈 인텔리전스 벤치마크에서 LLAMA 7B 및 LLAMA 70B와 같은 모델을 충족하거나 능가합니다. 놀랍게도, 활용에도 불구하고 LLAMA 17B보다 70배 적은 컴퓨팅 리소스, Arctic은 코딩(HumanEval+, MBPP+), SQL 생성(Spider) 및 명령 따르기(IFEval)와 같은 특수 테스트에서 패리티를 달성합니다.

그러나 Arctic의 탁월함은 단순히 기업 벤치마크를 달성하는 것 이상입니다. DBRX와 같이 기하급수적으로 더 높은 컴퓨팅 예산으로 훈련된 모델에 비해 일반적인 언어 이해, 추론 및 수학적 적성 전반에 걸쳐 강력한 성능을 유지합니다. 이러한 전체적인 기능 덕분에 Arctic은 기업의 다양한 AI 요구 사항을 해결하기 위한 탁월한 선택이 되었습니다.

혁신

Dense-MoE Hybrid Transformer 그렇다면 Snowflake 팀은 어떻게 이렇게 믿을 수 없을 만큼 유능하면서도 효율적인 LLM을 구축했을까요? 그 대답은 Arctic의 최첨단 MoE(Dense Mixture-of-Experts) Hybrid Transformer 아키텍처에 있습니다.

기존의 밀도가 높은 변압기 모델은 크기가 커짐에 따라 훈련 비용이 점점 더 많이 들고 계산 요구 사항도 선형적으로 증가합니다. MoE 설계는 여러 병렬 피드포워드 네트워크(전문가)를 활용하고 각 입력 토큰에 대한 하위 집합만 활성화하여 이를 방지하는 데 도움이 됩니다.

그러나 단순히 MoE 아키텍처를 사용하는 것만으로는 충분하지 않습니다. Arctic은 밀도가 높은 구성 요소와 MoE 구성 요소의 장점을 독창적으로 결합합니다. 10억 개의 매개변수가 밀집된 변환기 인코더와 128개의 전문가 잔여 MoE 다층 퍼셉트론(MLP) 레이어를 결합합니다. 이 조밀한 MoE 하이브리드 모델은 총 480억 개의 매개변수를 갖고 있지만 상위 17 게이팅을 사용하면 특정 시간에 2억 개만 활성화됩니다.

그 의미는 심오합니다. Arctic은 전례 없는 모델 품질과 용량을 달성하는 동시에 훈련 및 추론 중에 놀라운 컴퓨팅 효율성을 유지합니다. 예를 들어 Arctic은 추론 중에 DBRX와 같은 모델보다 활성 매개변수가 50% 적습니다.

그러나 모델 아키텍처는 전체 이야기의 일부일 뿐입니다. Arctic의 우수성은 Snowflake 연구팀이 개발한 여러 선구적인 기술과 통찰력의 정점입니다.

기업 중심 교육 데이터 커리큘럼 광범위한 실험을 통해 팀은 상식 추론과 같은 일반적인 기술을 조기에 배워야 하고, 코딩 및 SQL과 같은 보다 복잡한 전문 분야는 교육 과정 후반에 습득하는 것이 가장 좋다는 사실을 발견했습니다. Arctic의 데이터 커리큘럼은 인간의 학습 진행 과정을 모방한 3단계 접근 방식을 따릅니다.

첫 번째 테라토큰은 광범위한 일반 기반을 구축하는 데 중점을 둡니다. 다음 1.5 테라토큰은 SQL, 코딩 작업 등에 맞춰진 데이터를 통해 엔터프라이즈 기술을 개발하는 데 중점을 둡니다. 최종 테라토큰은 정제된 데이터 세트를 사용하여 Arctic의 전문화를 더욱 개선합니다.

최적의 아키텍처 선택 MoE는 컴퓨팅당 더 나은 품질을 약속하지만 올바른 구성을 선택하는 것이 중요하지만 이에 대한 이해가 부족합니다. 자세한 연구를 통해 Snowflake는 품질 효율성 균형을 평가한 후 모든 계층에서 상위 128개의 게이팅을 갖춘 2명의 전문가를 고용하는 아키텍처를 선택했습니다.

전문가 수를 늘리면 더 많은 조합이 제공되어 모델 용량이 향상됩니다. 그러나 이로 인해 통신 비용도 증가하므로 Snowflake는 최적의 균형으로 Top-128 게이팅을 통해 활성화된 신중하게 설계된 2명의 "축적된" 전문가를 선택했습니다.

시스템 공동 설계 그러나 최적의 모델 아키텍처라도 시스템 병목 현상으로 인해 약화될 수 있습니다. 그래서 Snowflake 팀은 여기서도 혁신을 이루었습니다. 즉, 기본 교육 및 추론 시스템과 함께 모델 아키텍처를 공동 설계했습니다.

효율적인 훈련을 위해 밀도가 높은 MoE 구성 요소는 통신과 계산이 겹치도록 구성되어 상당한 통신 오버헤드를 숨겼습니다. 추론 측면에서 팀은 NVIDIA의 혁신을 활용하여 Arctic의 규모에도 불구하고 매우 효율적인 배포를 가능하게 했습니다.

FP8 양자화와 같은 기술을 사용하면 대화형 추론을 위해 단일 GPU 노드에 전체 모델을 맞출 수 있습니다. 더 큰 배치는 여러 노드에 걸쳐 Arctic의 병렬 처리 기능을 사용하는 동시에 컴팩트한 17B 활성 매개변수 덕분에 인상적인 컴퓨팅 효율성을 유지합니다.

Apache 2.0 라이센스를 사용하면 Arctic의 가중치와 코드는 개인, 연구 또는 상업적 용도로 무제한으로 사용할 수 있습니다. 그러나 Snowflake는 훨씬 더 나아가 완전한 데이터 레시피, 모델 구현, 팁 및 Arctic을 뒷받침하는 깊은 연구 통찰력을 오픈 소스로 제공합니다.

"북극 요리책"는 Arctic과 같은 대규모 MoE 모델 구축 및 최적화의 모든 측면을 다루는 포괄적인 지식 기반입니다. 데이터 소싱, 모델 아키텍처 설계, 시스템 공동 설계, 최적화된 훈련/추론 체계 등에 대한 주요 학습 내용을 정리합니다.

최적의 데이터 커리큘럼 식별부터 컴파일러, 스케줄러 및 하드웨어를 공동 최적화하는 동시에 MoE 설계에 이르기까지 이 광범위한 지식 체계는 이전에 엘리트 AI 연구소에 국한되었던 기술을 민주화합니다. Arctic Cookbook은 학습 곡선을 가속화하고 전 세계 기업, 연구원 및 개발자가 거의 모든 사용 사례에 맞는 비용 효율적인 맞춤형 LLM을 만들 수 있도록 지원합니다.

북극 시작하기

Arctic 활용에 관심이 있는 기업을 위해 Snowflake는 빠르게 시작할 수 있는 다양한 경로를 제공합니다.

서버리스 추론: Snowflake 고객은 회사의 완전 관리형 AI 플랫폼인 Snowflake Cortex에서 Arctic 모델에 무료로 액세스할 수 있습니다. 그 외에도 Arctic은 AWS, Microsoft Azure, NVIDIA 등과 같은 모든 주요 모델 카탈로그에서 사용할 수 있습니다.

처음부터 시작: 오픈 소스 모델 가중치 및 구현을 통해 개발자는 Arctic을 앱 및 서비스에 직접 통합할 수 있습니다. Arctic 저장소는 코드 샘플, 배포 튜토리얼, 미세 조정 방법 등을 제공합니다.

맞춤형 모델 구축: Arctic Cookbook의 철저한 가이드 덕분에 개발자는 Arctic 개발에서 얻은 학습 내용을 사용하여 특수한 사용 사례에 최적화된 자체 맞춤형 MoE 모델을 처음부터 구축할 수 있습니다.

개방형 엔터프라이즈 AI Arctic의 새로운 시대는 단순한 강력한 언어 모델 그 이상입니다. 이는 기업을 위해 특별히 구축된 개방적이고 비용 효율적이며 전문화된 AI 기능의 새로운 시대를 예고합니다.

혁신적인 데이터 분석 및 코딩 생산성부터 작업 자동화 및 스마트 애플리케이션 강화에 이르기까지 Arctic의 기업 우선 DNA는 일반 LLM에 비해 탁월한 선택입니다. 그리고 Snowflake는 모델뿐만 아니라 그 이면의 전체 R&D 프로세스를 오픈 소스화함으로써 전체 AI 생태계를 향상시킬 협업 문화를 조성하고 있습니다.

기업이 생성 AI를 점점 더 많이 수용함에 따라 Arctic은 생산 워크로드 및 기업 환경에 대해 객관적으로 우수한 모델을 개발하기 위한 대담한 청사진을 제공합니다. 최첨단 연구, 비교할 수 없는 효율성 및 확고한 개방적 정신의 결합은 AI의 혁신적인 잠재력을 민주화하는 데 새로운 기준을 설정합니다.

다음은 Snowflake Arctic 모델을 사용하는 방법에 대한 코드 예제가 포함된 섹션입니다.

북극 체험

이제 Arctic을 진정으로 획기적인 이유를 다루었으니, 개발자와 데이터 과학자가 이 강력한 모델을 작동시킬 수 있는 방법을 살펴보겠습니다.
Arctic은 사전 훈련되어 Hugging Face 및 파트너 AI 플랫폼과 같은 주요 모델 허브를 통해 배포할 준비가 되어 있습니다. 그러나 특정 사용 사례에 맞게 사용자 정의하고 미세 조정할 때 진정한 힘이 드러납니다.

Arctic의 Apache 2.0 라이선스는 이를 귀하의 앱, 서비스 또는 맞춤형 AI 워크플로에 통합할 수 있는 완전한 자유를 제공합니다. 시작하려면 변환기 라이브러리를 사용하여 몇 가지 코드 예제를 살펴보겠습니다.
북극을 이용한 기본 추론

빠른 텍스트 생성 사용 사례를 위해 Arctic을 로드하고 기본 추론을 매우 쉽게 실행할 수 있습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

다음과 같이 출력되어야 합니다.

“프랑스의 수도는 파리예요. 파리는 프랑스 최대의 도시이자 프랑스의 경제, 정치, 문화의 중심지입니다. 에펠탑, 루브르 박물관, 노트르담 대성당 등 유명한 랜드마크가 있는 곳이에요.”

보시다시피 Arctic은 쿼리를 완벽하게 이해하고 강력한 언어 이해 기능을 활용하여 상세하고 기초적인 응답을 제공합니다.

전문적인 작업을 위한 미세 조정

Arctic은 기본적으로 인상적이지만 특수한 작업을 위해 독점 데이터를 맞춤화하고 미세 조정할 때 진정으로 빛을 발합니다. Snowflake는 다음을 포함하는 광범위한 레시피를 제공했습니다.

사용 사례에 맞는 고품질 교육 데이터 선별
맞춤형 다단계 교육 커리큘럼 실시
효율적인 LoRA, P-Tuning 또는 FactorizedFusion 미세 조정 접근 방식 활용
안목 있는 SQL, 코딩 또는 기타 핵심 기업 기술을 위한 최적화

다음은 LoRA 및 Snowflake의 레시피를 사용하여 자체 코딩 데이터 세트에서 Arctic을 미세 조정하는 방법에 대한 예입니다.

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

이 코드는 Arctic을 쉽게 로드하고, 코드 생성에 맞게 조정된 LoRA 구성을 초기화한 다음 Snowflake의 지침을 활용하여 독점 코딩 데이터 세트에서 모델을 미세 조정할 수 있는 방법을 보여줍니다.

맞춤화되고 정밀하게 조정된 Arctic은 핵심 기업 워크플로우와 이해관계자 요구 사항에 대해 탁월한 성능을 제공하도록 조정된 프라이빗 강국이 됩니다.

북극의 급속한 혁신 주기

Arctic의 가장 인상적인 측면 중 하나는 Snowflake의 AI 연구팀이 이 최첨단 모델을 구상, 개발하고 전 세계에 출시하는 엄청난 속도입니다. 처음부터 오픈 소스 릴리스까지 전체 Arctic 프로젝트는 3개월도 채 걸리지 않았으며 유사한 대규모 언어 모델을 훈련하는 데 일반적으로 소요되는 컴퓨팅 예산의 약 1/8만 활용했습니다.

최첨단 AI 연구를 빠르게 반복하고 혁신하며 제품화하는 능력은 정말 놀랍습니다. 이는 Snowflake의 심층적인 기술 역량을 입증하고 회사가 기업에 최적화된 새로운 AI 기능 개발의 경계를 지속적으로 확장할 수 있는 위치에 있습니다.

Arctic 계열 및 임베딩

Arctic은 기업 LLM 분야에서 Snowflake의 야망의 시작일 뿐입니다. 이 회사는 이미 다양한 크기 프로필의 검색 성능에 최적화된 업계 최고의 텍스트 임베딩 모델인 Snowflake Arctic Embed 제품군을 오픈 소스로 공개했습니다.

아래 그림과 같이 Arctic Embed 모델은 존경받는 MTEB(텍스트 검색) 벤치마크에서 최첨단 검색 정확도를 달성하여 주요 기술 대기업의 비공개 제품을 포함한 다른 주요 임베딩 모델보다 성능이 뛰어납니다.

[Arctic Embed 모델에 대한 MTEB 검색 벤치마크 결과를 보여주는 이미지 삽입]

이러한 임베딩 모델은 Arctic LLM을 보완하며 기업이 통합 오픈 소스 스택에서 강력한 질문 답변 및 검색 증강 생성 솔루션을 구축할 수 있도록 해줍니다.

그러나 Snowflake의 로드맵은 Arctic 및 임베딩을 훨씬 뛰어넘는 범위로 확장됩니다. 회사의 AI 연구원들은 다중 모드 작업, 음성, 비디오 및 더 많은 첨단 기능에 맞춰진 새로운 모델로 Arctic 제품군을 확장하기 위해 열심히 노력하고 있습니다. 모두 전문화, 효율성 및 개방성의 동일한 원칙을 사용하여 구축되었습니다.

개방형 AI 생태계를 위한 파트너십 Snowflake는 개방형 엔터프라이즈급 AI의 잠재력을 최대한 실현하려면 AI 커뮤니티 전반에 걸쳐 풍부한 파트너십 생태계를 육성해야 한다는 점을 이해하고 있습니다. Arctic 릴리스에서는 이미 주요 플랫폼 및 제공업체와의 협력이 활발해졌습니다.

NVIDIA는 TensorRT, Triton 등을 포함한 NVIDIA의 최첨단 AI 추론 스택을 사용하여 효율적인 배포를 위해 Arctic을 최적화하기 위해 Snowflake와 긴밀히 협력했습니다. 이를 통해 기업은 비용 효율적으로 규모에 맞게 북극에 서비스를 제공할 수 있습니다.

선도적인 오픈 소스 모델 허브인 Hugging Face는 Arctic을 라이브러리와 모델 저장소에 도입했습니다. 이를 통해 Arctic을 기존 Hugging Face 기반 AI 워크플로우 및 애플리케이션에 원활하게 통합할 수 있습니다.

Replicate, SageMaker 등과 같은 플랫폼은 호스팅된 데모, API 및 Arctic에 대한 원활한 통합 경로를 제공하기 위해 신속하게 이동하여 채택을 가속화했습니다.

오픈 소스는 북극의 발전을 주도했으며 개방형 생태계는 북극 진화의 중심으로 남아 있습니다. Snowflake는 개방형 전문 AI 모델로 가능한 것의 경계를 넓히기 위해 전 세계 연구원, 개발자, 파트너 및 기업과의 풍부한 협업을 육성하기 위해 최선을 다하고 있습니다.

관련 주제 :AI 연구 북극의 기업 LLM 전문가의 혼합 눈송이 변압기

다음 위로

Mini-Gemini: 다중 양식 비전 언어 모델의 잠재력 발굴

놓치지 마세요.

AIOS: LLM 에이전트용 운영 체제

아유쉬 미탈

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.