Artificial Intelligence

Snowflake Arctic: エンタープライズ AI 向けの最先端の LLM

公開済み

2週間前

2024 年 4 月 25 日

Snowflake Arctic: エンタープライズ AI 向けの最先端の LLM

今日の企業は、大規模言語モデル (LLM) を活用して生産性を向上させ、インテリジェントなアプリケーションを作成する方法をますます模索しています。ただし、利用可能な LLM オプションの多くは、データ分析、コーディング、タスク自動化などの特殊な企業ニーズに合わせて調整されていない汎用モデルです。入力スノーフレーク北極 – 企業の中核的なユースケース向けに意図的に設計され、最適化された最先端の LLM。

Snowflake の AI 研究チームによって開発された Arctic は、効率的なトレーニング、費用対効果、比類のないレベルのオープン性によって可能性の限界を押し広げます。この革新的なモデルは、既存の LLM と比較してはるかに少ないコンピューティング能力を必要としながら、主要なエンタープライズベンチマークで優れています。 Arctic がエンタープライズ AI にとって大きな変革をもたらす理由を詳しく見てみましょう。

再定義されたエンタープライズインテリジェンス Arctic は、その中核として、エンタープライズにとって真に重要な指標 (コーディング、SQL クエリ、複雑な命令に従って、根拠のある事実ベースの出力を生成する) で優れたパフォーマンスを提供することに重点を置いています。 Snowflake は、これらの重要な機能を新しい「エンタープライズインテリジェンス」メトリック。

結果がすべてを物語っています。 Arctic は、エンタープライズインテリジェンスベンチマークで LLAMA 7B や LLAMA 70B などのモデルと同等、またはそれを上回っていますが、トレーニングに使用するコンピューティング予算は半分未満です。驚くべきことに、活用しているにも関わらず、 LLAMA 17B と比較してコンピューティングリソースが 70 倍少ない, Arctic は、コーディング (HumanEval+、MBPP+)、SQL 生成 (Spider)、命令追従 (IFEval) などの特殊なテストで同等の性能を実現します。

しかし、Arctic の優れた点は、企業のベンチマークを上回るだけではありません。 DBRX のような飛躍的に高いコンピューティングバジェットでトレーニングされたモデルと比較して、一般的な言語理解、推論、数学的適性にわたって優れたパフォーマンスを維持します。この総合的な機能により、Arctic は企業の多様な AI ニーズに取り組むための無敵の選択肢となります。

イノベーション

Dense-MoE ハイブリッドトランスフォーマーそれでは、Snowflake チームはどのようにして、このような信じられないほど有能でありながら効率的な LLM を構築したのでしょうか?その答えは、Arctic の最先端の高密度専門家混合 (MoE) ハイブリッド変圧器アーキテクチャにあります。

従来の高密度トランスフォーマーモデルは、サイズが大きくなるにつれてトレーニングのコストが増大し、計算要件が直線的に増加します。 MoE の設計では、複数の並列フィードフォワードネットワーク (専門家) を利用し、入力トークンごとにサブセットのみをアクティブにすることで、これを回避できます。

ただし、単に MoE アーキテクチャを使用するだけでは十分ではありません。Arctic は、高密度コンポーネントと MoE コンポーネントの両方の長所を巧みに組み合わせています。これは、10 億パラメータの高密度トランスフォーマエンコーダと 128 のエキスパート残留 MoE マルチレイヤパーセプトロン (MLP) レイヤを組み合わせています。この高密度 MoE ハイブリッドモデルには合計 480 億のパラメーターがありますが、トップ 17 ゲーティングを使用すると、常に 2 億のみがアクティブになります。

その意味は深刻です。Arctic は、トレーニングと推論中に顕著な計算効率を維持しながら、前例のないモデルの品質と容量を実現します。たとえば、Arctic では、推論中に DBRX などのモデルよりもアクティブなパラメーターが 50% 少なくなります。

しかし、モデルアーキテクチャはストーリーの一部にすぎません。 Arctic の卓越性は、Snowflake 研究チームによって開発されたいくつかの先駆的な技術と洞察の集大成です。

エンタープライズに焦点を当てたトレーニングデータカリキュラムチームは広範な実験を通じて、常識的推論などの一般的なスキルは早期に学習する必要がある一方、コーディングや SQL などのより複雑な専門分野はトレーニングプロセスの後半で習得するのが最適であることを発見しました。 Arctic のデータカリキュラムは、人間の学習の進行を模倣した 3 段階のアプローチに従っています。

最初のテラトークンは、広範な一般基盤の構築に焦点を当てています。次の 1.5 テラトークンは、SQL やコーディングタスクなどに合わせたデータを通じてエンタープライズスキルの開発に集中します。最後のテラトークンは、洗練されたデータセットを使用して北極の専門性をさらに洗練させます。

最適なアーキテクチャの選択 MoE はコンピューティングあたりの品質の向上を約束しますが、適切な構成を選択することは重要ですが、十分に理解されていません。詳細な調査を通じて、Snowflake は品質と効率のトレードオフを評価した後、各層にトップ 128 のゲートを設ける 2 人の専門家を雇用するアーキテクチャにたどり着きました。

エキスパートの数を増やすと、より多くの組み合わせが提供され、モデルの能力が向上します。ただし、これにより通信コストも上昇するため、Snowflake は、最適なバランスとして、トップ 128 ゲートを介してアクティブ化される、慎重に設計された 2 人の「凝縮された」エキスパートを採用しました。

システムの協調設計しかし、最適なモデルアーキテクチャであっても、システムのボトルネックによって損なわれる可能性があります。そこで、Snowflake チームはここでも革新を行い、基礎となるトレーニングおよび推論システムと連携してモデルアーキテクチャを共同設計しました。

効率的なトレーニングを実現するために、高密度コンポーネントと MoE コンポーネントは、通信と計算のオーバーラップを可能にし、大幅な通信オーバーヘッドを隠すように構造化されています。推論面では、チームは NVIDIA のイノベーションを活用して、北極の規模にもかかわらず、非常に効率的な展開を可能にしました。

FP8 量子化などの手法を使用すると、インタラクティブな推論のために完全なモデルを単一の GPU ノードに適合させることができます。より大きなバッチでは、複数のノードにわたる Arctic の並列処理機能を活用しながら、コンパクトな 17B アクティブパラメーターのおかげで驚くほどの計算効率を維持します。

Apache 2.0 ライセンスがあれば、Arctic の重みとコードは、個人、研究、商用目的でゲートなしで利用できます。しかし、Snowflake はさらに進んで、完全なデータレシピ、モデルの実装、ヒント、北極を支える深い研究の洞察をオープンソース化しました。

「北極クックブック」は、北極のような大規模な環境モデルの構築と最適化のあらゆる側面をカバーする包括的なナレッジベースです。データソーシング、モデルアーキテクチャ設計、システム共同設計、最適化されたトレーニング/推論スキームなどにわたって重要な学習内容を抽出します。

最適なデータカリキュラムの特定から、コンパイラー、スケジューラー、ハードウェアを共同最適化しながらの MoE の構築に至るまで、この広範な知識体系により、これまでエリート AI ラボに限定されていたスキルが民主化されます。 Arctic Cookbook は学習曲線を加速し、世界中の企業、研究者、開発者が、ほぼすべてのユースケースに合わせてコスト効率の高い独自の LLM を作成できるようにします。

北極を始める

北極圏の活用に熱心な企業向けに、Snowflake はすぐに始めるための複数のパスを提供します。

サーバーレス推論: Snowflake の顧客は、同社のフルマネージド AI プラットフォームである Snowflake Cortex 上の北極モデルに無料でアクセスできます。さらに、Arctic は、AWS、Microsoft Azure、NVIDIA などのすべての主要なモデルカタログで利用できます。

ゼロから始める: オープンソースモデルの重みと実装により、開発者は Arctic をアプリやサービスに直接統合できます。 Arctic リポジトリでは、コードサンプル、デプロイメントチュートリアル、微調整レシピなどが提供されます。

カスタムモデルの構築: Arctic Cookbook の網羅的なガイドのおかげで、開発者は、Arctic の開発から学んだことを使用して、特殊なユースケースに最適化された独自のカスタム MoE モデルを最初から構築できます。

オープンエンタープライズ AI の新時代 Arctic は単なる強力な言語モデルではなく、エンタープライズ向けに構築された、オープンでコスト効率の高い特化された AI 機能の新時代の到来を告げるものです。

データ分析とコーディングの生産性の革新から、タスクの自動化とよりスマートなアプリケーションの強化に至るまで、Arctic のエンタープライズファーストの DNA は、汎用 LLM に勝る無敵の選択肢となっています。そして、Snowflake は、モデルだけでなくその背後にある研究開発プロセス全体をオープンソース化することで、AI エコシステム全体を向上させるコラボレーションの文化を育んでいます。

企業による生成 AI の導入が進む中、Arctic は、実稼働ワークロードとエンタープライズ環境にとって客観的に優れたモデルを開発するための大胆な青写真を提供します。最先端の研究、比類のない効率性、そして確固たるオープン精神が融合したものは、AI の変革の可能性を民主化する上で新たなベンチマークを設定します。

Snowflake Arctic モデルの使用方法に関するコード例を含むセクションを次に示します。

北極との実践

Arctic が真に画期的である理由について説明したので、開発者とデータサイエンティストがこの強力なモデルをどのように機能させ始めることができるかを見ていきましょう。
Arctic は、箱から出してすぐに事前トレーニングされた状態で利用でき、Hugging Face やパートナー AI プラットフォームなどの主要なモデルハブを通じてすぐに展開できます。ただし、その真の力は、特定の使用例に合わせてカスタマイズおよび微調整するときに現れます。

Arctic の Apache 2.0 ライセンスは、アプリ、サービス、カスタム AI ワークフローに完全に自由に統合できます。まずは、トランスフォーマーライブラリを使用したコード例をいくつか見てみましょう。
北極での基本的な推論

迅速なテキスト生成のユースケースでは、Arctic をロードして基本的な推論を非常に簡単に実行できます。

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

これにより、次のような出力が得られます。

「フランスの首都はパリです。パリはフランス最大の都市であり、国の経済、政治、文化の中心地です。エッフェル塔、ルーブル美術館、ノートルダム大聖堂などの有名なランドマークがあります。」

ご覧のとおり、Arctic はクエリをシームレスに理解し、その堅牢な言語理解機能を活用して、詳細で根拠のある応答を提供します。

特殊なタスクに合わせた微調整

Arctic は、すぐに使用できる状態でも優れていますが、特殊なタスクのために独自のデータに基づいてカスタマイズおよび微調整すると、真の輝きを放ちます。 Snowflake は、以下をカバーする広範なレシピを提供しています。

ユースケースに合わせた高品質のトレーニングデータをキュレーション
カスタマイズされた多段階のトレーニングカリキュラムの実施
効率的な LoRA、P-Tuning、または FactorizedFusion 微調整アプローチの活用
SQL、コーディング、その他の主要なエンタープライズスキルを見極めるための最適化

LoRA と Snowflake のレシピを使用して、独自のコーディングデータセットで Arctic を微調整する方法の例を次に示します。

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

このコードは、Arctic を簡単にロードし、コード生成用に調整された LoRA 構成を初期化し、Snowflake のガイダンスを活用して独自のコーディングデータセットでモデルを微調整する方法を示しています。

カスタマイズされ、微調整された Arctic は、企業の中核となるワークフローや関係者のニーズに比類のないパフォーマンスを提供するように調整されたプライベートパワーハウスになります。

北極の急速なイノベーションサイクル

Arctic の最も印象的な側面の 1 つは、Snowflake の AI 研究チームがこの最先端のモデルを考案、開発し、世界にリリースした猛烈なペースです。開始からオープンソースリリースまで、Arctic プロジェクト全体の所要時間は 3 か月未満で、同様の大規模言語モデルのトレーニングに一般的なコンピューティング予算の約 8 分の 1 のみを活用しました。

最先端の AI 研究を迅速に反復、革新し、製品化するこの能力は、本当に驚くべきものです。これは、Snowflake の深い技術的能力を実証し、企業向けに最適化された新しい AI 機能の開発において同社が継続的に限界を押し上げる立場にあります。

北極ファミリーと埋め込み

Arctic は、エンタープライズ LLM 分野における Snowflake の野望の始まりにすぎません。同社は、複数のサイズのプロファイルにわたる検索パフォーマンスを最適化した、業界をリードするテキスト埋め込みモデルの Snowflake Arctic Embed ファミリをすでにオープンソース化しています。

以下に示すように、Arctic Embed モデルは、評判の高い MTEB (テキスト検索) ベンチマークで最先端の検索精度を達成し、大手テクノロジー大手の非公開製品を含む他の主要な埋め込みモデルを上回ります。

[Arctic Embed モデルの MTEB 取得ベンチマーク結果を示す画像を挿入]

これらの埋め込みモデルは Arctic LLM を補完し、企業が統合されたオープンソーススタックから強力な質問応答および検索拡張生成ソリューションを構築できるようにします。

しかし、Snowflake のロードマップは北極と埋め込みだけをはるかに超えています。同社の AI 研究者は、マルチモーダルタスク、音声、ビデオなどのフロンティア機能に合わせた新しいモデルを使用して、北極ファミリーの拡大に熱心に取り組んでいます。これらはすべて、専門化、効率性、オープン性という同じ原則を使用して構築されています。

オープン AI エコシステムのためのパートナーシップ Snowflake は、オープンなエンタープライズグレードの AI の可能性を最大限に実現するには、AI コミュニティ全体でパートナーシップの豊富なエコシステムを育成する必要があることを理解しています。 Arctic のリリースにより、すでに主要なプラットフォームやプロバイダーとのコラボレーションが活性化しています。

NVIDIA は Snowflake と緊密に連携し、TensorRT、Triton などを含む NVIDIA の最先端の AI 推論スタックを使用して効率的な展開のために Arctic を最適化しました。これにより、企業はコスト効率よく大規模に北極圏にサービスを提供できるようになります。

主要なオープンソースモデルハブである Hugging Face は、Arctic をライブラリとモデルリポジトリに迎え入れました。これにより、Arctic を既存の Hugging Face ベースの AI ワークフローおよびアプリケーションにシームレスに統合できます。

Replicate、SageMaker などのプラットフォームは、北極向けのホスト型デモ、API、およびスムーズな統合経路を提供するために迅速に動き、その導入を加速しています。

オープンソースは北極の発展を導いており、オープンなエコシステムは依然として北極の進化の中心となっています。 Snowflake は、世界中の研究者、開発者、パートナー、企業との豊かなコラボレーションを促進し、オープンで特化した AI モデルの可能性の限界を押し広げることに取り組んでいます。

関連トピック：AI研究北極圏企業 LLM 専門家の混合スノーフレークトランス

次に

Mini-Gemini: マルチモダリティ視覚言語モデルの可能性を発掘する

お見逃しなく

AIOS: LLM エージェント用のオペレーティングシステム

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。