Artificial Intelligence

MPT-30B: MosaicML は新しい LLM で GPT-3 を上回り、NLP の境界を押し広げます

公開済み

10ヶ月前

２０２２年７月１１日

注目のブログ画像-MPT-30B: MosaicML が新しい LLM で GPT-3 を上回り、言語モデルの境界を押し広げる

モザイクML 　 generative AI AI の導入とスケーラビリティのソリューションを提供する会社です。最新の大規模言語モデル (LLM) MPT-30B AI コミュニティ全体に波紋を広げています。

MosaicML の LLM の旅は、のリリースから始まりました。 MPT-7B (Mosaic Pretrained Transformer) は 2023 年 XNUMX 月にリリースされ、XNUMX つのバリエーションが付属しました。

MPT-7B-StoryWriter-65k+ (長編ストーリー生成用)
MPT-7B-Instruct (以下の短い形式の命令用)
MPT-7B-Chat (対話生成用)

これらのモデルは、オープンソースの性質、商用利用可能性、および拡張されたコンテキストウィンドウを処理する優れた機能により、ML コミュニティで大成功を収めました。

最も重要なことは、このモデルは同等であり、場合によっては他の同等のモデルを上回ったことです (LLaMA-7B, StableLM 7B、など）。 MPT-7B シリーズは 3 月までに 22 万回以上ダウンロードされました。 XNUMX 月 XNUMX 日、MosaicML がリリースされました MPT-30B これにより、オープンソース基盤モデルの基準がさらに引き上げられました。

MPT-30B: GPT-3 を超える強力な LLM

MPT-30B は、オープンソースで商用ライセンスを取得したデコーダベースの LLM であり、MPT-XNUMXB よりも強力です。 GPT-3-175B GPT-17 パラメータのわずか 3%、つまり 30B です。いくつかのタスクでは GPT-3 よりも優れたパフォーマンスを発揮します。 MPT-30BとGPT-3の比較です。

ソース

MPT-30B は、以前の MPT-7B モデルを基に構築されています。同様のサイズのモデルと比較して、トレーニングの計算効率が高くなります。たとえば、LLaMA-30B は MPT-1.44B の約 30 倍の FLOP バジェットを使用しましたが、Falcon-40B の FLOP バジェットは MPT-1.27B の 30 倍でした。以下は、MPT-30B が前モデルと比較してさまざまなタスクにおいて改善された例です。

MPT-30B: GPT-3、MPT-30B、MPT-7B の比較を超える強力な LLM

ソース

MPT-30B のいくつかの特別な機能は次のとおりです。

8k トークンコンテキストウィンドウ

LLM のコンテキストウィンドウは、出力を生成する前にモデルが考慮できるトークンの範囲を指します。 MPT-30B には、トレーニング時に 8000 トークンのコンテキストウィンドウがありました。最初に 1k トークンシーケンスを使用して 2T トークンでトレーニングされ、次に 50k トークンシーケンスの追加の 8B トークンがトレーニングされました (おおよそ 6000語).

ALiBiサポート

この機能を説明するために、次の質問について考えてみましょう。

MPT-30B は、トレーニングされたシーケンスよりも長いシーケンスをどのように理解して予測できるのでしょうか?

MPT-30Bは線形バイアスに関する注意 (ALiBi) より長いシーケンスを理解し、微調整または推論中にコンテキストウィンドウを 8 トークンを超えて拡張するための技術。

ALiBi は、シーケンス内の各単語にベクトルを割り当てる位置埋め込みを計算する代わりに、キートークンとクエリトークン間のアテンションスコアを計算します。キートークンとクエリトークンが近い場合、ペナルティは低くなりますが、それ以外の場合はペナルティが高くなります。その結果、根底にあるのは、トランスアーキテクチャ長い形式の入力を推定できます。

FlashAttend による効率的な推論とトレーニングのパフォーマンス

注意、つまり、入力シーケンスの関連部分に焦点を当てることは、トランスフォーマーの重要なコンポーネントですが、特に長いテキストシーケンスを処理する場合、時間がかかり、メモリを大量に消費する可能性があります。

フラッシュ注意は、MPT-30B のこの問題に対処する、コーネル大学の研究者によって提案されたアプローチです。 FlashAttention は、タイリングと呼ばれる手法を使用して、モデルがメモリから読み書きする必要がある回数を減らし、処理を高速化します。したがって、このモデルでは最先端の FlashAttendant 技術と NVIDIA のより高速なトランスフォーマー効率的なトレーニングと推論のための最適化ライブラリ。

トレーニングと導入が簡単

開発者は MPT-30B を最初からトレーニングすることも、MosaicML のチェックポイントを使用して迅速に展開することもできます。また、特定のデータセットのドメイン固有のユースケースに合わせて微調整することもできます。

このモデルのサイズは、単一の GPU、具体的には 1 ビット精度の 100xA80-16GB、または 1 ビット精度の 100xA40-8GB での容易な導入を可能にするように選択されました。これは、モデルがこれらの GPU のメモリ制限内に収まるように設計されていることを意味します。

コーディング機能

MPT-30B は、優れたコーディング機能も提供します。 HumanEval OpenAI によってリリースされたデータセットには、164 個の手作りのプログラミング問題が含まれています。 HumanEval データセットでは、このモデルは、次のような専用の LLM モデルを上回ります。スターコーダーシリーズ。

ソース

微調整されたバリアント: MPT-30B-Instruct および MPT-30B-Chat

MPT-30B-指示

LLM は主に、質問応答、テキストの要約、言語翻訳などの指示に使用されます。MPT-30B-Instruct は、商用利用可能な (商用 CC-By-SA-3.0 ライセンスを維持している) MPT-30B のバリアントで、特に次の用途に合わせて微調整されています。タスクに続く指示。微調整には、次のデータセットが使用されました。