スタブ MPT-30B: MosaicML が新しい LLM で GPT-3 を上回り、NLP の境界を押し広げる - Unite.AI
私達と接続

Artificial Intelligence

MPT-30B: MosaicML は新しい LLM で GPT-3 を上回り、NLP の境界を押し広げます

mm

公開済み

 on

注目のブログ画像-MPT-30B: MosaicML が新しい LLM で GPT-3 を上回り、言語モデルの境界を押し広げる

モザイクML   generative AI AI の導入とスケーラビリティのソリューションを提供する会社です。 最新の大規模言語モデル (LLM) MPT-30B AI コミュニティ全体に波紋を広げています。

MosaicML の LLM の旅は、のリリースから始まりました。 MPT-7B (Mosaic Pretrained Transformer) は 2023 年 XNUMX 月にリリースされ、XNUMX つのバリエーションが付属しました。

  1. MPT-7B-StoryWriter-65k+ (長編ストーリー生成用)
  2. MPT-7B-Instruct (以下の短い形式の命令用)
  3. MPT-7B-Chat (対話生成用)

これらのモデルは、オープンソースの性質、商用利用可能性、および拡張されたコンテキスト ウィンドウを処理する優れた機能により、ML コミュニティで大成功を収めました。

最も重要なことは、このモデルは同等であり、場合によっては他の同等のモデルを上回ったことです (LLaMA-7B, StableLM 7B、など)。 MPT-7B シリーズは 3 月までに 22 万回以上ダウンロードされました。 XNUMX 月 XNUMX 日、MosaicML がリリースされました MPT-30B これにより、オープンソース基盤モデルの基準がさらに引き上げられました。

MPT-30B: GPT-3 を超える強力な LLM

MPT-30B は、オープンソースで商用ライセンスを取得したデコーダベースの LLM であり、MPT-XNUMXB よりも強力です。 GPT-3-175B GPT-17 パラメータのわずか 3%、つまり 30B です。 いくつかのタスクでは GPT-3 よりも優れたパフォーマンスを発揮します。 MPT-30BとGPT-3の比較です。

MPT-30B は、以前の MPT-7B モデルを基に構築されています。 同様のサイズのモデルと比較して、トレーニングの計算効率が高くなります。 たとえば、LLaMA-30B は MPT-1.44B の約 30 倍の FLOP バジェットを使用しましたが、Falcon-40B の FLOP バジェットは MPT-1.27B の 30 倍でした。 以下は、MPT-30B が前モデルと比較してさまざまなタスクにおいて改善された例です。

MPT-30B のいくつかの特別な機能は次のとおりです。

8k トークン コンテキスト ウィンドウ

LLM のコンテキスト ウィンドウは、出力を生成する前にモデルが考慮できるトークンの範囲を指します。 MPT-30B には、トレーニング時に 8000 トークンのコンテキスト ウィンドウがありました。 最初に 1k トークン シーケンスを使用して 2T トークンでトレーニングされ、次に 50k トークン シーケンスの追加の 8B トークンがトレーニングされました (おおよそ 6000語).

ALiBiサポート

この機能を説明するために、次の質問について考えてみましょう。

MPT-30B は、トレーニングされたシーケンスよりも長いシーケンスをどのように理解して予測できるのでしょうか?

MPT-30Bは 線形バイアスに関する注意 (ALiBi) より長いシーケンスを理解し、微調整または推論中にコンテキスト ウィンドウを 8 トークンを超えて拡張するための技術。

ALiBi は、シーケンス内の各単語にベクトルを割り当てる位置埋め込みを計算する代わりに、キー トークンとクエリ トークン間のアテンション スコアを計算します。 キー トークンとクエリ トークンが近い場合、ペナルティは低くなりますが、それ以外の場合はペナルティが高くなります。 その結果、根底にあるのは、 トランスアーキテクチャ 長い形式の入力を推定できます。

FlashAttend による効率的な推論とトレーニングのパフォーマンス

注意、つまり、入力シーケンスの関連部分に焦点を当てることは、トランスフォーマーの重要なコンポーネントですが、特に長いテキスト シーケンスを処理する場合、時間がかかり、メモリを大量に消費する可能性があります。

フラッシュ注意 は、MPT-30B のこの問題に対処する、コーネル大学の研究者によって提案されたアプローチです。 FlashAttention は、タイリングと呼ばれる手法を使用して、モデルがメモリから読み書きする必要がある回数を減らし、処理を高速化します。 したがって、このモデルでは最先端の FlashAttendant 技術と NVIDIA の より高速なトランスフォーマー 効率的なトレーニングと推論のための最適化ライブラリ。

トレーニングと導入が簡単

開発者は MPT-30B を最初からトレーニングすることも、MosaicML のチェックポイントを使用して迅速に展開することもできます。 また、特定のデータセットのドメイン固有のユースケースに合わせて微調整することもできます。

このモデルのサイズは、単一の GPU、具体的には 1 ビット精度の 100xA80-16GB、または 1 ビット精度の 100xA40-8GB での容易な導入を可能にするように選択されました。 これは、モデルがこれらの GPU のメモリ制限内に収まるように設計されていることを意味します。

コーディング機能

MPT-30B は、優れたコーディング機能も提供します。 HumanEval OpenAI によってリリースされたデータセットには、164 個の手作りのプログラミング問題が含まれています。 HumanEval データセットでは、このモデルは、次のような専用の LLM モデルを上回ります。 スターコーダー シリーズ。

微調整されたバリアント: MPT-30B-Instruct および MPT-30B-Chat

MPT-30B-指示

LLM は主に、質問応答、テキストの要約、言語翻訳などの指示に使用されます。MPT-30B-Instruct は、商用利用可能な (商用 CC-By-SA-3.0 ライセンスを維持している) MPT-30B のバリアントで、特に次の用途に合わせて微調整されています。タスクに続く指示。 微調整には、次のデータセットが使用されました。

  1. フラン
  2. P3
  3. アルパカ
  4. ドリー-15k

Dolly データセットはさらに拡張されました。 Anthropic の有益かつ無害なデータセット 指導の微調整に。 さらに、データ拡張には次のようなさまざまなデータセットが使用されました。

  1. 競争数学
  2. 学年学校数学
  3. ダイアログサム
  4. デュオRC
  5. カスパー
  6. 品質
  7. サムスクリーン
  8. クモ

MPT-30B-チャット

MPT-30B-Chat は、MPT-30B の対話生成用に微調整されたバージョンです。 これは CC-By-NC-SA-4.0 ライセンスに基づいてリリースされた研究成果物であり、非営利使用のみが許可されています。 モデルは、次のようなさまざまな言語データセットを使用して微調整されました。

  1. アイロボロス/GPT4-1.2
  2. ベイズ
  3. キャメル
  4. GPTeacher
  5. グアナコ
  6. 長い会話
  7. シェアGPT
  8. ウィザードLM

LLM は大部分を共有します。 数十億ドル 生成 AI 市場は、昨年 ChatGPT が環境に革命を起こしてから、すぐに驚異的な成長を遂げました。 MPT ファミリーはこの革命の基礎的な部分です。 近い将来、MPT ファミリよりもはるかに強力で効率的なオープンソース モデルが市販されることが期待されます。

最新の AI ニュースについては、次のサイトをご覧ください。 ユナイトアイ.