人工知能
GLM-130B: オープンな二言語事前トレーニングモデル

GLM-130Bフレームワークは、130億を超えるパラメータを持つ二言語事前トレーニングの大規模言語モデルで、英語と中国語の両方でテキスト出力を生成できる。GLM-130Bフレームワークは、100Bパラメータを超える言語モデルをオープンソース化し、ダイバージェンスやロススパイクなどの問題が頻繁に発生するため、通常、モデルをこの規模でトレーニングすることは困難であることを議論するための試みである。
この記事では、GLM-130Bフレームワークについて説明し、100億を超えるパラメータを持つ大規模言語モデルを効果的に事前トレーニングする方法を提案する。GLM-130Bフレームワークのアーキテクチャとトレーニングプロセス、および効率と安定性の向上に役立つデザイン選択について、詳細に説明する。GLM-130Bフレームワークを英語ベンチマークの広範な配列でテストした初期の実験では、GLM-130Bモデルが現在の最先端のGPT-3フレームワークを大幅に上回った。では、GLM-130Bフレームワークが一貫した、正確で、安定した結果を提供する方法を探ってみましょう。
GLM-130Bフレームワークの紹介
few-shotおよびzero-shot設定で動作する大規模言語モデル、特に100億を超えるパラメータを持つものは、魅力的なスケーリング法則を示し、そのうちの1つは、GPT-3フレームワークである。ただし、GPT-3フレームワークの人気と広範な応用にもかかわらず、トレーニングプロセスと、ある程度、GPT-3フレームワーク自体が一般に公開されていなかった。さらに、100億を超えるパラメータを持つLLMのすべての可能な設計を実証的に列挙することは、計算上非実行可能であるため、大規模LLMフレームワークの事前トレーニング方法を開発することがさらに重要となる。
上記の点は、高品質の大規模LLMフレームワークの動作とトレーニングプロセスを共有することが、GPT-3などの重要であることを示唆しており、倫理的な懸念を考慮して、GLM-130Bフレームワークは100億を超えるパラメータを持つ正確でオープンソースのLLMを事前トレーニングするための試みである。開発チームは、大規模LLMフレームワークを事前トレーニングすることは、事前トレーニングの安定性、効率、収束性に関する幅広いエンジニアリングおよび技術的な課題に伴われることが多いことを観察した。
具体的には、GLM-130Bは、双方向の密なフレームワークで、130億を超えるパラメータを持つ二言語モデルであり、400Bトークンのクラスタ上で約2ヶ月間でトレーニングされた。さらに、GPTスタイルのアーキテクチャではなく、GLM-130Bフレームワークは、GLMまたは一般言語モデルアルゴリズムを使用し、自己回帰的なブランク埋めの目的と双方向の注意の利点を活用することを試みた。以下の表は、GPT、BLOOM-176B、OPT-175Bを含む100億を超えるパラメータを持つ他のモデルと比較したGLM-130Bフレームワークを示している。

GLM-130Bフレームワークのエンジニアリングと開発概念は、GPT-3やPaLM 540Bを含むほぼすべての大規模LLMフレームワークを上回り、多くの場合と幅広いベンチマークで500億を超えるパラメータを持つ。以下の図は、100億を超えるパラメータを持つモデルと比較したGLM-130Bフレームワークのパフォーマンスを示し、GLM-130Bフレームワークがその対象と比較して有意に低い生成毒性とバイアスを持っていることがわかる。

最後に、GLM-130Bは、100億を超えるパラメータを持つフレームワークの研究をできるだけ多くの開発者が実施できるように設計されており、GLM-130Bフレームワークは2つの方法でこれを実現する。まず、BLOOMやOPTのように175Bのパラメータを使用するのではなく、GLM-130Bフレームワークは130Bのパラメータを使用するため、モデルは単一のA100サーバー上での干渉をサポートする。2番目に、GLM-130Bフレームワークを実行するためのGPU要件は、他のLLMフレームワークと比較して低いため、GLM-130Bフレームワークは元のフレームワークをINT4精度に量子化することによってこれを実現する。GLM-130Bフレームワークで使用されるINT4量子化は、パフォーマンスを向上させながら、無視できる程度のパフォーマンス低下を維持する。
GLM-130B : アーキテクチャ
機械学習モデルの帰納的バイアスは、そのアーキテクチャによって記述され、開発者が大規模言語モデルのさまざまなアーキテクチャ設計を探索できないことは驚くことではない。計算上の実行可能性と妥当性がある。と言うことを考えると、GLM-130Bのアーキテクチャを見てみましょう。
PaLM、GPTなどの大規模LLMフレームワークは100億を超えるパラメータを持つが、自己回帰言語モデリングのための従来のデコーダー専用GPTスタイルアーキテクチャに基づいて構築されている。一方、GLM-130Bフレームワークは、自己回帰的なブランク埋めの目的と双方向の注意の利点を活用することを試みて、双方向の一般言語モデルまたはGLM、トランスフォーマーベースの言語モデルを使用する可能性を探索する。
GLMフレームワークは、与えられたテキストシーケンスのテキストスパンをサンプリングし、それらを単一のマスクトークンに置き換える。GLM-130BフレームワークとGPTスタイルアプローチの違いは、GLMフレームワークが不乱化されたコンテキスト上の双方向の注意を使用することである。さらに、GLMフレームワークは、データの生成と理解をサポートするために、2つの汚染戦略を組み合わせており、それぞれが特殊で一意のマスクトークンで示される。
- [MASK] : [MASK]は、文の短いブランクを使用する汚染戦略であり、その長さは入力の一定の割合に加算される。
- [gMASK] : [gMASK]は、 Prefixコンテキストの最後にランダムな長さのブランクを使用する汚染戦略である。
GLMフレームワークのアプローチは、ゼロショット言語モデリングのLAMBADAで80%を超える精度スコアを記録し、PaLM 540BとGPT-3フレームワークを上回ることを可能にする。

レイヤー正規化
LLMフレームワークをトレーニングする際に開発者が直面する主要な課題の1つはトレーニングの不安定性であり、適切なLN(レイヤー正規化)を使用することでトレーニングの安定性を向上させることができる。GLM-130Bフレームワークは、ダウンストリームタスクでのパフォーマンスにより、Post-LNアプローチを使用する。
FFNと位置エンコード
フィードフォワードニューラルネットワーク(FFN)と位置エンコードは、GLM-130Bフレームワークがダウンストリームパフォーマンスとトレーニングの安定性を向上させるために採用した2つのアプローチである。
事前トレーニングの設定
GLM-130Bフレームワークの事前トレーニング目的には、少数のトークンのマルチタスク学習と、ブランクの自己回帰的な埋め込みのための自己教師ありGLMが含まれ、GLM-130Bフレームワークがダウンストリームタスクで役立つことを期待する。と言うことを考えると、GLM-130Bフレームワークの事前トレーニング設定は以下のようになる。
自己教師ありブランク埋め
すでに述べたように、GLM-130Bフレームワークは2つの汚染戦略、[MASK]と[gMASK]を使用し、1つの戦略は個々のトレーニングシーケンスに独立して適用される。ブランクを埋めるために、[MASK]戦略は30%のトレーニングシーケンスの連続するスパンをマスクし、その長さは入力の15%に加算され、ポアソン分布に従う。シーケンスの残りの70%については、各シーケンスのPrefixがコンテキストとして保持され、[gMASK]戦略が残りをマスクし、マスクされた長さは一様分布によってサンプリングされる。
マルチタスク指示事前トレーニング
マルチタスク学習アプローチを採用してモデルを事前トレーニングすることは、ゼロショット設定でのタスク転移に優れた結果をもたらすことが示されており、GLM-130Bフレームワークは事前トレーニング中に言語生成、理解、情報抽出を含む指示付きデータセットの配列を使用することを提案する。
ゼロショットタスク転移のための他のマルチタスクプロンプトファインチューニングアプローチと比較して、GLM-130Bフレームワークで採用されるマルチタスク指示事前トレーニングアプローチは、トレーニングトークンの合計の5%にしか占めることがなく、LLMフレームワークの他の能力、または無条件の自由生成を損なうのを防ぐために、事前トレーニング段階で設定される。
3D並列戦略
大規模モデルを数十億のパラメータでトレーニングするための2つの事実上の慣行は、テンソルモデル並列性とデータ並列性である。GPUの利用を最小限に抑え、巨大なGPU要件を処理するために、GLM-130Bフレームワークは、パイプラインモデル並列戦略とテンソルモデル並列戦略およびデータ並列戦略を組み合わせた3D並列戦略を実装する。
GLM-130B : トレーニングの安定性
トレーニングの安定性は、LLMの品質を決定する上で重要な要素であり、トレーニングの安定性は、通過するトークンの数によって大きく影響される。さらに、浮動小数点形式の制約を考えると、安定性と効率のバランスを取ることが重要である。たとえば、低精度浮動小数点形式は計算効率を向上させるが、オーバーフローとアンダーフローエラーに敏感であるため、トレーニング崩壊を引き起こすことが多い。
混合精度
トレーニングの精度を向上させてメモリ使用量を削減するために、GLM-130Bフレームワークは、FP16をフォワードとバックワードの両方に、FP32をマスターの重みと最適化状態の両方に使用する、混合精度を使用する一般的な慣行に従う。BLOOM-176BやOPT-175Bなどの他の人気LLMフレームワークと同様に、混合精度戦略を使用したGLM-130Bフレームワークのトレーニング段階では、頻繁にロススパイクが発生し、モデルのトレーニングが進むにつれてロススパイクの頻度が増加する。さらに、トランスフォーマーをスケーリングアップする際に開発者が直面する主要な問題がある。

まず、Pre-LNを使用する場合、トランスフォーマーのメインブランチの値スケールは、より深い層で巨大になる可能性がある。GLM-130Bフレームワークでは、DeepNormベースのPre-LNを使用して、値スケールが常にバウンドされていることを保証する。2番目に、モデルがスケールアップするにつれて、注意スコアがFP16の範囲を超えるまでに成長する。
埋め込み層グラディエント収縮(EGS)
GLM-130Bフレームワークで開発者は、グラディエントノルムがトレーニング崩壊の情報的な指標として機能することを発見し、トレーニング崩壊は通常、グラディエントノルムのスパイクに続く。スパイクの原因は、埋め込み層の異常なグラディエントであり、開発者は、他の層のグラディエントノルムと比較して、埋め込み層のグラディエントノルムが何倍も大きく、トレーニングの初期段階で劇的に変動することを観察した。ビジョンモデルもこの問題に直面し、パッチ投影層を凍結することで対処されるが、言語モデルでは投影層を凍結できない。

GLM-130B : 結果とパフォーマンス
GLM-130Bの英語タスクのパフォーマンスを評価するために、PaLMやGPT-3などの一般的なLLMフレームワークで従う設定を実装し、GLM-130Bは二言語フレームワークであるため、多くの中国語ベンチマークでも評価される。GLM-130Bフレームワークのパフォーマンスは、言語モデリング、MMLUまたは大量マルチタスク言語理解、BIG-Benchまたはイミテーションゲームベンチマーク、CLUEまたは中国語理解評価を含む複数のベンチマークで測定される。では、始めましょう。
言語モデリング
GLM-130Bフレームワークの言語モデリングベンチマークテストは、LAMBADAとPileの2つのデータセットで実行される。
LAMBADAデータセットは、LLMの最後の単語モデリング能力をテストするために使用され、GLM-130Bフレームワークは二言語設定で80.2のゼロショット精度スコアを達成し、LAMBADAデータセットで新しいベンチマークレコードを樹立する。
一方、Pileは、言語モデルのためのベンチマークのシリーズを含むテストセットである。平均して、GPT-3やJurassic-1と比較して、GLM-130Bフレームワークは、重み付きBPBsの観点から、18の共有テストセットで最高のパフォーマンスを発揮する。結果は、GLM-130Bフレームワークの強力な言語能力を示し、以下の表に示す。

MMLUまたは大量マルチタスク言語理解
MMLUまたは大量マルチタスク言語理解 は、Pileテストセットのクロール後にリリースされた、人間の知性と知識に関する50を超える多選択質問回答タスクを含む多様なベンチマークであり、ゼロショット学習能力のLLMを評価するための理想的なテストベッドである。

見られるように、少数ショット設定(5ショット)では、GLM-130Bフレームワークのパフォーマンスは、約300Bトークンを表示した後、GPT-3モデルのパフォーマンスに近づく。トレーニングが進むにつれてパフォーマンスが向上し、トレーニングが終了した後、400Bトークンを表示した後、44.8の精度スコアを達成する。
BIG-Benchまたはイミテーションゲームベンチマーク
BIG-Benchまたはイミテーションゲームベンチマークの課題的なタスクは、モデルの知識、推論、常識の能力をテストする。以下の図に示すように、ゼロショット設定では、GLM-130BフレームワークはPaLM 540BとGPT-3 175Bフレームワークを上回り、MIPと双方向コンテキストの注意がGLM-130Bのゼロショット設定での未知のタスクのパフォーマンスを向上させるためである可能性がある。さらに、ショットの数が増加するにつれて、GLM-130Bフレームワークのパフォーマンスも向上し、GPT-3フレームワークを一貫して上回る。

CLUEまたは中国語理解評価
GLM-130Bの中国語ゼロショットパフォーマンスは、CLUEやFewCLUEなどの確立されたNLPベンチマークタスクで評価され、260B ERNIE Titan 3.0と比較される。見られるように、GLM-130Bフレームワークは、12の異なるタスクで一貫して260B ERNIE Titan 3.0フレームワークを上回り、抽象的なMRCデータセットの2つでERNIEフレームワークよりも約260%優れています。

結論
この記事では、GLM-130Bについて説明し、大規模LLMフレームワークのアーキテクチャ、エンジニアリング、技術的取り組みについて、LLM研究を促進するためにAIコミュニティに洞察を提供することを目的とした二言語事前トレーニングの大規模言語モデルである。トレーニングの効率と安定性、およびコスト効率の良い干渉について。










