Artificial Intelligence

デコーダベースの大規模言語モデル: 完全ガイド

更新中 on 2024 年 4 月 27 日

大規模な言語モデル (LLM) は、人間のようなテキストを生成し、質問に答え、言語関連の幅広いタスクを支援する際に優れた能力を実証することにより、自然言語処理 (NLP) の分野に革命をもたらしました。これらの強力なモデルの中核には、 デコーダのみのトランスフォーマアーキテクチャ、独創的な論文で提案されたオリジナルの変圧器アーキテクチャの変形です。注意はあなたが必要とするすべてです」バスワニらによる。

この包括的なガイドでは、デコーダーベースの LLM の内部動作を調査し、これらのモデルを NLP 研究とアプリケーションの最前線に押し上げた基本的な構成要素、アーキテクチャの革新、実装の詳細を詳しく掘り下げます。

トランスフォーマーのアーキテクチャ: おさらい

デコーダベースの LLM の詳細に入る前に、これらのモデルが構築される基盤であるトランスフォーマーアーキテクチャを再検討することが重要です。トランスフォーマーはシーケンスモデリングに新しいアプローチを導入し、再帰層や畳み込み層を必要とせず、データ内の長距離依存関係をキャプチャするアテンションメカニズムのみに依存します。

トランスフォーマーのアーキテクチャ

元のトランスフォーマーアーキテクチャは、エンコーダーとデコーダーという 2 つの主要コンポーネントで構成されています。エンコーダーは入力シーケンスを処理し、コンテキスト化された表現を生成します。これはデコーダーによって消費され、出力シーケンスを生成します。このアーキテクチャは当初、機械翻訳タスク用に設計されており、エンコーダがソース言語の入力文を処理し、デコーダがターゲット言語で対応する文を生成します。

自己注意: Transformer の成功の鍵

その中心にトランス自己注意メカニズムは、モデルが入力シーケンス内のさまざまな位置からの情報を重み付けして集約できるようにする強力なテクニックです。入力トークンを順番に処理する従来のシーケンスモデルとは異なり、セルフアテンションにより、モデルはシーケンス内の位置に関係なく、任意のトークンのペア間の依存関係をキャプチャできます。

マルチクエリの注意

セルフアテンションの操作は、次の 3 つの主要なステップに分類できます。

クエリ、キー、および値のプロジェクション: 入力シーケンスは 3 つの別々の表現に投影されます。 クエリ （Q）、キー（K）、および値 (V)。これらの投影は、入力に学習された重み行列を乗算することによって取得されます。
注意スコアの計算: 入力シーケンス内の各位置について、対応するクエリベクトルとすべてのキーベクトルの間のドット積を計算することによって、アテンションスコアが計算されます。これらのスコアは、処理中の現在の位置に対する各位置の関連性を表します。
値の加重合計: アテンションスコアはソフトマックス関数を使用して正規化され、結果として得られるアテンションの重みを使用して値ベクトルの加重合計が計算され、現在の位置の出力表現が生成されます。

自己注意メカニズムの変形である多頭注意により、モデルは複数の「注意」にわたる注意スコアを計算することで、さまざまなタイプの関係を捉えることができます。頭」を並行して実行し、それぞれに独自のクエリ、キー、および値の投影セットを使用します。

アーキテクチャのバリアントと構成

デコーダベースの LLM の中心原理は一貫していますが、研究者はパフォーマンス、効率、一般化機能を向上させるためにさまざまなアーキテクチャのバリエーションと構成を検討してきました。このセクションでは、さまざまなアーキテクチャの選択とその影響について詳しく説明します。

アーキテクチャの種類

デコーダベースの LLM は、エンコーダデコーダ、コーザルデコーダ、プレフィックスデコーダの 3 つの主なタイプに大別できます。各アーキテクチャタイプは、異なる注意パターンを示します。

エンコーダ/デコーダのアーキテクチャ

バニラの Transformer モデルに基づいて、エンコーダ/デコーダアーキテクチャは、エンコーダとデコーダの 2 つのスタックで構成されます。エンコーダーは、スタックされたマルチヘッドセルフアテンションレイヤーを使用して、入力シーケンスをエンコードし、潜在表現を生成します。次に、デコーダはこれらの表現に対してクロスアテンションを実行して、ターゲットシーケンスを生成します。さまざまな NLP タスクでは効果的ですが、LLM はほとんどありません。フラン-T5、このアーキテクチャを採用します。

因果デコーダのアーキテクチャ

因果デコーダーアーキテクチャには一方向アテンションマスクが組み込まれており、各入力トークンが過去のトークンとそれ自体にのみ注目できるようになります。入力トークンと出力トークンは両方とも同じデコーダー内で処理されます。などの注目モデル GPT-1、GPT-2、および GPT-3 はこのアーキテクチャに基づいて構築されており、GPT-3 は優れたコンテキスト内学習機能を備えています。 OPT、BLOOM、Gopher を含む多くの LLM は、因果デコーダを広く採用しています。

プレフィックスデコーダのアーキテクチャ

非因果デコーダーとしても知られるプレフィックスデコーダーアーキテクチャは、因果デコーダーのマスキングメカニズムを変更して、プレフィックストークンに対する双方向のアテンションと、生成されたトークンに対する単方向のアテンションを有効にします。エンコーダ/デコーダアーキテクチャと同様に、プレフィックスデコーダはプレフィックスシーケンスを双方向にエンコードし、共有パラメータを使用して出力トークンを自己回帰的に予測できます。プレフィックスデコーダに基づく LLM には、GLM130B や U-PaLM などがあります。

3 つのアーキテクチャタイプはすべて、専門家混合 (MoE) スケーリング技術。各入力のニューラルネットワークの重みのサブセットをまばらにアクティブにします。このアプローチは、Switch Transformer や GLaM などのモデルで採用されており、エキスパートの数や合計パラメーターサイズの増加により、大幅なパフォーマンスの向上が見られます。

デコーダ専用トランスフォーマー: 自己回帰の性質を受け入れる

元のトランスフォーマーアーキテクチャは、機械翻訳などのシーケンス間のタスク向けに設計されていますが、言語モデリングやテキスト生成などの多くの NLP タスクは、モデルが条件付きで一度に 1 つのトークンを生成する自己回帰問題として組み立てることができます。以前に生成されたトークン。

デコーダのみのトランスフォーマを入力します。これは、デコーダコンポーネントのみを保持するトランスフォーマアーキテクチャの簡略化されたバリアントです。このアーキテクチャは、以前に生成されたトークンを入力コンテキストとして利用して出力トークンを 1 つずつ生成するため、自己回帰タスクに特に適しています。

デコーダ専用トランスフォーマとオリジナルのトランスフォーマデコーダの主な違いは、セルフアテンションメカニズムにあります。デコーダのみの設定では、モデルが将来のトークンに注意を払わないようにセルフアテンション操作が変更されます。これは因果関係として知られる特性です。これは、「マスクされた自己注意」と呼ばれる手法によって実現されます。この手法では、将来の位置に対応する注意スコアが負の無限大に設定され、ソフトマックス正規化ステップ中に効果的にそれらの位置をマスクします。

デコーダベースの LLM のアーキテクチャコンポーネント

セルフアテンションとマスクされたセルフアテンションの中心原則は同じですが、最新のデコーダベースの LLM には、パフォーマンス、効率、汎化機能を向上させるためにいくつかのアーキテクチャ上の革新が導入されています。最先端の LLM で採用されている主要なコンポーネントと技術のいくつかを見てみましょう。

入力表現

入力シーケンスを処理する前に、デコーダベースの LLM はトークン化および埋め込み技術を使用して、生のテキストをモデルに適した数値表現に変換します。

ベクトル埋め込み

トークン化: トークン化プロセスは、入力テキストを一連のトークンに変換します。トークンは、使用されるトークン化戦略に応じて、単語、サブワード、または個々の文字になる場合もあります。 LLM の一般的なトークン化手法には、Byte-Pair Encoding (BPE)、SentencePiece、WordPiece などがあります。これらの方法は、語彙のサイズと表現の粒度のバランスをとることを目的としており、モデルがまれな単語や語彙外の単語を効果的に処理できるようにします。

トークンの埋め込み: トークン化後、各トークンはトークン埋め込みと呼ばれる高密度ベクトル表現にマッピングされます。これらの埋め込みはトレーニングプロセス中に学習され、トークン間の意味論的および構文的な関係を捕捉します。

位置埋め込み: Transformer モデルは、入力シーケンス全体を同時に処理し、リカレントモデルに存在するトークンの位置という固有の概念を欠いています。位置情報を組み込むために、位置埋め込みがトークン埋め込みに追加され、モデルがシーケンス内の位置に基づいてトークンを区別できるようになります。初期の LLM は正弦波関数に基づく固定位置エンベディングを使用していましたが、より最近のモデルでは学習可能な位置エンベディングや、回転位置エンベディングなどの代替位置エンコーディング技術が検討されています。

マルチヘッドアテンションブロック

デコーダベースの LLM のコア構成要素はマルチヘッドアテンション層であり、前述のマスクされたセルフアテンション操作を実行します。これらの層は複数回スタックされ、各層は前の層の出力に対応するため、モデルはますます複雑になる依存関係と表現をキャプチャできるようになります。

注意ヘッド: 各マルチヘッドアテンションレイヤーは複数の「アテンションヘッド」で構成され、それぞれが独自のクエリ、キー、および値の投影セットを持ちます。これにより、モデルは入力のさまざまな側面に同時に対応し、多様な関係やパターンを捉えることができます。

残留接続と層の正規化: 深いネットワークのトレーニングを容易にし、勾配消失問題を軽減するために、デコーダベースの LLM は残差接続と層正規化技術を採用します。残留接続はレイヤーの入力をその出力に追加し、バックプロパゲーション中に勾配がより容易に流れるようにします。レイヤーの正規化は、アクティベーションと勾配を安定させるのに役立ち、トレーニングの安定性とパフォーマンスをさらに向上させます。

フィードフォワード層

マルチヘッドアテンションレイヤーに加えて、デコーダベースの LLM には、シーケンス内の各位置に単純なフィードフォワードニューラルネットワークを適用するフィードフォワードレイヤーが組み込まれています。これらの層は非線形性を導入し、モデルがより複雑な表現を学習できるようにします。

活性化関数: フィードフォワード層での活性化関数の選択は、モデルのパフォーマンスに大きな影響を与える可能性があります。以前の LLM は広く使用されている ReLU アクティベーションに依存していましたが、最近のモデルでは、Gaussian Error Linear Unit (GELU) や SwiGLU アクティベーションなどのより高度なアクティベーション関数が採用され、パフォーマンスが向上しています。

まばらな注意力と効率的なトランスフォーマー

セルフアテンションメカニズムは強力ですが、シーケンスの長さに関して 2 次の計算量がかかるため、長いシーケンスでは計算コストが高くなります。この課題に対処するために、自己注意の計算およびメモリ要件を軽減し、より長いシーケンスの効率的な処理を可能にするいくつかの技術が提案されています。

まばらな注意: GPT-3 モデルで採用されているようなスパースアテンションテクニックは、すべての位置のアテンションスコアを計算するのではなく、入力シーケンス内の位置のサブセットに選択的に注目します。これにより、適度なパフォーマンスを維持しながら、計算の複雑さを大幅に軽減できます。

スライディングウィンドウの注意: ミストラル 7B モデルで導入されたスライディングウィンドウアテンション (SWA) は、各トークンのアテンションスパンを固定ウィンドウサイズに制限する、シンプルかつ効果的な手法です。このアプローチは、複数の層にわたって情報を送信するトランスフォーマー層の機能を活用し、完全な自己注意の二次的な複雑さを伴うことなく、注意持続時間を効果的に増加させます。

ローリングバッファキャッシュ: 特に長いシーケンスの場合にメモリ要件をさらに削減するために、Mistral 7B モデルはローリングバッファキャッシュを採用しています。この手法では、計算されたキーと値のベクトルを固定ウィンドウサイズに保存して再利用し、冗長な計算を回避し、メモリ使用量を最小限に抑えます。

グループ化されたクエリのアテンション: LLaMA 2 モデルで導入されたグループ化クエリアテンション (GQA) は、アテンションヘッドをグループに分割し、各グループが共通のキーと値のマトリックスを共有するマルチクエリアテンションメカニズムの変形です。このアプローチは、マルチクエリアテンションの効率と標準セルフアテンションのパフォーマンスのバランスをとり、高品質の結果を維持しながら推論時間を短縮します。

グループ化されたクエリの注意

モデルのサイズとスケーリング

最新の LLM の特徴の 1 つは、パラメーターの数が数十億から数千億に及ぶ、その規模の巨大さです。モデルのサイズを大きくすると、データ内のより複雑なパターンや関係を捉えることができるため、モデルのサイズを大きくすることは、最先端のパフォーマンスを達成する上で重要な要素となっています。

パラメータ数: デコーダベースの LLM のパラメータの数は、主に、埋め込み次元 (d_model)、アテンションヘッドの数 (n_heads)、層の数 (n_layers)、および語彙サイズ (vocab_size) によって決まります。たとえば、GPT-3 モデルには 175 億個のパラメータがあります。 d_model = 12288, n_heads = 96, n_layers = 96, 語彙サイズ = 50257.

モデルの並列性: このような大規模なモデルのトレーニングとデプロイには、大量の計算リソースと特殊なハードウェアが必要です。この課題を克服するために、モデルを複数の GPU または TPU に分割し、各デバイスが計算の一部を担当するモデル並列技術が採用されています。

専門家の混合: LLM をスケーリングするもう 8 つのアプローチは、専門家混合 (MoE) アーキテクチャです。これは、それぞれがデータまたはタスクの特定のサブセットに特化した複数のエキスパートモデルを組み合わせます。 Mixtral 7xXNUMXB モデルは、ミストラル 7B をベースモデルとして採用し、計算効率を維持しながら優れたパフォーマンスを実現します。

推論とテキスト生成

デコーダベースの LLM の主な使用例の 1 つはテキスト生成です。この場合、モデルは、指定されたプロンプトまたはコンテキストに基づいて、一貫性のある自然な響きのテキストを生成します。

自己回帰デコーディング: 推論中、デコーダベースの LLM は自己回帰的な方法でテキストを生成し、以前に生成されたトークンと入力プロンプトに基づいて一度に 1 つのトークンを予測します。このプロセスは、最大シーケンス長に達するかシーケンス終了トークンが生成されるなど、所定の停止基準が満たされるまで継続します。

サンプリング戦略: 多様でリアルなテキストを生成するには、top-k サンプリング、top-p サンプリング (核サンプリングとも呼ばれます)、温度スケーリングなどのさまざまなサンプリング戦略を使用できます。これらの技術は、語彙全体の確率分布を調整することによって、生成されたテキストの多様性と一貫性の間のトレードオフを制御します。

プロンプトエンジニアリング: 入力プロンプトの品質と具体性は、生成されるテキストに大きな影響を与える可能性があります。プロンプトエンジニアリング (効果的なプロンプトを作成する技術) は、LLM をさまざまなタスクに活用する際の重要な側面として浮上しており、ユーザーがモデルの生成プロセスをガイドして目的の出力を達成できるようにします。

人間参加型デコーディング: 生成されたテキストの品質と一貫性をさらに向上させるには、次のようなテクニックを使用します。人間のフィードバックからの強化学習 (RLHF) が採用されています。このアプローチでは、人間の評価者がモデルが生成したテキストに関するフィードバックを提供し、それを使用してモデルを微調整し、効果的に人間の好みに合わせて出力を改善します。

進歩と今後の方向性

デコーダベースの LLM の分野は急速に進化しており、新しい研究と画期的な進歩により、これらのモデルが達成できる限界が継続的に押し広げられています。ここでは、いくつかの注目すべき進歩と潜在的な将来の方向性を示します。

効率的な変圧器のバリエーション: スパースアテンションとスライディングウィンドウアテンションは、デコーダベースの LLM の効率向上において大きな進歩を遂げましたが、研究者は、パフォーマンスを維持または向上させながら計算要件をさらに削減するために、代替のトランスフォーマーアーキテクチャとアテンションメカニズムを積極的に探索しています。

マルチモーダル LLM: LLM の機能をテキストを超えて拡張するマルチモーダルモデルは、画像、音声、ビデオなどの複数のモダリティを単一の統一フレームワークに統合することを目的としています。これにより、画像キャプション、視覚的な質問応答、マルチメディアコンテンツ生成などのアプリケーションに刺激的な可能性が開かれます。

制御可能な発電: 生成されたテキストをきめ細かく制御できるようにすることは、LLM にとって困難ではありますが重要な方向性です。制御されたテキスト生成やプロンプト調整などの技術は、スタイル、トーン、特定のコンテンツ要件など、生成されるテキストのさまざまな属性をより詳細に制御できるようにすることを目的としています。

まとめ

デコーダベースの LLM は、自然言語処理の分野に変革をもたらす力として登場し、言語の生成と理解で可能なことの限界を押し広げています。これらのモデルは、変圧器アーキテクチャの簡素化されたバリエーションとして始まり、最先端の技術とアーキテクチャ上の革新を活用して、非常に洗練された強力なシステムに進化しました。

私たちがデコーダーベースの LLM の探索と進歩を続けるにつれて、言語関連のタスクでさらに注目に値する成果が得られ、これらのモデルが幅広いアプリケーションやドメインに統合されることが期待されます。ただし、これらの強力なモデルの広範な展開によって生じる可能性のある倫理的考慮事項、解釈可能性の課題、および潜在的な偏見に対処することが重要です。

研究の最前線に留まり、オープンなコラボレーションを促進し、責任ある AI 開発への強いコミットメントを維持することで、私たちはデコーダベースの LLM の可能性を最大限に引き出すと同時に、デコーダベースの LLM が安全で倫理的かつ有益な方法で開発および利用されるようにすることができます。社会。

次に

ポケットサイズのパワーハウス: 携帯電話に適合する言語モデル、Microsoft の Phi-3 を発表

お見逃しなく

Mini-Gemini: マルチモダリティ視覚言語モデルの可能性を発掘する

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。