Connect with us

人工知能

GPT-3 : フェアショットラーニングによる言語モデル?

mm

過去数年間、AIおよびML業界は、NLPシステムの開発および応用において、研究者がNLPの実践を下流のタスク転送のための非常に柔軟でタスク非依存的な方法で実装できるようになったため、急成長を遂げてきました。

当初は、単層表現が単語ベクトルを使用し、タスク固有のアーキテクチャにフィードされていました。次に、RNNアーキテクチャが多層表現とコンテキスト状態を使用して、より優れた表現を形成しました。最近では、タスク固有のアーキテクチャの必要性を完全に排除した、事前トレーニング済みの言語モデルまたは事前トレーニング済みの再帰モデルがあります。

転送言語モデルは、NLP業界における重要な転換点となりました。なぜなら、質問の回答、読解、テキストのブロック、テキストの含意などの課題で大きな進歩をもたらしたからです。

しかし、転送言語モデルの利点がある一方で、タスク固有のファインチューニングまたはタスク固有のデータセットが必要であるという大きな制限があります。さらに、転送言語モデルでは、開発者が特定のタスクに特化した数十万の例のデータセットをファインチューニングする必要があります。

タスク固有のデータセットとタスク固有のファインチューニングの要件を排除することは、NLP業界にとって非常に望ましいことであり、多くの理由から有益であることは明らかです。

既存の事前トレーニング済み転送言語モデルまたは再帰モデルの問題

  • 実用性と適用性の制限

まず、各タスクに大規模なラベル付きデータセットの要件は、言語モデルの実用性と適用性を制限します。言語モデルは、短い物語の生成から、文法の誤りの修正、概念の例の生成など、さまざまなタスクに適用されます。特に、各タスクに対してこのプロセスを繰り返す必要がある場合、ラベル付きの監視データセットを収集することは困難なタスクになることがあります。

  • トレーニングデータのスパリアスな相関関係の利用

トレーニング分布の限界と狭さと、モデルの表現力の組み合わせは、トレーニングデータのスパリアスな相関関係を利用する可能性を根本的に高めることができます。トレーニングデータを利用する可能性は、転送言語モデルが事前トレーニング中に大量の情報を吸収するように設計されているため、ファインチューニングと事前トレーニングのパラダイム中に問題を引き起こす可能性があります。

さらに、以前のモデルに関する研究は、大規模なモデルは常に外部データセットで優れた結果をもたらさないことを示しています。また、事前トレーニングとファインチューニングのパラダイムで達成される一般化は、トレーニングデータに特化しすぎているため、トレーニングデータの範囲を超えた状況ではパフォーマンスが低下する可能性があることを示しています。

  • 人間の学習との比較

最後に、転送言語モデルと比較して、人間は言語タスクの多くを学習するために、大規模なトレーニングデータセットを必要としません。通常、自然言語の簡単な指示または言語タスクの小さなデモンストレーションは、人間が一定のレベルの競争力で言語タスクを実行するために十分です。

人間の適応能力には、さまざまなスキルセットを切り替えたり組み合わせたりして、会話中に優れたパフォーマンスを発揮できるため、実用的利点があります。これは、現在のNLPシステムの能力を超えています。

メタラーニングとGPT-3を使用した問題の解決

上記の課題に対する可能な解決策は、メタラーニングの使用です。メタラーニングは、モデルがトレーニング中により広いスキルセットとパターン認識能力を開発し、推論中にこれらの学習された能力を使用して迅速に適応することを可能にする、現代のMLにおける概念です。

メタラーニングは、事前トレーニング済みの言語モデルのテキスト入力をタスク仕様として使用する「コンテキスト内ラーニング」と呼ばれるテクニークを使用して、言語モデルのアーキテクチャに実装されています。プロセスでは、モデルは自然言語の指示に基づいて条件付けられ、場合によってはいくつかのデモンストレーションを使用し、モデルは次のステップを予測することでタスクの残りを完了することが期待されます。

メタラーニングの唯一の重大な問題は、メタラーニングが潜在的に肯定的な結果を示しているものの、現在、自然言語アーキテクチャにおけるファインチューニングアプローチに比べて未だに劣っていることです。さらに改善が必要です。

メタラーニングに加えて、転送言語モデルの容量を増やすという別の方法もあります。最近の数年間で、転送モデルは容量の著しい増加を経験しており、RNSS18モデルには1億パラメータ、DCLT18モデルには3億パラメータ、RWC19モデルには15億パラメータ、SSP19モデルには80億パラメータ、RSR19モデルには110億パラメータ、TUR20モデルには170億パラメータがあります。

モデルの容量を増やすと、テキストの合成が改善され、ダウンストリームのタスクと関連するログ損失もスムーズな傾向で改善されます。

これにより、175億パラメータを超えるGPT-3モデルに至ります。GPT-3モデルがリリースされたとき、GPT-3モデルは容量が最も大きい転送言語モデルでした。ここで、GPT-3モデルについて説明します。

GPT-3モデルの紹介

GPT-3は、2020年にOpenAIによってリリースされた、175億パラメータを超える自己増加型言語モデルです。GPT-3は、GPT-2モデルのように、デコーダーのみの深層学習トランスフォーマーモデルであり、テキストデータを生成するために畳み込みベースのアーキテクチャを使用します。

GPT-3モデルは、コンテキスト学習能力を自己評価し、GPT-3モデルは20以上のNLPデータセットと複数の新しいタスクで評価されます。各タスクについて、GPT-3モデルは3つの条件で評価されます。

  • フェアショットラーニングまたはコンテキスト内ラーニング:フェアショットラーニングでは、GPT-3モデルはコンテキストウィンドウに収まるだけの分布を許可します。
  • ワンショットラーニング:ワンショットラーニングでは、モデルは1つのデモンストレーションのみを許可します。
  • ゼロショットラーニング:ゼロショットラーニングでは、デモンストレーションはありません。モデルに自然言語の指示のみが与えられます。

広義には、GPT-3モデルは、ゼロショットとワンショットの設定で望ましいパフォーマンスを達成し、フェアショットの設定ではほとんどの場合で最先端の転送モデルを上回ります。さらに、GPT-3モデルは、即座の推論や新しい単語の使用、単語の並べ替え、算術演算などのタスクで、ワンショットとゼロショットの設定で自然言語タスクを実行する際に優れたパフォーマンスを発揮します。一方、フェアショットの設定では、GPT-3モデルは人間の書き言葉に似た合成ニュース記事を生成します。

GPT-3モデルのアプローチ

GPT-3モデルは、モデルの事前トレーニングに従来のアプローチを使用します。これは、RWC-19転送言語モデルの事前トレーニングプロセスに似ています。GPT-3モデルは、モデルのサイズ、データセットのサイズ、データセットの多様性、トレーニング期間の長さを拡大します。

モデルは、RWC-19モデルのアプローチに似たコンテキスト内ラーニングアプローチを使用しますが、コンテキスト内のパターンを学習するためのさまざまな設定を体系的に探索することで、少し異なるものにします。

ここで、これらの設定を調べて、GTP-3モデルがさまざまな設定でどのように実行されるかを評価しましょう。

ファインチューニング

モデルのファインチューニングは、転送言語モデルの従来のアプローチであり、事前トレーニング済みモデルの重みを、特定のタスクに特化した監視データセットで更新することを含みます。このプロセスでは、数十万のラベル付き例が使用されます。

ファインチューニングアプローチは、ベンチマーク全体で強力なパフォーマンスをもたらすという点で有益です。一方、ファインチューニングアプローチの主な制限は、各タスクに新しい大規模なデータセットが必要であり、トレーニングデータセットのスパリアスな特徴を利用する可能性があり、人間のパフォーマンスとの不公平な比較となり、外部データセットでの一般化が低くなる可能性があることです。

GPT-3モデルの現在のスコープでは、タスク非依存のパフォーマンスのため、ファインチューニングアプローチは実装されていませんが、将来はGPT-3モデルにファインチューニングを適用できる可能性があります。

フェアショット

フェアショットとは、GPT-3モデルが推論中にタスクのいくつかのデモンストレーションを条件付けとして受け取る設定を指しますが、モデルの重みは更新されません。フェアショットの設定では、データセットにはコンテキストと完了(例:フランス語の文とその英語訳)が含まれることが多いです。

フェアショットラーニングを使用することの主な利点は、タスク固有のデータセットの必要性と、ファインチューニングに特化した大規模なデータセットから狭い分布を学習する可能性が大幅に削減されることです。一方、フェアショットラーニングの主な欠点は、ファインチューニングされた最先端のモデルと比較して、フェアショットの設定で得られる結果が不十分であることです。

ワンショット

ワンショットの設定では、モデルは1つのデモンストレーションのみを受け取ります。ワンショットの設定が転送言語モデルの文脈で関連している理由は、タスクが人間に伝えられる最も類似した方法だからです。ほとんどのタスクでは、タスクのコンテキストを理解するために1つのデモンストレーションが与えられます。

ゼロショット

ゼロショットの設定では、デモンストレーションはありません。モデルは、タスクを説明する自然言語の指示のみを受け取ります。ゼロショットの方法は、最も便利で堅牢で、スパリアスな相関関係を回避するが、同時に最も困難な設定です。

一部のタスクでは、ゼロショットの設定は、人間が自然言語タスクを実行する方法に最も近いものです。

上記の図は、英語の文をフランス語に翻訳する自然言語タスクで、フェアショット、ワンショット、ゼロショットの設定を比較しています。

GPT-3:モデルのアーキテクチャ

GPT-3モデルは、GPT-2モデルで使用されているのと同じアーキテクチャを使用します。これには、事前正規化、変更された初期化、可逆トークン化テクニックが含まれます。これらは、GPTモデルで使用されたのと同じです。ただし、ローカルにバンド化されたスパースな注意パターンと、トランスフォーマーレイヤー内の交互の密な層に対する代替戦略を使用します。これは、Sparse Transformerに似ています。

モデルのパフォーマンスがモデルのサイズに依存することを調査するために、開発者は、125Mから175億パラメータまでの3つのオーダーの8つの異なるモデルのサイズをトレーニングしました。最後の1つはGPT-3モデルです。以前のLLMモデルに関する研究は、トレーニングデータが十分な場合、検証損失はサイズの関数としてスムーズなパワーローに従うべきであることを示唆しています。サイズが異なるモデルのトレーニングにより、開発者は、ダウンストリームの言語タスクと検証損失の両方でこの仮説をテストできます。

上記の図は、GPT-3モデルのアーキテクチャで使用される8つの異なるモデルのサイズとアーキテクチャを比較しています。ここで、n(params)はトレーニング可能なパラメーターの合計数、n(layers)はモデルの層の合計数、d(model)はボトルネックの各層の単位数、d(head)は各注意ヘッドの次元を定義します。各モデルのコンテキストウィンドウは、2048トークンで同じです。

さらに、ノード間のデータ転送を最小限に抑えるために、モデルは深さと幅の次元でGPUに分割されます。各モデルのアーキテクチャパラメータは、計算効率とGPUでのロードバランシングに基づいて選択され、モデルのレイアウトの精度を最大化します。

トレーニングデータセット

通常、大規模な言語モデルは、最近の開発により著しく拡大したデータセットを使用し、コモンクロールデータセットに集約され、1000億を超える単語で構成されます。データセットのサイズは、GPT-3モデルをトレーニングするのに十分であり、同じシーケンスを複数回更新する必要はありません。ただし、研究とパフォーマンス分析は、コモンクロールデータセットの軽くフィルタリングされたバージョンやフィルタリングされていないバージョンが、よりキュレーションされたデータセットに比べて質が低いことを示しています。

データセットの平均的な質の問題に対処するために、開発者は3つのステップを実施しました。

  1. 開発者は、高品質のリファレンスコーパスに似た範囲に基づいてフィルタリングされたコモンクロールデータセットのバージョンをダウンロードおよびフィルタリングしました。
  2. 開発者は、オーバーフィッティングの有効な測定として保持されるために、データセット全体でドキュメントレベルのファジー複製を実行しました。
  3. 開発者は、コモンクロールデータセットを高品質のリファレンスコーパスで補足し、データセットの多様性をさらに高めました。

次の図は、GPT-3モデルのトレーニングに使用されるデータセットの最終的な混合比率を示しています。フィルタリング前のコモンクロールデータは、フィルタリング前に約45TBのプレーンテキストで、フィルタリング後に約570GBのデータに相当しました。これは、約400億のバイトペアエンコードトークンに相当します。データセットのサイズに比例してではなく、より頻繁にサンプリングされるため、データセットは「高品質」と見なされます。結果として、Books2やコモンクロールなどのデータセットはトレーニング中に1回以下しかサンプリングされませんが、他のデータセットは複数回サンプリングされます。これにより、モデルは高品質のトレーニングデータでトレーニングされる代わりに、ある程度のオーバーフィッティングを許容することができます。

大規模な言語モデルが事前トレーニングされた大量のインターネットデータから学習し、多量のコンテンツを記憶する能力があるため、下流タスクの開発またはテストセットが事前トレーニング中に見られた可能性があるという懸念があります。这种潜在的な汚染を軽減するために、開発者は、GPT-3で調査されたベンチマークの開発およびテストセットとの重複を探し、重複を削除しようとしました。

上記の画像は、GPT-3モデルのトレーニング中に使用される合計コンピューティング能力を示しています。モデルは、Neural Language Modelsのスケーリング法を使用して、従来のモデルよりもはるかに少ないトークンで、はるかに大きなモデルをトレーニングします。結果として、GPT-3と、10倍小さいRoBERTa-Largeモデルは、事前トレーニング中に約50ペタフロップ/日のコンピューティング能力を使用しました。

評価

フェアショットラーニングの場合、モデルは、タスクのトレーニングデータセットからランダムにKの例を抽出して条件付けとして使用し、1つまたは2つの新しい行で区切ることによって、評価データセットの各例を評価します。StoryclozeとLAMBADAの場合、開発セットとテストセットが利用できないため、モデルは開発セットから条件付けの例を抽出し、テストセットで評価します。Winogradの場合、1つのデータセットしかないため、条件付けのサンプルは直接データセットから抽出されます。

Kは、0からモデルのコンテキストウィンドウに収まる最大数(next= 2048)までの任意の値になります。これは、約10から100の例に相当します。Kのより大きな値は、通常、より優れた結果になりますが、常にそうではありません。したがって、モデルにテストセットと別の開発セットがある場合、開発セットでKのいくつかの値を実験し、テストセットで最適な値を実行します。

さらに、複数の選択肢から正しい完了を選択するタスクについては、開発者は、Kの例の正しい完了とコンテキストを提供し、それに続いてコンテキストのみの例を提供し、タスクは各完了のLMの可能性に基づいて比較されます。二項分類タスクについては、モデルはより意味のある名前でオプションを提供し、多項選択として扱い、場合によってはRSRモデルとアーキテクチャで行われるようにタスクを構成します。

自由形式の完了が必要なタスクについては、モデルは、RSRフレームワークで使用されているのと同じパラメータで、ビーム検索を使用します。ビームの長さは4、ペナルティは0.6です。モデルは、F1の類似性スコア、完全一致、またはBLEUによってスコア付けされます。データセットの標準によっては、異なります。

結果

上記の図は、GPT-3モデルのアーキテクチャで説明されている8つのモデルのトレーニング曲線を示しています。KMH言語モデルの結果と同様に、GPT-3モデルのパフォーマンスは、トレーニングコンピューティングを効果的に使用する場合、適切な法則に従います。法則からわずかに逸脱するのは、トレンドが2つのオーダーで拡大された場合のみです。モデルのクロスエントロピーロスの改善は、トレーニングコーパスのスパリアスな詳細をモデル化することによるものであると考えられます。ただし、クロスエントロピーロスの改善は、幅広いNLPタスク全体で一貫した利点につながります。

8つの異なるモデルを幅広いトレーニングデータで評価する前に、データセットは、似たタスクを表す8つの異なるカテゴリにグループ化されます。これらのカテゴリは次のとおりです。

  1. 言語モデリングタスクと言語モデリングに似たタスク(クローズタスクまたは文/段落の完了タスクなど)の評価。
  2. 「クローズドブック」質問回答タスクの評価。
  3. 言語間の翻訳(特にワンショットとフェアショット)におけるモデルの能力の評価。
  4. Winograd Schemaのようなタスクにおけるモデルのパフォーマンスの評価。
  5. 共通の推論または質問回答を含むデータセットの評価。
  6. 読解タスクの評価。
  7. SuperGLUEベンチマークスイートの評価。
  8. NLIの探索。

言語モデリング、完了、クローズタスク

このセクションでは、GPT-3モデルのパフォーマンスが、伝統的な言語モデリングタスクと、単語の予測、段落の完了、テキストの完了などのタスクで評価されます。詳しく説明します。

言語モデリング

GPT-3モデルは、PTB(ペンンツリー銀行)データセットでゼロショットのパープレキシティを計算します。モデルは、Wikipedia関連のタスクを省略します。なぜなら、モデルはすでにトレーニングデータに含まれているからです。1億ワードのベンチマークも省略します。なぜなら、データセットがトレーニングデータに含まれているため、データセットが大きくなるからです。ただし、PTBデータセットは、これらの問題を解決します。PTBデータセットは、モダンなインターネットの前に存在します。GPT-3モデルの最大モデルは、PTBデータセットで新しい最先端のパフォーマンスを達成し、15ポイントの差で20.50のパープレキシティを達成します。

LAMBADA

LAMBADAデータセットは、段落またはテキストの長距離依存関係のモデリングをテストするために使用されます。つまり、モデルは段落のコンテキストを読んだ後、文の最後の単語を予測する必要があります。さらに、大規模な言語モデルのスケーリングは、ベンチマークで減少するリターンをもたらします。

GPT-3モデルは、LAMBADAで76%の精度を達成し、以前の最良のモデルよりも8%以上の改善を示しています。さらに、LAMBADAモデルは、フェアショットラーニングの柔軟性を示しています。LAMBADAは、通常、データセットでクラシックにアプローチされます。LAMBADAのタスクは、文の最後の単語の完了です。言語モデルは、正しい完了にのみ確率を割り当てず、段落の他の継続にも確率を割り当てる可能性があります。

さらに、GPT-3モデルに与えられる例が特定の方法で変更されると、モデルは86%の精度を達成し、以前の最良のモデルよりも18%以上の改善を示します。さらに、結果は、フェアショットの設定でのモデルのパフォーマンスが、モデルのサイズの増加とともに比例して改善されることを示しています。ただし、この戦略は、GPT-3モデルのアーキテクチャの最小モデルを20%低下させますが、175億パラメータを持つ主なGPT-3モデルを10%改善します。

クローズドブック質問回答

クローズドブック質問回答は、GPT-3モデルの広範な事実知識に基づいて質問に回答する能力を測る試みです。質問の可能性が非常に多い場合、タスクは、質問と関連するテキストを取得する情報検索システムと、取得されたテキストに基づいて回答を生成するモデルを組み合わせて実行されます。

上記の画像は、GPT-3モデルと、さまざまなモデルがさまざまなデータセットで実行された結果を比較しています。TriviaQAデータセットでは、モデルはゼロショットの設定で64.3%の精度を達成し、ワンショットとフェアショットの設定では、それぞれ68%と71.2%の精度を達成します。

明らかに、GPT-3モデルは、ゼロショットの設定で、ファインチューニングされたT5-11Bモデルを14%以上上回っています。

上記の図は、GPT-3モデルのパフォーマンスがモデルのサイズの増加とともにスムーズに増加することを示しています。パフォーマンスは、モデルの容量が増加するにつれて、データセットから学習し続けることを示しています。

最終的な考え

GPT-3は、LLM業界における革命的な段階であり、言語モデルの可能性の限界を押し広げ、最も進歩的で正確なLLMであるGPT-4の道を開いたと言えるでしょう。

職業はエンジニア、心は作家。クナルは、AIとMLを深く愛し理解しているテクニカルライターで、これらの分野の複雑な概念を魅力的で情報の多いドキュメンテーションを通じて簡素化することに尽力しています。