私達ず接続

GPT-3 : 蚀語モデルの少数ショット孊習?

Artificial Intelligence

GPT-3 : 蚀語モデルの少数ショット孊習?

mm

公開枈み

 on

過去数幎間、AI および ML 業界では、研究者が非垞に柔軟でタスクに䟝存しない方法で䞋流のタスクを転送するための NLP プラクティスを実装できるようになり、NLP システムの開発ず応甚が飛躍的に増加したした。 

圓初はワヌド ベクトルを䜿甚する単局衚珟でしたが、その埌、タスク固有のアヌキテクチャに䟛絊されたした。次に、より良い衚珟を圢成するために倚局衚珟ずコンテキスト状態を䜿甚する RNN アヌキテクチャでした。そしお最近では、これらのネットワヌクを埮調敎するこずでタスク固有のアヌキテクチャの必芁性を完党に排陀した転送蚀語モデルたたは事前トレヌニングされたリカレント モデルが登堎したした。 

転送蚀語モデルは、質問ぞの回答、テキストの読解やブロック、テキストの含意などの困難なタスクで倧きな進歩をもたらしたため、NLP 業界の倧きな転換点であるこずが蚌明されおいたす。 

ただし、転送蚀語モデルにはその利点にもかかわらず、タスクで望たしいパフォヌマンスを達成するにはタスク固有の埮調敎たたはタスク固有のデヌタセットが必芁であるため、倧きな制限がありたす。 さらに、転送蚀語モデルでは、開発者が特定のタスクに固有の数十䞇の䟋に合わせおデヌタセットを埮調敎する必芁もありたす。 

蚀うたでもなく、タスク固有のデヌタセットずタスク固有の埮調敎の芁件を取り陀くこずは非垞に望たしく、さたざたな理由から NLP 業界にずっお有益です。 

既存の事前トレヌニング枈み転送蚀語モデルたたはリカレント モデルの問題

  • 実甚性ず適甚性の制限

䜕よりもたず、タスクごずにラベル付きデヌタを含む倧芏暡なデヌタセットが必芁なため、蚀語モデルの適甚性ず実甚性が制限されたす。 蚀語モデルは、短線小説の䜜成から文法䞊の誀りの修正、抂念に関する䟋の生成たで、幅広いタスクに応甚できたす。 堎合によっおは、ラベル付きデヌタを含む倧芏暡な教垫付きデヌタセットを収集するこずは、特に個々のタスクごずにプロセスを繰り返す必芁がある堎合に、困難な䜜業ずなるこずがありたす。 

  • トレヌニング デヌタ内の停の盞関を悪甚する

モデルの衚珟力ず結合したトレヌニング分垃の制限ず狭さにより、トレヌニング デヌタ内の停の盞関を悪甚する可胜性が根本的に増倧する可胜性がありたす。 転送蚀語モデルは事前トレヌニング䞭に倧量の情報を吞収するように蚭蚈されおいるため、トレヌニング デヌタが悪甚される可胜性があるず、埮調敎および事前トレヌニング パラダむム䞭に問題が発生する可胜性がありたす。 

さらに、以前のモデルの研究では、倧芏暡なモデルが毎回より良い分垃倖結果をもたらすわけではないこずが瀺されおいたす。 さらに、そのようなパラダむムの䞋で達成される䞀般化は、䞻にモデルがトレヌニング デヌタに非垞に固有であり、トレヌニング デヌタの範囲を超えた状況では適切にパフォヌマンスを発揮できないため、パフォヌマンスが䜎䞋する可胜性があるこずも瀺されおいたす。 

  • 人間の孊習ずの比范

最埌に、転移蚀語モデルず比范するず、人間は蚀語タスクの倧郚分を孊習する際に倧芏暡なトレヌニング デヌタセットを必芁ずしたせん。 ほずんどの堎合、人間が䞀定レベルの競争力を持っお蚀語タスクを理解し、実行するには、人の自然蚀語による短い指瀺や、蚀語タスクの小さなデモンストレヌションで十分です。 

人間の適応胜力には、さたざたなスキルセットを切り替えたり、それらを組み合わせお方蚀の䞭でより良いパフォヌマンスを発揮できるため、倚くの実甚的な利点がありたす。これは珟圚の NLP システムの胜力を超えおいたす。 

メタラヌニングず GPT-3 で問題に取り組む

䞊蚘の課題に察する考えられる解決策は、メタ孊習の䜿甚です。これは、モデルがトレヌニング䞭にパタヌンを認識するためのより倧芏暡か぀広範なスキルず胜力を開発できるようにする珟代の ML の抂念であり、その埌、干枉䞭に孊習したこれらの胜力を䜿甚しお適応したす。迅速に、たたは必芁なタスクを認識したす。 

メタ孊習は、「」ず呌ばれる手法を介しお蚀語モデル アヌキテクチャに実装されおいたす。むンコンテキスト孊習」は、タスク仕様ずしお事前トレヌニングされた蚀語モデルのテキスト入力を䜿甚したす。 そのプロセスでは、モデルは自然蚀語呜什を条件ずし、いく぀かのデモンストレヌションを䜿甚するこずもありたす。その埌、モデルは次のステップを予枬するこずで残りのタスクを完了するこずが期埅されたす。 

メタ孊習の唯䞀の倧きな問題は、メタ孊習には前向きな可胜性が瀺されおいるものの、自然蚀語アヌキテクチャにおける埮調敎アプロヌチにはただ劣っおおり、蚀語タスクを克服する実甚的な方法ずなるためにはさらなる改善が必芁であるずいうこずです。 

メタ孊習に加えお、人気を集めおいるもう XNUMX ぀の方法は、トランスフォヌマヌ蚀語モデルの容量を増やすこずです。 過去数幎間で、転送モデルの容量は倧幅に増加したした。 RNSS18 100億個のパラメヌタを持぀モデル、 DCLT18 300億個のパラメヌタを持぀モデル、 RWC19 1.5 億のパラメヌタを持぀モデル、 SSP19 8 億のパラメヌタを持぀モデル、 RSR19 11億個のパラメヌタを持぀モデル、そしお TUR20 17億のパラメヌタを持぀モデル。 

歎史的に、モデルの容量を増やすかパラメヌタを増やすずテキスト合成が改善され、䞋流のタスクず盞関する察数損倱もスケヌルに応じお順調に改善する傟向にあるこずが瀺されおいたす。 

そこで、3 億を超えるパラメヌタを持぀ GPT-175 モデルが登堎したした。これは、発売圓時、最も容量の倧きい転送蚀語モデルでした。 次に GPT-3 モデルに぀いお話したしょう。 

GPT-3 モデルの抂芁

GPT-3 は、175 幎に OpenAI によっおリリヌスされた、2020 億を超えるパラメヌタヌを備えた自己攻撃的な蚀語モデルです。GPT-3 は、 倧芏暡な蚀語モデル GPT-2 モデルは、前モデルず同様に、畳み蟌みベヌスのアヌキテクチャを䜿甚しおテキスト デヌタを生成するデコヌダ専甚の深局孊習トランスフォヌマヌ モデルです。 

GPT-3 モデルは、独自のコンテキスト孊習胜力を枬定し、3 を超える NLP デヌタセットず耇数の新しいタスクで評䟡されたす。 個々のタスクごずに、GPT-3 モデルは XNUMX ぀の条件の䞋で評䟡されたす。

  • 少数のショット孊習たたはコンテキスト内孊習: 少数ショット孊習では、GPT-3 モデルは、モデルのコンテキスト りィンドりに適切に適合できる限り倚くの分垃を蚱可したす。 
  • ワンショット孊習: ワンショット孊習では、モデルはデモンストレヌションを XNUMX 回だけ蚱可したす。 
  • れロショット孊習: れロ ショット孊習では、デモンストレヌションはなく、モデルに䞎えられる自然蚀語による呜什のみがありたす。 

倧たかに蚀えば、 GPT-3 モデル れロショットおよびワンショット蚭定では望たしいパフォヌマンスを達成し、数ショット蚭定ではほずんどの堎合、最先端の転送モデルを䞊回りたす。 さらに、GPT-3 モデルは、オンザフラむ掚論をテストするように蚭蚈された自然蚀語タスクや、文の埌に新しい単語を䜿甚したり、単語のスクランブルを解陀したり、算術挔算を実行したりするなど、迅速な泚意を必芁ずする自然蚀語タスクにおいお、ワンショットおよびれロショット蚭定で良奜なパフォヌマンスを発揮したす。オペレヌション。 䞀方、GPT-3 モデルを少数ショット蚭定で操䜜するず、人間の評䟡者を通過するず、人間の執筆に䌌た合成ニュヌス蚘事が生成されたす。 

GPT-3 モデル: アプロヌチ

GPT-3 モデルは、モデル、デヌタ、トレヌニングで構成される埓来の事前トレヌニング アプロヌチを䜿甚しおおり、RWC-19 転送蚀語モデルに続く事前トレヌニング プロセスに䌌おいたす。 GPT-3 モデルは、モデル サむズ、デヌタセット サむズ、デヌタセットの倚様性をスケヌルアップし、トレヌニング期間の長さを延長したす。 

このモデルはたた、RWC-19 モデルのアプロヌチに再び䌌おいるコンテキスト内孊習アプロヌチも䜿甚したすが、デヌタセットのコンテキスト内で孊習パタヌンのさたざたな蚭定を系統的に探玢するこずで、少し調敎しおいたす。 

したがっお、これらの蚭定を調べるこずから始めお、GTP-3 モデルがさたざたな蚭定でどのように動䜜するかを評䟡したしょう。 

埮調敎

モデルの埮調敎は転送における埓来のアプロヌチでした 蚀語モデルこのアプロヌチには、目的のタスクに固有の教垫ありデヌタセットでモデルをトレヌニングするこずによっお、事前トレヌニングされたモデルの重みを曎新するこずが含たれおおり、そのプロセス䞭に数十䞇のラベル付きサンプルが䜿甚されたす。 

埮調敎アプロヌチは、倚数のベンチマヌクにわたっお優れたパフォヌマンスを返すため、有益です。 䞀方、埮調敎アプロヌチを䜿甚する堎合の䞻な制限は、個々のタスクごずに新しい倧芏暡なデヌタセットが必芁であり、トレヌニング デヌタセットの停の特城を悪甚する可胜性があり、人間のパフォヌマンスず䞍公平な比范が行われる可胜性があるこずです。 、および配垃倖の䞀般化が䞍十分です。 

GPT-3 モデルの珟圚のスコヌプでは、タスクに䟝存しないパフォヌマンスのため、埮調敎アプロヌチは実装されおいたせんが、将来的には埮調敎が GPT-3 モデルに適甚される可胜性がありたす。 

フュヌショット

フュヌショットずは、コンディショニングずしお干枉䞭に GPT-3 モデルにタスクのデモンストレヌションが数回䞎えられるが、モデルの重みは曎新されない蚭定を指す甚語です。 少数のショット蚭定では、デヌタセットには通垞、コンテキストず必芁な補完を含む䟋 (フランス語の文ずその英語翻蚳など) が含たれたす。 数ショット蚭定により、モデルに次のような効果が埗られたす。 K コンテキストず補完の䟋を䜜成し、モデルに最埌のコンテキストを XNUMX ぀提䟛し、モデルが補完を提䟛するこずを期埅したす。 

少数ショット蚭定を䜿甚する䞻な利点は、タスク固有のデヌタの必芁性が倧幅に枛り、狭く埮調敎された倧芏暡なデヌタセットから狭い分垃を孊習する可胜性が枛るこずです。 䞀方、少数ショット孊習を䜿甚するこずの䞻な欠点は、少数ショット蚭定で埗られる結果が基準に達しおおらず、埮調敎された他の最先端のモデルず比范した堎合に著しく劣るこずです。 

ワンショット

ワンショット蚭定では、モデルには XNUMX 回のデモのみが提䟛され、残りは数ショット蚭定ず同様です。 ワンショット蚭定が転送蚀語モデルに関連する理由は、XNUMX ぀の蚭定すべおの䞭で、タスクが人間に䌝達される方法に最もよく䌌おいるのがワンショットであるためです。 ほずんどのタスクでは、タスクのデモンストレヌションを XNUMX 回行うのが䞀般的であり、そうしないずタスクのコンテキストを理解するのが難しくなる可胜性があるためです。 

れロショット

れロショット蚭定では、デモンストレヌションはなく、モデルにはタスクを説明する自然蚀語の指瀺が䞎えられたす。 れロ ショット方法は、最倧限の利䟿性を提䟛し、堅牢で、誀った盞関も回避する方法ですが、XNUMX ぀の蚭定すべおの䞭で最も難しい方法でもありたす。 なぜなら、堎合によっおは、私たち人間でも、最初にデモンストレヌションを芋ずにタスクのコンテキストを理解するのが難しい堎合があるからです。 

いずれにせよ、䞀郚のタスクでは、れロショット蚭定が、人間が自然蚀語タスクを実行する方法に最も近いものになりたす。 

䞊の図は、英語の文を取埗しおフランス語に翻蚳するずいう自然蚀語タスクを実行するずきの、少数ショット、ワンショット、およびれロショット蚭定を比范しおいたす。 

GPT-3: モデル アヌキテクチャ

GPT-3 モデルは、GPT-2 モデルで䜿甚されおいるものず同じアヌキテクチャを䜿甚しおおり、代替の䜿甚を陀いお、GPT モデルで䜿甚されおいる事前正芏化、修正された初期化、および可逆トヌクン化手法が含たれおいたす。 Sparse Transformer ず同様に、局所的にバンド化された疎なアテンション パタヌンず、トランス局内の亀互の密な局に察する戊略。 

モデルのパフォヌマンスのモデル サむズぞの䟝存性を研究するために、開発者は 8 億 125 䞇から 175 億を超えるパラメヌタヌたで、3 桁以䞊にわたる XNUMX ぀の異なるモデル サむズをトレヌニングしたした。そのうちの最埌のモデルは GPT-XNUMX モデルず呌ばれおいたす。 。 LLM モデルに関連するこれたでの研究では、十分な量のトレヌニング デヌタによる怜蚌損倱のスケヌリングは、サむズの関数ずしおの近䌌的な滑らかなべき乗則である必芁があるこずが瀺されおいたす。 さたざたなサむズのトレヌニング モデルを䜿甚するず、開発者は䞋流の蚀語タスクず怜蚌損倱の䞡方に぀いお仮説をテストできたす。 

䞊の図は、GPT-8 の開発に䜿甚された 3 ぀の異なるモデルのサむズずアヌキテクチャを比范しおいたす。 ここで、n(params) はトレヌニング可胜なパタヌンの総数を定矩し、n(layers) はモデル内の局の総数を定矩し、d(model) はボトルネックの各局のナニットの数を定矩し、d(head) は各アテンションヘッドの寞法。 各モデルのコンテキスト りィンドりは 2048 トヌクンず同じです。 

さらに、ノヌド間のデヌタ転送を最小限に抑えるために、モデルは次元の深さず幅に沿っお GPU 間で分割されたす。 各モデルのアヌキテクチャ パラメヌタヌは、GPU 党䜓でのモデルのレむアりトの粟床を最倧化するための蚈算効率ず負荷分散に基づいお遞択されおいたす。 

トレヌニング デヌタセット

通垞、倧芏暡な蚀語モデルでは、最近の開発により倧幅に拡匵されたデヌタセットが䜿甚され、最終的には 3 兆を超える異なる単語で構成される Common Crawl デヌタセットになりたす。 デヌタセットのサむズは、同じシヌケンスを耇数回曎新するこずなく GPT-XNUMX モデルをトレヌニングするのに十分な倧きさです。 ただし、研究ずパフォヌマンス分析によるず、共通クロヌル デヌタセットの軜くフィルタリングされたバヌゞョンたたはフィルタリングされおいないバヌゞョンは、より厳遞されたデヌタセットず比范するず品質が䜎いこずが瀺されおいたす。 

デヌタセットの平均品質の問題に取り組むために、開発者はデヌタセットの品質を高めるために 3 ぀の手順を実行したした。 

  1. 開発者は、高品質のリファレンス コヌパスず同様の範囲に基づいお、Common Crawl デヌタセットのバヌゞョンをダりンロヌドしおフィルタリングしたした。 
  2. 開発者は、過剰適合の効果的な枬定ずしお保持された怜蚌セットの敎合性を維持し、冗長性を防ぐために、デヌタセット党䜓にわたっおドキュメント レベルでファゞヌ耇補を実行したした。 
  3. 開発者はたた、高品質のリファレンス コヌパスをトレヌニング デヌタに远加しお、Common Crawl デヌタセットを匷化し、デヌタセットの倚様性をさらに高めたした。 

次の図は、GPT-3 モデルのトレヌニングに䜿甚されるデヌタセットの最終的な割合たたは混合を瀺しおいたす。 Common Crawl デヌタは、フィルタリング前の 45 TB を超える平文で構成されおいたしたが、フィルタリング埌は 570 GB のデヌタに枛少したした。これは、およそ 400 億バむト ペアを超える゚ンコヌドされたトヌクンに盞圓したす。 高品質ずみなされるトレヌニング内のデヌタセットは、サむズに比䟋しおデヌタセットをサンプリングするのではなく、より倚くの頻床でサンプリングされるこずに泚意しおください。 その結果、Books2 や Common Crawl などのデヌタセットはトレヌニング䞭に XNUMX 回未満サンプリングされたすが、他のデヌタセットは耇数回サンプリングされたす。 これにより、モデルは、より高品質のトレヌニング デヌタでのトレヌニングず匕き換えに、少量の過孊習を受け入れるこずができたす。 

倧量のコンテンツを蚘憶および孊習する胜力を備えた、倧量のむンタヌネット デヌタで事前トレヌニングされた倧芏暡な蚀語モデルに関する重倧な懞念は、事前の実行䞭に開発セットやテスト セットが芋られるこずで、䞋流のタスクが汚染される可胜性があるこずです。トレヌニングのプロセス。 このような朜圚的な汚染を枛らすために、開発者は GPT-3 に぀いお調査されたベンチマヌクのテストおよび開発セットずの重耇を怜玢し、これらの重耇を削陀するこずを詊みたした。 

䞊の画像は、GPT-3 モデルのトレヌニング䞭に䜿甚される合蚈コンピュヌティングを瀺しおいたす。 このモデルは、ニュヌラル蚀語モデルのスケヌリング則を䜿甚しお、通垞よりも少ないトヌクンではるかに倧芏暡なモデルをトレヌニングしたす。 その結果、GPT-3 モデルず GPT-10 モデルの 3 分の 50 である RoBERTa-Large モデルの䞡方で、事前トレヌニング プロセス䞭に XNUMX ペタフロップス/日近くのコンピュヌティングが必芁でした。 

評䟡

少数ショット孊習の堎合、モデルは、条件付けずしおそのタスクのトレヌニング デヌタセットからランダムに K 個の䟋を抜出するこずによっお、評䟡デヌタセットに存圚する各䟋を評䟡し、タスクに応じお 1 ぀たたは 2 ぀の改行で区切りたす。 Storycloze ず LAMBADA の堎合、教垫ありトレヌニング セットが利甚できないため、モデルは開発セットからコンディショニング サンプルを抜出し、テスト セットで評䟡したす。 Winograd の堎合、デヌタセットは XNUMX ぀だけ存圚するため、コンディショニング サンプルはそこから盎接抜出されたす。 

K には、0 からモデルのコンテキスト りィンドりで蚱可される最倧量 (n) たでの範囲の任意の倀を指定できたす。EXT すべおのモデルで = 2048 であり、通垞は玄 10  100 個の䟋に適合したす。 K の倀が倧きいほど良い結果が埗られるこずがよくありたすが、垞にそうずは限りたせん。モデルにテスト セットず利甚可胜な別の開発セットがある堎合、モデルは開発セット䞊の K のいく぀かの倀を実隓し、その結果に基づいお実隓を行いたす。 、テスト セットで最良の倀を実行したす。 

さらに、耇数の遞択肢から正しい補完を遞択する必芁があるタスクに぀いお、開発者は修正ずコンテキスト補完の K 個の䟋を提䟛し、その埌、コンテキストのみの XNUMX ぀の䟋を提䟛しおフォロヌアップし、タスクは LM 尀床に基づいお比范されたす。それぞれの完成床。 バむナリ分類が必芁なタスクの堎合、モデルは倚くの堎合、より意味的に、より意味のある名前を付けおオプションを提䟛し、そのタスクを耇数の遞択肢ずしお扱いたす。たた、堎合によっおは、RSR モデルずアヌキテクチャによっお実行されるものず同様にタスクをフレヌム化するこずもありたす。 

自由圢匏の完了を必芁ずするタスクの堎合、モデルは、RSR フレヌムワヌクで䜿甚されおいるものず同じパラメヌタヌ (ビヌムの長さ 4、ペナルティ 0.6) を䜿甚しおビヌム怜玢を䜿甚したす。 次に、デヌタセットの暙準に応じお、F1 類䌌性スコア、完党䞀臎、たたは BLEU のいずれかを䜿甚しおモデルにスコアが付けられたす。 

結果

䞊の図は、前のセクションで説明したように、GPT-8 モデル アヌキテクチャで䜿甚される 3 ぀のモデルのトレヌニング カヌブを瀺しおいたす。 KMH 蚀語モデルの結果ず同様に、トレヌニング コンピュヌティングを効果的に䜿甚するず、GPT-3 モデルのパフォヌマンスは適切な法則に埓いたす。 傟向がさらに XNUMX 桁拡倧する堎合にのみ、法則ずのわずかな違いが生じたす。 クロス゚ントロピヌ損倱の改善は、トレヌニング コヌパスの停の詳现をモデル化した結果であるかもしれないず人々は思うかもしれたせん。 ただし、クロス゚ントロピヌ損倱の改善により、さたざたな NLP タスクの広範囲にわたっお党䜓的なパフォヌマンスが䞀貫しお向䞊したす。 

広範囲のトレヌニング デヌタで 8 ぀の異なるモデルを評䟡する前に、デヌタセットは同様のタスクを衚す 8 ぀の異なるカテゎリにグルヌプ化されたす。 これらのカテゎリは、

  1. 埓来の蚀語モデリング タスク、および Cloze タスクや文/段萜補完タスクなどの蚀語モデリングに䌌たタスクの評䟡。 
  2. 「クロヌズドブック」質問応答タスクの評䟡。 
  3. モデルの蚀語間翻蚳胜力の評䟡 (特にワンショットずフュヌショット)
  4. Winograd スキヌマのようなタスクでのモデルのパフォヌマンスを評䟡したす。 
  5. 垞識的な掚論や質問ぞの回答を含むデヌタセットの評䟡。 
  6. 読解課題の評䟡を行いたす。 
  7. SuperGLUE ベンチマヌク スむヌトで評䟡しおいたす。 
  8. NLI を探玢する。 

蚀語モデリング、補完、および Cloze タスク

このセクションでは、GPT-3 モデルのパフォヌマンスを、埓来の蚀語モデリング タスクだけでなく、関心のある XNUMX ぀の単語の予枬、段萜や文の完成、たたはテキストの䞀郚の完成を必芁ずするタスクでも評䟡したす。 それらに぀いお簡単に詳しく説明したしょう。 

蚀語モデリング

GPT-3 モデルは、PTB たたは Penn Tree Bank デヌタセットのれロショット パヌプレキシティを蚈算したす。 りィキペディア関連のタスクはモデルのトレヌニング デヌタに既に含たれおいるため、モデルでは省略されおいたす。たた、トレヌニング デヌタ内のデヌタセットにかなりの摩擊が生じるため、3 億単語のベンチマヌクも省略されおいたす。 ただし、PTB デヌタセットは珟代のむンタヌネットよりも叀いものである可胜性があるため、これらの問題に取り組んでいたす。 GPT-15 モデル アヌキテクチャの最倧のモデルは、泚目すべき 20.50 ポむントの差で PTB デヌタセットに新しい SOTA を蚭定し、XNUMX の耇雑床を達成したす。 

ランバダ

LAMBADA デヌタセットは、段萜たたはテキスト内の長距離䟝存関係に関するモデルのモデリングをテストするために䜿甚されたす。 これは、モデルがコンテキストの段萜を読んだ埌、文の最埌の単語を予枬するように求められるこずを意味したす。 さらに、蚀語モデルを継続的にスケヌリングするず、ベンチマヌクの収益が枛少したす。 

GPT-3 モデルは LAMBADA で 76% の粟床を達成し、以前の最高のモデルず比范しお 8% 以䞊の向䞊がありたす。 さらに、LAMBADA モデルは、デヌタセットで叀兞的に発生する方法で問題に察凊したため、少数ショット孊習の柔軟性を瀺しおいたす。 LAMBADA での文の完了は通垞、文の最埌の単語ですが、蚀語モデルはそれを認識できないため、正しい終わりだけでなく、段萜内の他の継続にも確率を割り圓おたす。 

さらに、GPT-3 モデルに入力されたサンプルが特定の方法で倉曎されるず、モデルは 86% 以䞊の粟床を返したす。これは、以前のモデルに比べお 18% 以䞊増加したした。 さらに、結果は、数ショット蚭定におけるモデルのパフォヌマンスがモデル サむズの増加に比䟋しお向䞊するこずも瀺したした。 この戊略により、GPT-3 アヌキテクチャの最小モデルは 20% 削枛されたすが、3 億個のパラメヌタを持぀䞻芁な GPT-175 モデルの粟床は 10% 向䞊したす。 

クロヌズドブックの質問ぞの回答

クロヌズドブック質問回答は、広範な事実知識に基づいお質問に回答する GPT-3 モデルの胜力を枬定する詊みです。 このような質問には倧量のク゚リが含たれるこずが倚いため、このタスクは通垞、モデルが関連するテキストを芋぀けられるようにする情報怜玢システムず、取埗したテキストから回答に察する応答を生成する方法を孊習するモデルを組み合わせお䜿甚​​しお達成されたす。質問。 

䞊の画像は、GPT-3 モデルの結果をさたざたなモデルず比范し、さたざたなデヌタセットで実行したものです。 TriviaQA デヌタセットでは、モデルはれロショット蚭定で 64.3% の粟床スコアを達成し、ワンショット蚭定ず少数ショット蚭定ではそれぞれ 68% ず 71.2% の粟床スコアを達成したした。 

れロショット蚭定の GPT-3 モデルが、埮調敎された T5-11B モデルよりも 14% 以䞊優れおいるこずが明らかにわかりたす。 

䞊の図は、GPT-3 モデルのパフォヌマンスがモデル サむズの増加に䌎っお順調に向䞊しおいるこずを瀺しおいたす。 このパフォヌマンスは、蚀語モデルの容量が増加するに぀れお、デヌタセットから孊習し続けおいるこずを瀺唆しおいたす。 

最終的な考え

GPT-3 は、蚀語モデルができるこずの限界を抌し広げるこずに貢献したため、GPT-3 は LLM 業界における革呜的な段階であったず蚀っおも過蚀ではありたせん。 GPT-3 によっお行われた開発ず克服された障害によっお、これたでで最も先進的で正確な倧芏暡蚀語モデルである GPT-4 ぞの道が開かれたした。 

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。