Artificial Intelligence

ChatGPT のような大規模な言語モデルを半額で構築できますか?

公開済み

12ヶ月前

2023 年 5 月 11 日

大規模な言語モデル GPT-3 や ChatGPT などの (LLM) は、自然言語理解とコンテンツ生成機能を提供することで AI に革命をもたらしました。しかし、その開発には、アクセスとさらなる研究を制限する高額な代償が伴います。研究者らは、GPT-3 のトレーニングには OpenAI のコストがかかると推定しています 5万ドル。それにも関わらず、Microsoft は可能性を認識し、投資を行いました。２０２２年の１７４億４０００万ドル 2019と２０２２年の１７４億４０００万ドル 2023年にOpenAIのGPT-3とChatGPTベンチャーで。

LLM は、NLP アプリケーション用の広範なテキストデータに基づいてトレーニングされた機械学習モデルです。これらはトランスフォーマーアーキテクチャに基づいており、質問応答、機械翻訳、感情分析などの NLP タスクにアテンションメカニズムを利用します。

疑問が生じます。これらの大規模モデルの効率を高めながら、同時に計算コストとトレーニング時間を削減できるでしょうか?

いくつかのアプローチプログレッシブニューラルネットワーク, ネットワークモーフィズム, 層内モデルの並列処理, 知識の継承、などは、ニューラルネットワークのトレーニングにかかる計算コストを削減するために開発されてきました。小説リゴこれから説明する (Linear Growth Operator) アプローチは、新しいベンチマークを設定することです。これにより、LLM のトレーニングにかかる計算コストが半分になります。

この手法について説明する前に、LLM の製造価格が高くなる要因を検討することが不可欠です。

大規模な言語モデルの構築コスト

LLM の開発にかかる主な費用は次の XNUMX つです。

1. 計算リソース

LLM の構築には、大規模なデータセットでトレーニングするための膨大な計算リソースが必要です。彼らは数十億のパラメータを処理し、大量のテキストデータから複雑なパターンを学習する必要があります。

グラフィックス処理装置などの特殊なハードウェアへの投資 (GPU) および Tensor Processing Unit (TPU) は、LLM を構築およびトレーニングして最先端のパフォーマンスを達成するために必要です。

たとえば、GPT-3 はスーパーコンピュータ 10000 個のエンタープライズグレードの GPU (H100 および A100) と 285,000 個の CPU コアを搭載。

2.エネルギー消費

LLM の構築には大量の計算リソースが必要となるため、大量のエネルギーが消費されます。たとえば、GPT-175 が使用した 3 億個のパラメータのトレーニング 14.8日 10,000 個の V100 GPU を使用し、3.55 万 GPU 時間に相当します。このような高レベルのエネルギー消費は、環境にも重大な影響を及ぼします。

3. データの保管と管理

LLM は大規模なデータセットでトレーニングされます。たとえば、GPT-3 は膨大なテキストコーパスに基づいてトレーニングされました。データ、Common Crawl、WebText2、Books1、Books2、Wikipedia などのソースが含まれます。これらのデータセットを収集、整理、保存するには、多額のインフラ投資が必要です。

また、データの保存にはクラウドストレージが必要で、データの前処理とバージョン管理には人間の専門知識が必要です。さらに、データ戦略が GDPR などの規制に準拠していることを確認することもコストに追加されます。

LiGO テクニック: 大規模な言語モデルの構築コストを半分に削減

LiGO (Linear Growth Operator) は、LLM のトレーニングにかかる計算コストを 50% 削減するために MIT の研究者によって開発された新しい技術です。この方法には、事前トレーニングされた小さなモデルの重みから大きなモデルの重みを初期化することが含まれており、ニューラルネットワークの効率的なスケーリングが可能になります。

論文からの画像: 効率的なトランスフォーマートレーニングのための事前トレーニング済みモデルの成長方法の学習

キム・ユン論文の上級著者である彼は次のように述べています。

「ChatGPT が実行されると仮定されている規模でモデルをトレーニングするには、XNUMX 回のトレーニング実行だけでも数百万ドルかかる可能性があると推定されています。これらのトレーニング方法の効率を改善して、より短い時間とより少ないコストで優れたモデルを取得できるようにすることはできないでしょうか? 私たちは、以前にトレーニングされたより小さな言語モデルを活用してこれを行うことを提案します。」

この方法では、大規模なモデルを最初からトレーニングする場合と比較して、計算コストとトレーニング時間が削減され、大規模なモデルのパフォーマンス上の利点が維持されます。 LiGO は、最適なパフォーマンスを得るために深さと幅の演算子を組み合わせたデータ駆動型の線形成長演算子を利用します。

この論文では、BERT および RoBERTa モデルのトレーニング用の英語版 Wikipedia コーパスや GPT4 のトレーニング用の C2 データセットなど、さまざまなデータセットを利用してテキストベースの実験を実施しました。

LiGO 技術の実験には、BERT-Small から BERT-Base、BERT-Base から BERT-Large、RoBERTaSmall から RoBERTa-Base、GPT2-Base から GPT2-Medium、および CaiT-XS から CaiT-S への成長が含まれていました。

研究者らは、自分たちのアプローチを、ゼロからのトレーニング、プログレッシブトレーニング、bert2BERT、KI などの他のいくつかのベースラインと比較しました。

LiGO 手法では、BERT-Small モデルを再利用して BERT-Base をゼロからトレーニングする場合と比較して、FLOP (44.7 秒あたりの浮動小数点演算) が 40.7% 節約され、所要時間が 2% 節約されました。 LiGO 成長オペレーターは、効率的なトレーニングにおいて StackBERT、MSLT、bertXNUMXBERT、KI を上回ります。

LiGO のようなトレーニング最適化手法を使用する利点

LiGO は効率的なニューラルネットワークトレーニング方法であり、次のようなさまざまな利点があります。

1. トレーニングの迅速化

前述したように、LiGO テクニックの主な利点は、トレーニングの高速化です。 LLM を半分の時間でトレーニングし、生産性を向上させ、コストを削減します。

2. リソース効率が高い

LiGO は所要時間と FLOP を最小限に抑えるため、リソース効率が高く、大規模な変圧器モデルをトレーニングするための、よりコスト効率が高く環境に優しいアプローチにつながります。

3.一般化

LiGO 技術は、言語変換と視覚変換の両方のパフォーマンスを向上させ、これがさまざまなタスクに適用できる一般化可能な技術であることを示唆しています。

商用 AI 製品の構築は、AI システムに関連する全体的な費用の XNUMX つの側面にすぎません。コストのもう XNUMX つの重要な要素は、日常業務から発生します。たとえば、OpenAI のコストは約 $700,000 毎日、ChatGPT を使用してクエリに回答します。研究者は、トレーニング中の LLM のコスト効率を高め、実行時に LLM を利用しやすくするアプローチを引き続き探索することが期待されています。

AI 関連のコンテンツについては、次のサイトをご覧ください。ユナイトアイ.