スタブ Google リサーチが AI へのハイパースケール アプローチのボトルネックを特定 - Unite.AI
私達と接続

Artificial Intelligence

Google リサーチが AI へのハイパースケール アプローチのボトルネックを特定

mm
更新中 on

Google Research の新しい論文は、非常に大容量のデータセットをキュレーションするという現在の傾向が、効果的な人工知能システムの開発に逆効果である可能性があることを示しています。 実際、この調査では、より優れた機械学習製品は、トレーニングによって生み出される可能性があることを示しています。 less 正確な (つまり、技術的には「悪い」) データセット。

研究者によって得られた原理が有効である場合、それは、次のような「ハイパースケール」データセットが有効であることを意味します。 最近リリースされた LAION-400M (400 億のテキストと画像のペアを含む)、および GPT-3 ニューラル言語エンジンの背後にあるデータ (175 億のパラメーターを含む) は、従来の一般的な機械学習アーキテクチャにおける一種の「熱制限」の影響を受ける可能性があります。これにより、膨大な量のデータが下流のアプリケーションを「飽和」させ、有用な方法での一般化を妨げます。

研究者らはまた、不均衡を是正するために、ハイパースケール データセット アーキテクチャを再考する代替方法も提案しています。

論文は次のように述べています。

「これらの現象を引き起こす理由を理解するためにさらに深く掘り下げると、観察される飽和の挙動が、モデルの層を通じて表現が進化する方法と密接に関連していることがわかります。」 ここでは、上流と下流のパフォーマンスが互いに矛盾する、さらに極端なシナリオを紹介します。 つまり、下流のパフォーマンスを向上させるには、上流の精度を損なう必要があります。」

  研究 というタイトルです 大規模な事前トレーニングの限界を探る、Google Research の XNUMX 人の著者によるものです。

「飽和」を調べる

著者らは、ハイパースケール データ時代における機械学習とデータの関係という一般的な前提に異議を唱えます。つまり、モデルとデータ サイズをスケーリングすると、パフォーマンスが著しく向上するということです (GPT-3 の発売以来、GPT-XNUMX に対する誇大宣伝で固定化された信念です)。 そして、この向上したパフォーマンスは線形 (つまり、望ましい) 方法で下流のタスクに「伝わり」、その結果、最終的に市場に投入される、管理不可能なほど巨大なデータセットと未精製のトレーニング済みモデルから派生したオンデバイス アルゴリズムは、次の利点を完全に享受できます。フルサイズの上流アーキテクチャの洞察。

「これらの見解」 研究者らは指摘する 「XNUMX つの大規模なコーパスのパフォーマンスを向上させるために計算と研究の労力を費やせば、多くの下流タスクをほぼ無料で解決できるため、効果があると考えています。」

しかし論文は、コンピューティングリソースの不足と、それに伴うモデル評価の「経済的」方法が、データ量と有用なAIシステムの間の関係力学の誤った印象の一因となっていると主張している。 研究コミュニティは通常、局所的な (肯定的な) 結果が後の有用な実装につながると想定しているため、著者らはこの習慣を「重大な欠点」であると認識しています。

[計算の制限により、ハイパーパラメータ値のさまざまな選択に対するパフォーマンスは報告されません。 各スケールに対して選択されたハイパーパラメータが固定されているか、単純なスケーリング関数によって決定されている場合、スケーリング プロットはより有利に見えます。

研究者らはさらに、多くのスケーリング研究は絶対的なスケールに対してではなく、最先端技術(SotA)に対する漸進的な改善として測定されていると述べ、「演繹的にスケーリングが一定の範囲外に保持される理由はない」と観察している。研究範囲」。

事前トレーニング

この論文では、コンピューティング リソースを節約し、大規模なデータでモデルをゼロからトレーニングするのに必要な、しばしば恐ろしい時間スケールを短縮するために設計された措置である「事前トレーニング」の実践について取り上げています。トレーニング前のスナップショットは、1 つのドメイン内のデータがトレーニング中に一般化される方法の「ABC」を処理し、自然言語処理 (NLP) からディープフェイクまで、さまざまな機械学習の分野や専門分野で一般的に使用されます。

これまでの学術研究では、 発見 事前トレーニングによってモデルの堅牢性と精度が顕著に向上する可能性があるが、新しい論文では、特徴の複雑さは、比較的短期間でトレーニングされた事前トレーニング テンプレートであっても、パイプラインの後のプロセスに分流された場合に、より有益になる可能性があることを示唆しています。 。

しかし、研究者が学習率の適用において現在のベストプラクティスを使用する事前トレーニングされたモデルに依存し続けている場合、これは起こり得ません。研究では、これは研究の最終的なアプリケーションの最終的な精度に顕著な影響を与える可能性があると結論付けています。 この点に関して、著者らは、「考えられるすべての下流タスクで適切に実行する、事前にトレーニングされたチェックポイントを XNUMX つ見つけることは期待できない」と述べています。

研究

飽和効果を確立するために、著者らはビジョン トランスフォーマー、ResNet、MLP ミキサーで 4800 回の実験を実施しました。それぞれの実験には 10 万から 10 億のさまざまな数のパラメーターがあり、すべてそれぞれの分野で利用可能な最大量のデータセットでトレーニングされました。含む ImageNet21K と Google 独自の JFT-300M.

その結果、論文は次のことを示していると主張している。 データの多様性 データ、モデルパラメータ、計算時間を「スケールアップ」しようとするときは、追加の軸として考慮する必要があります。 現状では、AI パイプラインの上流セクションにトレーニング リソース (および研究者の注意) が集中しているため、下流アプリケーションは事実上「飽和」点に至るまで雪崩のようにパラメータを爆発させており、導入されたアルゴリズムのナビゲーション能力が低下しています。特徴を介して推論またはエフェクト変換を実行します。

この論文は次のように結論づけています。

「広範な調査を通じて、スケールアップまたはハイパーパラメーターとアーキテクチャの選択によって上流タスクのパフォーマンスを向上させると、下流タスクのパフォーマンスが飽和状態になることが判明しました。 さらに、一般的な話に反して、スケーリングは XNUMX つのモデルですべてに適合するソリューションにはつながらないという強力な経験的証拠を提供します。」