Artificial Intelligence
研究者が深層学習ニューラルネットワーク内の高効率サブネットワークを発見
ディープラーニング ニューラル ネットワークは多くの場合大規模で、膨大なコンピューティング パワーを必要としますが、新しい発見により、これをどのように削減してタスクをより効率的に完了できるかが実証されました。 MIT のジョナサン フランクルと彼のチームは、大規模なニューラル ネットワーク内にどのように無駄のないサブネットワークが存在するかを示す「宝くじ仮説」を考案しました。 これらのサブネットワークは、より少ないコンピューティング能力で、当面のタスクをより効率的に完了できます。最大の課題の XNUMX つは、これらのサブネットワークを見つけること、つまりチームが参照する宝くじを当てることです。
チームは、自然言語処理 (NLP) 用の最上位の機械学習技術である BERT 内でこれらのサブネットワークを発見しました。 NLP は人工知能 (AI) の一分野であり、人間の言語の解読と分析を担当し、予測テキスト生成やチャットボットなどのアプリケーションに使用されます。
ただし、BERT は規模が大きく、スーパーコンピューティング能力を必要とするため、ほとんどのユーザーはアクセスできません。 これらのサブネットワークが新たに発見されたことで、そのアクセスが開かれ、より多くのユーザーがそのテクノロジーを利用して NLP ツールを開発できるようになります。
「私たちは、これらのモデルをより無駄がなく、より効率的にしなければならない段階に来ています」とフランクル氏は言います。
同氏によれば、この開発により NLP の「参入障壁が軽減される」可能性があります。
BERT – 「異常に高価」
BERT は Google の検索エンジンなどの基礎であり、Google が 2018 年にリリースして以来、多くの注目を集めています。BERT はニューラル ネットワークを作成する手法であり、文章の空白部分を埋めることを何度も試みることによって訓練されます。 BERT の最も印象的な機能の XNUMX つは、その大規模な初期トレーニング データセットです。
その後、顧客サービスのチャットボットなどの特定のタスクに合わせてユーザーが調整できますが、やはり大量の処理能力が必要となり、パラメーターは 1 億に達する可能性があります。
「最近の標準的な BERT モデル (園芸品種) には 340 億 XNUMX 万のパラメータがあります」とフランクル氏は言います。 「これは法外に高価です。 これはあなたや私の計算能力をはるかに超えています。」
筆頭著者であるテキサス大学オースティン校の Tianlong Chen 氏によると、BERT などのモデルは「巨大なネットワーク サイズに悩まされている」が、新しい研究のおかげで「宝くじ仮説が解決策のようだ」という。
効率的なサブネットワーク
Chen とチームは BERT 内にあるより小さいモデルを探し、発見されたサブネットワークのパフォーマンスを元の BERT モデルと比較しました。 これは、質問に答える、文中の空白の単語を埋めるなど、さまざまな NLP タスクでテストされました。
チームは、元の BERT モデルよりも驚くほど 40 ~ 90% スリム化された、成功したサブネットワークを発見しました。実際の割合はタスクによって異なります。 さらに、タスク固有の微調整を行う前にそれらを特定できるため、コンピューティング コストがさらに削減されます。 もう XNUMX つの利点は、特定のタスク用に選択されたサブネットワークの一部を別のタスクに再利用できることです。
「これがうまくいったのにはちょっとショックでした」とフランクルは言う。 「それは私にとって当たり前のことではありませんでした。 私は我々が得たものよりもはるかに厄介な結果を期待していました。」
Facebook AI Research の科学者である Ari Morcos 氏によると、この発見は「説得力がある」ものであり、「これらのモデルはますます普及しています。 したがって、宝くじ仮説が成り立つかどうかを理解することが重要です。」
Morcos 氏はまた、これらのサブネットワークが大幅に少ないコンピューティング能力で実行できれば、「現在、これらの非常に大規模なモデルの実行コストが非常に高いことを考えると、非常に大きな影響を与えるだろう」とも述べています。
「これらのスーパーコンピューター風の計算を使用して、どこまで規模を拡大できるかわかりません」とフランクル氏は付け加えた。 「参入障壁を下げる必要があるだろう。」
「これによってコストが下がり、ラップトップを持っているだけの小さな人たちにとっても、もっとアクセスしやすくなることが期待されています」と彼は結論づけています。
この研究は、次の会議で発表される予定です。 神経情報処理システムに関する会議.