Artificial Intelligence

UltraFastBERT: 指数関数的に高速化された言語モデリング

公開済み

2年前

2023 年 12 月 8 日

クナル・ケジリワル

言語モデルと生成 AI は、その機能で有名であり、AI 業界で注目のトピックです。世界の研究者がその有効性と能力を強化しています。これらのシステム (通常は深層学習モデル) は、自己注意のためのニューラルネットワークを組み込んだ、広範なラベル付きデータで事前トレーニングされています。フィードフォワード、リカレント、埋め込み、アテンションなどのさまざまなレイヤーを使用して、入力テキストを処理し、関連する出力を生成します。

ほとんどの場合、大規模な言語モデルのフィードフォワード層がほとんどのパラメーターを保持します。研究によると、これらのモデルは推論中の出力計算に利用可能なニューロンの一部のみを使用します。

この記事では、主要な BERT モデルの有効性に匹敵する BERT ベースのフレームワークである UltraFastBERT を紹介しますが、推論中に使用するニューロンはわずか 0.3%、具体的には各層の 12 個のうち 4095 個です。 UltraFastBERT のアーキテクチャ、機能、結果について調べていきます。さぁ、始めよう。

UltraFastBERT : 指数関数的に高速化された言語モデリングの概要

従来、言語モデルはさまざまなコンポーネントを使用して、フィードフォワードレイヤー、リカレントレイヤー、埋め込みレイヤー、アテンションレイヤーなどのコンテンツ生成機能を備えていました。これらのコンポーネントは、トレーニング中にパターンを認識する方法を学習し、最終的には入力テキストに基づいて正確な出力を生成します。これらのコンポーネントにはそれぞれいくつかのパラメーターがあり、言語モデル、これらのパラメータの大部分はフィードフォワード層によって保持されます。ただし、これらのフィードフォワード層は、干渉時のすべての入力に対する出力を生成するために利用可能なニューロンを 100% 利用するわけではないため、リソースの浪費につながり、複雑さ、計算時間、および計算コストが増加します。

その中核となる UltraFastBERT フレームワークは BERT フレームワークのバリアントであり、この概念に基づいて構築されており、そのアーキテクチャ内でフィードフォワード層をより高速なフィードフォワードネットワークに置き換えることで、最終的に UltraFastBERT フレームワークは利用可能なニューロンの 0.3% のみを利用しながら、同等の結果を提供します。特に下流のタスクにおいて、同様のサイズとトレーニングプロセスを持つ BERT モデルとの比較。その設計実装により、UltraFastBERT フレームワークの中間層は飛躍的に高速になり、

それぞれ n 個のニューロンを含む高速フィードフォワード (FFF) ネットワークとフィードフォワード (FF) ネットワークが与えられた場合、フィードフォワードネットワークの順方向パスの時間計算量は O(n) ですが、フィードフォワードネットワークの時間計算量は O(log2n) です。高速フィードフォワードネットワークであり、時間計算量の違いは主に、高速フィードフォワードネットワークではニューロンがバランスのとれたバイナリツリーに編成されており、入力が提供されると、ネットワークは条件付きでツリーの XNUMX つのブランチのみを実行するという事実によるものです。。さらに、高速フィードフォワードネットワーク上で干渉を実行すると、CMM または条件付き行列乗算が行われます。この場合、入力行には自然重み列が個別に点在し、前のドット積演算の出力によって、続行する列の重みが決まります。その結果、ネットワークは少数の入力に対してのみすべてのニューロンを使用し、ネットワークによる処理に必要なニューロンの数が XNUMX ～ XNUMX 個を超える入力はなくなります。 CMM ドット積は、すべての入力とすべての重み列のドット積を計算する DMM または密行列乗算とは対照的です。

要約すると、UltraFastBERT は、最先端の BERT 言語モデルに匹敵する結果を提供する BERT ベースのフレームワークです。

干渉段階では利用可能なニューロンの 0.3% のみを利用し、干渉層ごとに合計 12 個のニューロンのうち 4095 個のニューロンだけを使用します。
下流タスクに微調整戦略を実装することで、最先端の BERT モデルに匹敵する強力なパフォーマンスを実現します。
高速フィードフォワードネットワークのベースを形成する CMM または条件付き行列乗算のネイティブ実装を提供し、ネイティブに最適化された DMM または高密度行列乗算と比較して、最終的に 78 倍のパフォーマンスの高速化につながります。

フィードフォワードニューラルネットワーク

フィードフォワードニューラルネットワークは、最も簡単なネットワークの XNUMX つです。人工神経回路網これにより、入力ノードから隠れノードを介して出力ノードに情報が順方向にのみ移動されます。高速フォワードニューラルネットワークの主なハイライトの 1 つは、このようなネットワークにはループやサイクルがなく、RNN (リカレントニューラルネットワーク) や CNN (従来型ニューラルネットワーク) と比較して構築が簡単であることです。高速フォワードニューラルネットワークのアーキテクチャは、入力層、隠れ層、出力層の 3 つのコンポーネントで構成され、各層はニューロンと呼ばれるユニットで構成され、各層は重みを使用して相互接続されています。

入力層に存在するニューロンは入力を受け取り、それを次の層に転送します。各入力層のニューロンの量は、入力データの次元によって決まります。次に、入力にも出力にも公開されない隠れ層があり、必要な計算を担当します。各隠れ層のニューロンは、前の層によって与えられた出力の重み付き合計を取得し、活性化関数を使用して、結果を次の層に渡します。このプロセスがもう一度繰り返されます。最後に、指定された入力に対する出力を生成する出力層があります。高速フィードフォワードネットワークの各層の各ニューロンは、次の層のすべてのニューロンと相互接続されているため、FFF ニューラルネットワークは完全に接続されたネットワークになります。重みはニューロン間の結合の強さを表すために使用され、ネットワークは出力で発生するエラーに基づいて重みを更新することでパターンを学習するためにこれらの重みを更新します。

今後、高速フィードフォワードニューラルネットワークの動作には、フィードフォワードフェーズとバックプロパゲーションフェーズという XNUMX つの重要な段階があります。

フィードフォワードフェーズ

フィードフォワードフェーズでは、入力がネットワークに供給され、前方に伝播します。次に、隠れ層は入力の重み付き合計を計算し、入力の合計を ReLu、Sigmoid、TanH などの活性化関数に渡すことでモデルに非線形性を導入します。このプロセスは、重みが出力層に到達し、モデルが予測を行うまで何度も繰り返されます。

逆伝播フェーズ

モデルが予測を行うと、生成された出力と予想される出力の間の誤差が計算されます。その後、誤差はネットワークを通じて逆伝播され、ネットワークは勾配降下最適化アルゴリズムを使用して重みを調整し、誤差を最小限に抑えようとします。

UltraFastBERT : モデルのアーキテクチャと動作

UltraFastBERT フレームワークは、cramedBERT アーキテクチャに基づいて構築されており、UltraFastBERT フレームワークは、中間層の性質を除く、cramedBERT フレームワークのすべてのコンポーネントを採用しています。代わりに、UltraFastBERT フレームワークは、cramedBERT フレームワークの中間層に含まれるフィードフォワードネットワーク内のトランスエンコーダを高速フィードフォワードネットワークに置き換えます。 UltraFastBERT フレームワークは、元のフィードフォワードネットワークに次の変更を加えます。

このフレームワークは、ノード全体で GeLu アクティベーション関数を使用し、これらのノードに出力重みを装備し、出力バイアス全体を除去することにより、リーフノードと非リーフノード間の違いを取り除きます。これをポストすると、フレームワークはリーフサイズを 1 に固定します。
最後に、このフレームワークでは、中間出力層を共同計算することで、複数の高速フィードフォワードネットワークツリーを並列に実行できます。フレームワークは、個々のツリーの合計を取得することでこの計算を実行し、その合計を中間出力層として提示します。

さらに、トレーニングでは、UltraFastBERT フレームワークは、事前トレーニングでのドロップアウトの無効化や 1 サイクルの三角学習率スケジュールの使用など、cramedBERT フレームワークで採用されているトレーニング手順に従います。次に、合計 5 エポックにわたって、主に GLUE ベンチマークの幅広いタスクでパフォーマンスを最大化するためにモデルが微調整されます。

干渉

干渉は高速フィードフォワードネットワークにとって重要な部分であり、これらの高速フィードフォワードネットワーク自体が大規模な言語モデルの主要な部分を形成し、並外れた高速化の可能性があることで知られています。この加速の可能性を理解するために、最も高度な言語モデルの 3 つである GPT-49,100 の例を考えてみましょう。GPT-15 では、すべての変換層のフィードフォワードネットワークが 65,000 を超えるニューロンで構成されています。トレーニング可能であれば、高速フィードフォワードネットワーク (最大深さ 16) で元のフィードフォワードネットワークを置き換えることができます。導入された高速フィードフォワードネットワークには 0.03 を超えるニューロンが含まれますが、干渉に利用されるのはこれらのニューロンのうち 3 個のみで、これは GPT-XNUMX で利用可能なニューロンの約 XNUMX% に相当します。

アルゴリズムと互換性

UltraFastBERT フレームワークは、高速フィードフォワード干渉に再帰的擬似コードアルゴリズムを利用します。そのアルゴリズムは次の図に示されています。

ここで、B はバッチサイズを表し、H は入力レイヤーの幅を表し、M は列を表します。計算行列乗算アプローチの使用に関するもう XNUMX つの主な懸念原因は、高速フィードフォワードネットワークが、すでに密行列乗算や既存の深層学習フレームワークで使用されているプロセスと互換性がなくなるかどうかです。幸いなことに、CMM を使用してもパフォーマンスに影響したり、非互換性が生じたりすることはありませんが、キャッシュの複雑さは増大します。

高速フィードフォワードネットワークの一部として、シングルスレッドの密行列乗算は MAC 命令または乗算と累積命令の実行に依存していることに注意することが重要です。その結果、計算に必要な MAC 命令が少なくなるため、DMM を CMM アプローチに置き換えることで CPU に利益がもたらされます。要素ごとのレイヤー出力。したがって、通常は分岐に関連付けられる条件を採用しているにもかかわらず、「ニューラル分岐」はフレームワーク内の関連するポインターへのメモリオフセットへの追加として機能します。したがって、UltraFastBERT フレームワークでは、CMM の条件を容易にするために命令分岐予測が完全に実行されることはなく、重み行列の関連する列を個別にロードするだけです。さらに、フレームワークは行と列のドット積を実行するため、SIMD または単一命令複数データベクトル並列処理は、特定のデバイスの干渉実装を高速化するための優れたオプションです。

UltraFastBERT : パフォーマンスと結果

UltraFastBERT フレームワークの微調整および干渉タスクのパフォーマンスについて説明し、フレームワークが最先端の言語モデルに対してどのように機能するかを分析します。

結果の微調整

次の図は、GLUE-dev テストデータセットでのさまざまなモデルのパフォーマンスを示しています。ここで、N はフレームワークでトレーニングに使用できるニューロンの数を表し、「Avg」はすべてのタスクの平均スコアを表します。

はっきりとわかるように、A6000 GPU で 24 時間以上トレーニングされた UltraFastBERT フレームワークは、元の BERT フレームワークと比較して、GLUE ダウンストリームタスクの予測パフォーマンスのほぼ 96% を維持しています。さらに、高速フィードフォワードネットワークの深さが増すと、フレームワークのパフォーマンスが低下しますが、パフォーマンス低下の大部分は CoLa タスクでのみ発生します。 CoLa タスクがしばらく無視された場合、UltraFastBERT フレームワークは約 98.6% の予測パフォーマンススコアを返します。

干渉結果

このセクションでは、干渉実装におけるいくつかのフィードフォワードまたは高速フィードフォワードネットワークのパフォーマンスを比較します。これらの実装は XNUMX つのレベルにまたがっています。

レベル 1 実装では、BLAS レベル 1 ルーチン、つまりスカラーベクトル積およびベクトルベクトルドット積を使用して実装が構築されます。
レベル 2 では、実装は BLAS レベル 2 ルーチン、つまりバッチ処理されたスカラーベクトル積およびバッチ処理された行列ベクトルドット積を利用します。
レベル 3 では、実装は非バッチ BLAS レベル 3 行列間乗算アプローチを採用しており、これはフィードフォワードネットワークで利用できる最速の実装ですが、ライブラリがベクトルをサポートしていないため、このような実装は高速フィードフォワードネットワークでは利用できません。計算行列乗算のレベルのスパース性。

さらに、UltraFastBERT フレームワークは、カスタム CUDA または PyTorch カーネルを使用して GPU 実装をデプロイします。

上の表は、UltraFastBERT フレームワークのパフォーマンスを、フィードフォワード層と高速フィードフォワード層に関して以前の BERT ベースのフレームワークと比較したもので、すべての列に相対推論が含まれており、同じ線形を使用する場合のフィードフォワード実装よりも高速フィードフォワードの方が高速化されます。 -代数ルーチンプリミティブ。

ただし、上の表で報告されている高速化は「公平な比較」を目的としたものであることに注意してください。つまり、高速フィードフォワード実装とフィードフォワード実装の両方が同一の線形代数ルーチンの基本演算を使用しています。さらに、レベル 1 とレベル 2 では、高速フィードフォワードネットワークの実装は、最も速いフィードフォワード実装よりもそれぞれ 48 倍と 78 倍速く干渉を実行できます。

最終的な考え

この記事では、BERT フレームワークのバリアントである UltraFastBERT について説明しました。これは、フィードフォワード層が干渉時にすべての入力に対して出力を生成するために利用可能なニューロンを 100% 利用しないという概念に基づいており、これが無駄につながるというものです。このリソースにより、複雑さ、計算時間、および計算コストが増加し、アーキテクチャ内のフィードフォワード層がより高速なフィードフォワードネットワークに置き換えられます。その結果、最終的に UltraFastBERT フレームワークは、利用可能なニューロンの 0.3% のみを利用しながら、同様のサイズの BERT モデルと同等の結果を提供します。トレーニングプロセス、特に下流タスクに関するトレーニングプロセス。

その設計実装により、UltraFastBERT フレームワークの中間層は飛躍的に高速になっています。さらに、UltraFastBERT フレームワークによって提供される強力なパフォーマンスは、 LLM UltraFastBERT フレームワークは干渉中に利用可能なニューロンの 0.3% のみを利用するため、個々の干渉に対してパラメータの一部のみを使用するだけで強力なパフォーマンスを実現できますが、干渉時間全体で 78 倍の高速化を達成できます。