Artificial Intelligence

data2vec: 自己教師あり学習のマイルストーン

更新中 on 2023 年 8 月 2 日

機械学習モデルはトレーニングのためにラベル付きデータに大きく依存しており、伝統的に言えば、ラベル付きデータでモデルをトレーニングすると正確な結果が得られます。ただし、ラベル付きデータを使用することの主な欠点は、トレーニングデータのサイズが大きくなるにつれてアノテーションのコストが高くなる点です。アノテーションのコストが高いことは、特に大量のトレーニングデータを含む大規模なプロジェクトに取り組んでいる場合、開発者にとって大きなハードルとなります。

注釈の問題に取り組むために、開発者は次の概念を考案しました。 SSL または自己教師あり学習。自己教師あり学習は、次のような機械学習プロセスです。 モデルは、入力の一部を入力の別の部分から学習するように自らをトレーニングします。。自己教師あり学習モデルは、ラベル付きデータの教師あり信号を使用するのではなく、データ間の関係を利用することを目的としています。

自己教師あり学習に加えて、ラベル付きデータを使用せずに機械学習モデルをトレーニングする方法とモデルが他にもいくつかあります。ただし、これらの方法のほとんどには XNUMX つの大きな問題があります。

多くの場合、それらは画像やテキストなどの単一のモダリティに特化しています。
大量の計算能力を必要とします。

これらの制限は、画像、テキスト、音声を区別するために個別のモデルとトレーニングデータに依存する AI モデルと比較して、平均的な人間の心が単一タイプのデータからはるかに効果的に学習できる理由の大きな問題です。

単一モダリティの問題に取り組むために、Meta AI は data2vec、他に類を見ない自己監視型高性能アルゴリズム 画像、テキスト、音声という 2 つの異なるモダリティからパターン情報を学習します。 dataXNUMXvec アルゴリズムの実装により、テキスト理解を画像セグメンテーション問題に適用したり、音声認識タスクに導入したりすることもできます。

この記事では、data2vec モデルについて詳しく説明します。 data2vec アルゴリズムを明確に理解できるように、メソッドの概要、関連作業、アーキテクチャ、モデルの結果について詳しく説明します。

Data2vec の概要: 中心となるアイデア

自己教師あり学習の基本概念はモダリティ全体に適用されますが、実際の目的とアルゴリズムは単一のモダリティを考慮して設計されているため、それぞれ異なります。単一モダリティ用のモデルを設計することが、同じ自己教師あり学習アルゴリズムが異なる種類のトレーニングデータ間で効果的に機能できない理由です。

単一モダリティのモデルとアルゴリズムによってもたらされる課題を克服するために、Meta AI は、コンピュータービジョン、 NLP またはスピーチ。

data2vec アルゴリズムの背後にある中心的なアイデアは、入力のマスクされたビューを使用して、 の助けを借りて、自己蒸留セットアップにおける完全な入力データの潜在表現を予測します。 標準のトランスフォーマーアーキテクチャ。したがって、data2vec アルゴリズムは、本質的に局所的な画像、テキスト、音声などのモダリティ固有のオブジェクトの代わりに、完全なトレーニングデータまたは入力データからの情報を使用して潜在的な表現を予測します。

なぜ AI 業界に Data2Vec アルゴリズムが必要なのでしょうか?

自己教師あり学習モデルは、人間が注釈を付けたラベルを使用してトレーニングデータの表現を構築します。これは、NLP または自然言語処理、およびコンピュータービジョンテクノロジの進歩の背後にある主な理由の 1 つです。これらの自己教師あり学習表現は、音声認識や機械学習などのタスクがモデルに教師なし学習を導入する理由です。

これまで、これらの自己教師あり学習アルゴリズムは、学習バイアスを引き起こす個々のモダリティとモデルの特定の設計に焦点を当てていました。自己教師あり学習アルゴリズムの個別のモダリティは、コンピュータービジョンや NLP などのさまざまな AI アプリケーションに課題をもたらします。

たとえば、NLP の自己教師あり学習タスクを定義できる音声処理における音声単位の語彙があります。同様に、コンピュータビジョン、開発者は入力を回帰するか、離散視覚トークンを学習するか、データ拡張に対して不変の表現を学習することができます。これらの学習バイアスは便利ですが、これらのバイアスが他のモダリティにも一般化するかどうかを確認するのは困難です。

data2vec アルゴリズムは、2 つだけではなく複数のモダリティを改善することを目的としているため、自己教師あり学習業界における主要なマイルストーンです。さらに、dataXNUMXvec アルゴリズムは入力の再構築や対照学習に依存しません。

では、なぜ世界が data2vec を必要とするのかというと、data2vec アルゴリズムには AI の進歩を加速する可能性があり、周囲のさまざまな側面をシームレスに学習できる AI モデルの開発に貢献するからです。科学者たちは、data2vec アルゴリズムによって、今日の AI モデルが実行できる以上に高度なタスクを実行できる、より適応性の高い AI および ML モデルを開発できるようになることを期待しています。

Data2Vec アルゴリズムとは何ですか?

data2vec は、画像、音声、テキストなどのさまざまなデータモダリティにわたって自己教師あり機械学習を実装することを目的とした統合フレームワークです。

data2vec アルゴリズムは、さまざまなモダリティ間で学習目標を均一に保つことで、環境内の一般的なパターンをより適切に学習できる ML モデルを開発することを目的としています。 data2vec モデルは学習アルゴリズムを統合しますが、それでも各モダリティの表現を個別に学習します。

data2vec アルゴリズムの導入により、Meta AI は、マルチモーダル学習が効果的で、よりシンプルになることを期待しています。

Data2Vec アルゴリズムはどのように機能しますか?

data2vec アルゴリズムは、潜在ターゲット表現の学習とマスクされた予測を組み合わせますが、潜在表現を一般化するターゲットとして複数のネットワーク層を使用します。このモデルは、特に既製のモデルをトレーニングします。 変圧器ネットワーク それは次のいずれかで使用されます 先生または生徒 モード。

教師モードでは、モデルはまず教師の表現を構築します。 学習タスクのターゲットとなる入力データ。 Student モードでは、モデルは入力データのマスクされたバージョンをエンコードし、完全なデータ表現で予測を行うために使用されます。

上の図は、data2vec モデルが異なるモダリティに対して同じ学習プロセスをどのように使用するかを表しています。最初のステップでは、モデルは入力データの表現を生成します (教師モード）。次に、モデルは入力のマスクされたバージョンに基づいてこれらの表現を回帰します。

さらに、data2vec アルゴリズムは入力データの潜在表現を使用するため、次のようなモダリティ固有の設計の簡略化されたバージョンとみなすことができます。 入力を正規化して適切なターゲットを作成する or 視覚的なトークンの固定セットを学習します。 しかし、data2vec アルゴリズムと他のアルゴリズムの決定的な違いは、data2vec アルゴリズムがターゲット表現を作成するために自己注意を使用することです。 文脈化された継続的な。一方、他の自己教師あり学習モデルは、ローカルコンテキストに基づく固定のターゲットセットを使用します。

Data2vec: モデルメソッド

data2vec モデルは、入力の部分的なビューを考慮して、入力データのモデル表現を予測することによってトレーニングされます。与えられた図からわかるように、犬の顔がマスクされ、音声メモの特定のセクションがマスクされ、「」という単語が表示されます。　」は本文中ではマスクされています。

モデルは最初にトレーニングサンプルのマスクされたバージョンをエンコードします(学生モード)、マスクされていないバージョンの入力をエンコードして、同じモデルを使用してトレーニングターゲットを構築しますが、モデルの重みの指数平均としてパラメーター化されている場合に限ります(教師モード）。さらに、ターゲット表現はトレーニングサンプルに存在する情報をエンコードし、学生モードでは、入力の部分的なビューが与えられたときに学習タスクを使用してこれらの表現を予測します。

モデルアーキテクチャ

data2vec モデルは標準を使用します。 変圧器のアーキテクチャ 入力データのモダリティ固有のエンコーディングを使用します。コンピュータービジョンに関連するタスクの場合、モデルは ViT 戦略を使用して画像を一連のパッチとしてエンコードします。各画像は 16 × 16 ピクセルにまたがり、線形変換として供給されます。

さらに、モデルは音声認識用のデータを、1 kHz の波形を 16 Hz の表現にマッピングする多層 50-D 畳み込みニューラルネットワークを使用してエンコードします。テキストデータを処理するために、モデルはデータを前処理してサブワード単位を抽出し、埋め込みベクトルを介して分布空間にデータを埋め込みます。

マスキング

モデルが入力データをトークンのシーケンスとして埋め込むと、モデルはこれらのユニットの一部を埋め込みトークンで置き換えることによってマスクし、そのシーケンスを トランスフォーマー 通信網。コンピュータービジョンの場合、モデルはブロックごとのマーキング戦略を実践します。潜在音声表現は音声データの範囲をマスクするために使用され、言語関連タスクの場合、トークンがマスクされます。

トレーニング目標

data2vec モデルは、最初にモデルに供給されたマスクされたサンプルのエンコードに基づいて、マスクされていないトレーニングサンプルのモデル表現を予測することを目的としています。モデルは、マスクされたタイムステップの表現のみを予測します。

モデルは予測します 文脈化された表現 これは、特定のタイムステップをエンコードするだけでなく、Transformer ネットワークで自己注意を使用するため、サンプルからの他の情報もエンコードします。コンテキスト化された表現と Transformer ネットワークの使用が、data2vec モデルを既存のモデルと区別するものです BERT、wav2vec、BEiT、SimMIM、MAE、および MaskFeat コンテキスト情報なしでターゲットを予測するモデル。

data2vec モデルが教師モードをパラメータ化して、ターゲットとして機能するネットワーク表現を予測する方法を次に示します。

教師のパラメータ化

data2vec モデルは、マスクされていないトレーニングサンプルのエンコーディングをパラメータ化しました。 EMA または指数移動平均 モデルパラメータ(θ)のモデルの重み ターゲットモード(△) 次のとおりです。

Δ ← τΔ + (1 − τ ) θ

さらに、モデルはパラメータをから線形に増加させる τ をスケジュールします。 τ0～τe 最初の τn にわたる (目標値) の更新。これらの更新後、モデルはトレーニングが終了するまで値を一定に保ちます。 EMA 戦略を使用すると、モデルがランダムでトレーニングが開始される最初の段階で、教師がより頻繁に更新されます。トレーニングが進み、適切なパラメータが学習されると、教師が更新される頻度は減ります。

結果は、生徒モードと教師モードの間で特徴エンコーダーと位置エンコーダーのパラメーターを共有すると、モデルがより効率的かつ正確になることを示しています。

目標

トレーニング目標の構築はトップの成果に依存します。 K 学生モードでマスクされたタイムステップの教師ネットワークのブロック。ブロックの出力 l 任意のタイムステップで t として示されますlt。次に、モデルは各ブロックに正規化を適用して次の結果を取得します。lt 上位 K 個のブロックを平均する前

トレーニング目標 y を取得するにはt タイムステップ用 t ネットワークの場合 L 合計ブロック数。

モデルが学生モードのときに退行するトレーニングターゲットを作成します。初期の実験では、data2vec モデルは、専用の投影を使用して各ブロックを個別に予測する際に良好なパフォーマンスを示し、同時にはるかに効率的でした。

さらに、ターゲットを正規化すると、data2vec モデルがタイムステップの定数表現に崩壊するのを防ぎ、高度に正規化されたレイヤーがターゲットデータセット内の特徴を支配することを防ぐこともできます。音声認識の場合、モデルは学習パラメーターを使用せずに、現在の入力サンプルに対してインスタンス正規化を使用します。これは主に、入力データのストライドが小さいため、隣接する表現の相関性が高いためです。

さらに、研究者らは、コンピュータービジョンと NLP を使用する場合、パラメーターなしの正規化で十分に機能することを発見しました。この問題は次の方法でも解決できます 分散-不変性-共分散 ただし、上記の戦略は十分にうまく機能し、追加のパラメーターは必要ありません。

DevOps Tools Engineer試験のObjective

状況に応じたトレーニング目標の場合t、モデルは スムーズな L1 損失 以下で説明するようにターゲットを回帰します

ここで、β は二乗損失から L1 損失への移行を制御しており、モデル予測 f 間のギャップの大きさに大きく依存します。t(x) タイムステップで t. この損失の利点は次のとおりです。 βの設定を調整する必要があるため、外れ値に対する感度は比較的低い.

実験設定

data2vec モデルは、次の XNUMX つのモデルサイズで実験されています。 data2vec 大 および data2vecベース。数値安定性を確保するために、EMA 更新は fp32 で行われ、モデルには隠れ次元 (H) = 12 または H= 24 の L= 768 または L= 1024 Transformer ブロックが含まれています。さまざまなモダリティの実験セットアップを詳しく見てみましょう。、そして目的。

Computer Vision

data2vec モデルは、224×224 ピクセルの画像を 16×16 ピクセルのパッチとして埋め込みます。これらの各パッチは線形に変換され、196 の表現を持つシーケンスが標準の Transformer に供給されます。

モデルは次のとおりです BEIT 各ブロックがランダムなアスペクト比を持つ少なくとも 16 個のパッチを持つ隣接するパッチでブロックをマスクします。ただし、BEiT モデルのようにパッチの 40% をマスクする代わりに、data2vec モデルでは精度を高めるためにパッチの 60% をマスクします。

さらに、モデルは画像のトリミング、水平方向の反転、色のジッターのサイズをランダムに変更します。最後に、data2vec モデルは、教師モードと生徒モードの両方で同じ変更された画像を使用します。

ViT-B モデルは 800 エポックに対して事前トレーニングされており、data2vec モデルは、ViT-L モデルでは 8,192、ViT-B モデルでは 2,048 のバッチサイズを使用します。 data2vec モデルはまた、コサインと単一サイクルの Adam スケジュールを使用して、ViT-L の場合は 80 エポックの学習率を 0.001 に、ViT-B の場合は 40 エポックの学習率を 0.001 にウォームアップします。

ViT-B と ViT-L の両方について、data2vec モデルは、スケジュールなしの定数として β = 2、K = 6、τ = 0.9998 を使用します。モデルはさらに、確率的深度レート 0.2 を使用します。

さらに、ViT-L の場合、モデルは 1,600 エポックでトレーニングし、最初の 800 エポックの学習率は 0.9998 です。その後、モデルは学習率スケジュールをリセットし、学習率 800 で最後の 0.9999 エポックを継続します。

画像分類の場合、モデルは最後の Transformer ブロックの出力の平均プールを使用し、それをソフトマックス正規化分類器に供給します。次にモデルは、コサインを使用して 50 エポックの ViT-L と 100 エポックの ViT-B を微調整し、Adam は学習率をウォームアップします。

音声処理

音声処理の場合、data2vec モデルは フェアセク、 要約、翻訳、テキスト生成のために顧客モデルをトレーニングするために使用されるシーケンスモデリングキット。このモデルは、特徴エンコーダーを使用して処理される 16 kHz 波形を入力として受け取り、512 チャネル、カーネル幅 (10,3,3,3,3,2,2、5,2,2,2,2,2,2、XNUMX、XNUMX、XNUMX、XNUMX、XNUMX)、およびストライド (XNUMX、XNUMX、XNUMX) による時間畳み込みが含まれています。、XNUMX、XNUMX、XNUMX、XNUMX）。

上記の結果、エンコーダーの出力周波数は 50Hz となり、各サンプル間のストライドは 20ms になります。受容野は 400 の入力サンプルまたは 25 ミリ秒の音声で構成されます。 エンコーダに供給された生の波形は単位分散とゼロ平均に正規化されます。.

基本モデルの data2vec によって使用されるマスキング戦略は、音声認識における自己教師あり学習の Baevski フレームワークに似ています。モデルサンプル p すべてのタイムステップに対して = 0.065 が開始インデックスとなり、次の 49 のタイムステップのマークに進みます。一般的なトレーニングシーケンスの場合、このプロセスにより、合計タイムステップのほぼ XNUMX% がマスクされます。

トレーニング中に、data2vec モデルは τ を使用して τ を線形アニールします。o = 0.999、τe = 0.9999、およびτn = 30,000。 data2vec モデルは、ピーク学習率が 5×10 の Adam オプティマイザーを使用します。-4 ベースモデル用。さらに、基本モデルは、更新の最初の 3% で学習率を直線的にウォームアップし、次の 90% で学習率を維持し、残りの 7% で直線的に減衰していく XNUMX 段階スケジューラーを使用します。

自然言語処理

data2vec モデルは、50K 型のバイトペアエンコーディングを使用して入力をトークン化し、モデルは各型の埋め込みを学習します。データがエンコードされた後、モデルは均一に選択されたトークンの 15% に BERT マスキング戦略を適用します。そのうち 80% は学習されたマスクトークンに置き換えられ、10% はランダムな語彙トークンに置き換えられ、残りの 10% は変更されません。

事前トレーニング中にモデルは τ を使用しますo = 0.999、τe = 0.9999、およびτn = 100,000、K= 10、β = 4。モデルは、更新の最初の 5% で学習率を線形にウォームアップし、次の 80% で学習率を維持する 15 段階の学習率スケジュールを持つ Adam オプティマイザーを使用します。その後、残りの 2% については直線的に減衰し、ピーク学習率は 10×XNUMX になります。-4.

さらに、モデルは 16 日に訓練されます。 GPU バッチサイズは 256 シーケンスで、各シーケンスには約 512 個のトークンが含まれます。ダウンストリームの場合、モデルは 1 つの異なる学習率で事前トレーニングされます: 10×XNUMX-4、2×10-4、3×10-4、4×10-4、最も優れたパフォーマンスを発揮するものが、その後の NLP ダウンストリームタスク用に選択されます。

結果

さまざまなモダリティについて上で説明した戦略を実装したときに、data2vec モデルがどのように動作するかを見てみましょう。

Computer Vision

コンピュータービジョンの結果を評価するために、data2vec モデルは、 イメージネット-1K データセット。結果のモデルは、同じベンチマークのラベル付きデータを使用して微調整されます。標準的な実践に従って、モデルは次の観点から評価されます。 トップ1の精度 検証データについて。

次に、結果は単一の自己教師ありモデルに基づいて区別され、追加データまたは他の自己教師あり学習モデルに基づいて別のビジュアルトークナイザーをトレーニングします。

以下の表は、コンピュータービジョン用の data2vec モデルと他の既存モデル (ViT-L、ViT-B) のパフォーマンスを比較しています。

上の表の結果は次のように要約できます。

data2vec モデルは、単一モデル設定で ViT-L モデルと ViT-B モデルの両方を使用した以前の研究よりも優れたパフォーマンスを発揮します。
data2vec アルゴリズムでコンテキスト化された潜在表現を予測するために使用されるマスクされた予測セットアップは、エンジニアリング画像特徴、入力ピクセル、ビジュアルトークンなどのローカルターゲットを予測する方法と比較して、パフォーマンスが向上します。
また、data2vec モデルは、画像の XNUMX つの異なる拡張バージョンを入力として取得しながら、生徒ネットワークの最終層を回帰する自己蒸留手法よりも優れたパフォーマンスを発揮します。

オーディオおよび音声処理

音声およびオーディオ処理の場合、data2vec モデルは、 リブスピーチ(LS-960) データセット。このデータセットには、英語のオーディオブックからのクリーンな音声音声が含まれており、音声および音声処理業界の標準ベンチマークとして扱われています。

さまざまなリソース設定でのモデルのパフォーマンスを分析するために、研究者たちは自動音声認識にさまざまな量のラベル付きデータ (数分から数時間) を使用するように data2vec モデルを微調整しました。モデルのパフォーマンスを分析するために、data2vec が比較されます。 ヒューバート & wav2vec 2.0、離散音声単位に依存する音声および音声表現学習用の最も人気のある XNUMX つのアルゴリズム。

上の表は、音声認識のワードレートに関する data2vec のパフォーマンスを他の既存のモデルと比較しています。 LM デコードに使用される言語モデルを表します。結果は次のように要約できます。

data2vec モデルは、ほとんどのラベル付きデータ設定で改善が見られ、ベースモデルのラベル付きデータの最大増加量は 10 分です。
大規模なモデルに関しては、ラベル付きの小規模なデータセットではモデルのパフォーマンスが大幅に向上し、ラベル付きデータが 100 ～ 960 時間を超えるリソースが豊富なデータセットでもパフォーマンスは同等です。これは、ほとんどのモデルのリソースが豊富なラベル付きデータセットでは一般にパフォーマンスが飽和するためです。
パフォーマンスを分析した後、モデルが豊富なコンテキスト化されたターゲットを使用する場合、個別のユニットを学習することは必須ではないことが推測できます。
トレーニング中に状況に応じたターゲットを学習すると、全体的なパフォーマンスが大幅に向上します。

さらに、data2vec の音声認識アプローチを検証するために、モデルは オーディオセット 基準。 AudioSet の事前トレーニングセットアップは Librispeech と似ていますが、モデルは K= 12、および 200 回を超える更新でトレーニングされ、各バッチのサイズは 94.5 分です。

モデルは次に、 ディープノーム フレームワークと レイヤーの正規化 トレーニングを安定させるのに役立ちます。さらに、このモデルは、21.3 回の更新でバッチサイズ 13 分のバランスのとれたサブセットでも微調整されています。モデルも使用しています リニアソフトマックスプーリング 確率スコア 0.7 の混合。次にモデルは、 単一線形投影 オーディオの 527 の固有のクラスに分割し、 投影学習率 2e-4へ。

さらに、事前トレーニングされたパラメーターの学習率は 3e-5 で、モデルはマスキング技術を使用してデータセットを微調整します。以下の表は結果をまとめたもので、data2vec モデルが同じ微調整および事前トレーニングデータを使用した同等のセットアップよりも優れたパフォーマンスを発揮できることがわかります。

自然言語処理

テキストに対する data2vec のパフォーマンスを分析するために、モデルは次と同じトレーニング設定に従います。 ベルト そして、1 万を超える更新と 256 シーケンスのバッチサイズを使用して、英語版 Wikipedia データセットでモデルを事前トレーニングします。モデルは次の点で評価されます。 GLUE または一般言語理解の評価 自然言語干渉タスクを含むベンチマーク(MNLI またはマルチジャンル自然言語推論)、文の類似性 (QQP または Quora 質問ペアベンチマーク、MRPC または Microsoft Research 段落コーパス、および STS-B またはセマンティックテキスト類似性ベンチマーク）、感情分析（SST-2 またはスタンフォードセンチメントツリーバンク)、文法的には(コーラ).

さらに、data2vec モデルを微調整するために、ラベル付きデータが各タスクによって提供され、5 回の微調整実行による開発セットの平均精度が報告されます。次の表は、自然言語処理タスクの data2vec モデルのパフォーマンスを要約し、他のモデルと比較しています。

上記のデータは、data2vec モデルの戦略がランダムなターゲットを使用していないため、data2vec モデルがベースライン RoBERTa モデルよりも優れていることを示しています。
data2vec モデルは、文字、単語、サブワードなどの個別の単位をトレーニングターゲットとして使用しない、初めて成功した事前トレーニング済み NLP モデルです。代わりに、data2vec フレームワークは、マスクされていない完全なテキストシーケンスに対する文脈化された潜在表現を予測します。
これは、すべてのテキスト単位に共通する表現を特定の裁量で予測するのではなく、モデルが現在のシーケンスから特定のプロパティを持つターゲットを予測する必要がある学習タスクを作成するのに役立ちます。
さらに、トレーニング目標セットは固定されておらず、モデルは新しい目標を自由に定義でき、語彙設定も自由です。

Data2Vec: アブレーションの研究

アブレーションは、AI および ML システムのコンポーネントの除去を定義するために使用される用語です。アブレーションスタディは、モデルから特定の重要なコンポーネントを削除することにより、AI または ML モデルのパフォーマンスを調査または分析するために使用され、研究者がシステム全体におけるそのコンポーネントの寄与を理解できるようにします。

レイヤーの平均化されたターゲット

data2vec と他の自己教師あり学習モデルの主な違いは、data2vec モデルでは教師ネットワークからの複数のレイヤーの平均に基づくターゲットを使用することです。このアイデアは、wav2vec 2.0 モデルの最上位層が、モデルの中間層と比較した場合、下流のタスクに対して十分なパフォーマンスを発揮しないという事実に基づいています。

次の実験では、1 つのモダリティすべてのパフォーマンスが、K= 2、12、…、1 レイヤーを平均することによって測定されます。ここで、K= 2 は最上位レイヤーのみを予測します。ただし、所要時間を短縮するために、data12vec は合計 10 レイヤーで基本モデルをトレーニングします。音声認識の場合、モデルは Librispeech の 300 万回を超える更新で事前トレーニングされ、その後 Libri-light の 1 時間のラベル付き分割で微調整されます。自然言語処理の場合、モデルは検証セットの平均 GLUE スコアをレポートし、コンピュータービジョン用にモデルを XNUMX エポックで事前トレーニングしてから、ImageNet データセットで得られたトップ XNUMX の精度をレポートします。

上の図は、すべてのモダリティで最上位レイヤー K=1 のみを使用すると、複数のレイヤーに基づくターゲットが一般的に向上することを示しています。ニューラルネットワークは、さまざまな種類のフィーチャ、およびその後フィーチャレイヤーとして抽出される多数のレイヤーの上にフィーチャを構築するため、利用可能なすべてのレイヤーを使用することをお勧めします。

複数のレイヤーの特徴を使用すると、精度が向上し、自己教師あり学習プロセスが強化されます。

ターゲット機能のタイプ

data2vec モデルのTransformer ブロックには、ターゲットとして機能するいくつかのレイヤーがあります。さまざまなレイヤーがパフォーマンスにどのような影響を与えるかを分析するために、モデルはさまざまなレイヤーをターゲット特徴として使用する Librispeech の音声モデルで事前トレーニングされています。

以下の図は、フィードフォワードネットワークまたは FFN の出力が理想的に機能するのに対し、セルフアテンションブロックの出力では使用可能なモデルが得られないことを明確に示しています。

ターゲットのコンテキスト化

data2vec モデルの教師表現は、入力全体に対して自己注意を使用して、コンテキスト化されたターゲットを生成します。これは、入力の局所的な部分を再構成または予測することによって学習タスクを構築する他の自己教師あり学習モデルから data2vec を区別するものです。明らかに次のような疑問が生じます。 data2vec モデルが適切に機能するには、コンテキスト化されたターゲットが必要ですか?

この質問に答えるために、研究者らは、入力データセット全体にはアクセスせず、あらかじめ決められた一部のみにアクセスできるターゲット表現を構築しました。次に、モデルは教師の自己注意メカニズムを制限し、周囲の環境入力の一部のみにアクセスできるようにします。モデルがトレーニングされた後、完全なコンテキストサイズにアクセスできるように微調整されます。

以下の図は、コンテキストサイズが大きいほどパフォーマンスが向上することが多く、入力サンプル全体が表示される場合に最高の精度が得られることを示しています。それはさらに次のことを証明します ターゲット表現が豊富になると、パフォーマンスが向上します。

モダリティ固有の特徴抽出とマスキング

data2vec の主な目的は、さまざまなモダリティで機能するシンプルな学習メカニズムを設計することです。それは、現在のモデルとフレームワークには統一された学習体制があるにもかかわらず、依然としてモダリティ固有のマスキングと特徴抽出器が使用されているためです。

入力データの性質が互いに大きく異なることを考えると、フレームワークがほとんど単一のモダリティで動作することは理にかなっています。たとえば、音声認識モデルは、通常数千のサンプルを持つ高解像度入力 (10 kHz 波形など) を使用します。次に、波形は多層畳み込みニューラルネットワークを使用するフレームワークによって処理され、50 Hz の特徴シーケンスが取得されます。

構造化されコンテキスト化されたターゲット

data2vec と他のマスクされた予測モデルの主な違いは、data2vec モデルではトレーニングターゲットの特徴がコンテキスト化されていることです。これらの機能は、教師モードでマスクされた入力全体の自己注意を使用して構築されます。

BYOL(Bootstrap Your Own Latent) や DINO などの他のフレームワークも data2vec のような潜在表現を使用しますが、それらの主な焦点は変換不変表現を学習することです。

最終的な考え

AI および ML 業界における最近の研究では、統一モデルアーキテクチャが複数のモダリティに取り組むための効果的なアプローチとなり得ることが示されています。 data2vec モデルは、音声、画像、言語の XNUMX つのモダリティを扱うための自己教師あり学習アプローチを使用します。

data2vec モデルの背後にある重要な概念は、部分入力ビューを使用してコンテキスト化された情報または入力データを回帰することです。 data2vec フレームワークで使用されるアプローチは、ViT-B および ViT-L の両方の単一モデルの ImageNet-1K データセットでモデルが以前の自己教師あり学習モデルよりも優れたパフォーマンスを発揮するため、効果的です。

Data2vec は、複数のモダリティを学習するための単一の学習方法が実際にモダリティを超えたモデルの学習を容易にすることを実証するため、自己教師あり学習業界における真のマイルストーンです。