スタブ 大規模な言語モデルを使用した改善されたテキスト埋め込みのトレーニング - Unite.AI
私達と接続

プロンプトエンジニアリング

大規模な言語モデルを使用した改善されたテキスト埋め込みのトレーニング

mm

公開済み

 on

テキスト埋め込みは、意味論的な意味を捉えた単語、文、段落、またはドキュメントのベクトル表現です。これらは、情報検索、質問応答、意味検索などを含む、今日の多くの自然言語処理 (NLP) アプリケーションの中核となる構成要素として機能します。

ベクトル埋め込み

ベクトル埋め込み

GPT-3 のような大規模言語モデル (LLM) の最近の進歩により、少数ショット学習と自然言語生成において優れた機能が示されています。 LLM を活用してテキスト埋め込みの状態も進化させることはできるでしょうか?彼らの論文では「大規模な言語モデルによるテキスト埋め込みの改善」では、Microsoft の研究者が、LLM を使用して合成トレーニング データを生成し、それを微調整することで優れた結果を達成する新しい方法を提案しています。

既存の方法の課題

単語ベクトルの加重平均や TF-IDF などの従来のテキスト埋め込み手法では、テキスト内の豊富なコンテキスト情報を適切にキャプチャできません。 BERT のような事前トレーニングされた言語モデルに基づく最近の手法では、はるかに優れたコンテキスト認識型の埋め込みが得られます。

ただし、複雑な多段階のトレーニング パイプラインが必要です。

  • 数十億の弱いラベルが付けられたテキストまたは人工テキストのペアで事前トレーニング
  • 限られた手動で厳選されたデータセットを微調整する

これには、膨大なコンピューティング リソースとデータ収集のための人的労力が必要になります。トレーニング データには多様性と言語範囲の制約もあります。たとえば、BEIR ベンチマークは、英語の 15 個の検索タスクのみのデータセットで構成されています。

既存の手法では主に、バックボーン モデルとして小規模な BERT スタイルのアーキテクチャが使用されています。より高度な LLM や関連技術を利用することができません。

方法論: LLM を使用した合成データの生成

これらの制限を克服するために、研究者らは、GPT-3 や GPT-4 などの LLM を活用して多様な合成トレーニング データを生成する、新しい単一段階トレーニング アプローチを提案しています。

主な手順は次のとおりです。

  1. タスクの分類: テキスト埋め込みタスクを次のように分類する分類を定義します。
    • 非対称タスク (言い換えではないクエリとドキュメント、例: 検索)
    • 対称タスク (クエリとドキュメントは意味上の類似性などの言い換えです)
  2. プロンプトデザイン: LLM が関連するトレーニング サンプルを生成するようにガイドする、各タスク タイプに合わせたプロンプト テンプレートを作成します。
  3. 合成データの生成: 設計されたプロンプトを使用して LLM に指示を出し、93 言語にわたるさまざまなセマンティック タスクをカバーする数十万の (クエリ、ドキュメント) ペアを生成します。
  4. モデルトレーニング: コントラスト損失を使用して、合成データに対して Mistral などの強力なオープンソース LLM を微調整します。

この方法論により、人間によるラベル付けの労力を必要とせずに、複数の言語で多様なタスク用の十分なトレーニング データを作成できます。 Web スケールのコーパスでの事前トレーニングを通じて LLM にすでに組み込まれている知識を活用することで、テキスト埋め込み用に正確に調整された高品質のデータを合成できます。

研究者らは、次の 2 段階のプロンプト戦略を使用してこれを実証しています。

  • GPT-4 に潜在的な検索タスクを提案するよう促す

高レベルの取得タスクを生成するためのプロンプト

    高レベルの取得タスクを生成するためのプロンプト
  • 提案されたタスクに基づいて (クエリ、ドキュメント) サンプルを生成するよう再度プロンプトを表示します。

n (クエリ、ポジティブ、ハードネガティブ) トリプレットを生成します

    n (クエリ、ポジティブ、ハードネガティブ) トリプレットを生成します

プロンプト設計の重要な側面は次のとおりです。

  • 自然言語による直感的な人間のような指示
  • 多様性を促進するためのプレースホルダー (例: クエリの長​​さ、明確さ、ドキュメントの長さ)
  • 同じタスクタイプの複数のテンプレートのデータを結合する
  • 利用可能なリソースに基づいて言語を重み付けする

合計すると、500 億 180 万トークンの計算コストで 43 個のテキスト埋め込みサンプルを生成できました。主要な言語は英語 (XNUMX%) で、次にポーランド語、日本語、イタリア語などが続きました。

モデルのトレーニングでは、オープンソースの 7B パラメーターを微調整することを選択しました。 ミストラル より小さな BERT スタイルのアーキテクチャの代わりにモデルを使用します。 Mistral はすでに大規模なテキスト コーパスで事前トレーニングされているため、追加の対照的な事前トレーニングは必要ありませんでした。これを追加しても、わずかな改善しか得られませんでした。

合成データと人間がラベル付けしたデータを組み合わせて使用​​し、全体の微調整は 1 ステップ未満で完了しました。これは、提案されたアプローチのサンプル効率を示しています。

結果

研究者らは、分類、クラスタリング、意味的類似性、要約、情報検索にわたる多様なタスクをカバーする MTEB ベンチマークでモデルを評価しました。

彼らのモデル 以前の最先端技術を平均スコアで 2.4 ポイント上回りました、ほぼすべてのカテゴリーで新記録を樹立しました。

モデル前のSOTA提案モデル
Classification76.078.5
クラスタリング46.150.3
ペアワイズ分類87.188.3
再ランキング60.060.2
検索54.356.9
STS83.184.6
要約31.631.4
平均64.266.6

注目すべきことに、ラベル付きデータを一切使用せず、合成データのみでトレーニングしたにもかかわらず、完全教師付きモデルに比べてわずか 3.5 ポイントの差で、競争力のある精度を達成しました。これは、人間による注釈の労力を必要とせずに、LLM だけを使用してテキスト埋め込みを生成できる可能性を示しています。

研究者らは、18 言語をカバーする多言語 MIRACL ベンチマークでも評価しました。彼らのモデルは、高リソース言語ではこれまでの最高のパフォーマンスを上回りましたが、低リソース言語では劣っていました。彼らは、低リソース言語で LLM をより広範囲に事前トレーニングすることで、この問題を軽減できる可能性があると仮説を立てています。

要約すると、LLM で生成された合成データでトレーニングされたテキスト埋め込みは、従来の多段階アプローチと比較してよりシンプルで効率的なトレーニングを使用しながら、新しい最先端の結果を確立します。迅速なエンジニアリングと合成データの品質に関するさらなる研究により、この方法論は多言語テキストの埋め込みを大幅に進歩させる可能性があります。

分析

この研究は、いくつかの貴重な教訓を提供します。

  • GPT-3 や GPT-4 のような LLM は、適切なプロンプトが表示されたときに、さまざまな NLP タスク用の高品質の合成トレーニング データを生成する優れた機能を備えています。これにより、人間がラベル付けしたデータへの依存を減らすことができます。
  • テキスト埋め込みの場合、対照的な事前トレーニングは、すでに兆規模の事前トレーニングが行われている Mistral のようなモデルを微調整するだけで得られる効果はごくわずかです。これはトレーニングの効率性についての重要な洞察です。
  • 検索拡張生成方法により、LLM が外部の知識に動的にアクセスできるようになります。したがって、テキストの埋め込みを改善することは、これらの LLM を強化するのに役立ちます。
  • リソースの少ない言語には改善の余地が大きくあります。より代表的なデータで事前トレーニングされた多言語 LLM は、このギャップを埋めるのに役立つ可能性があります。
  • 概念的には、言語モデリングとテキスト埋め込みは、言語セマンティクスの理解という同じコインの表裏の関係にあります。合成データ プロンプトを使用すると、複雑なパイプラインを使用せずに、LLM をエンベッダーに有機的に微調整できます。

将来の取り組みの有望な方向性としては、次のようなものがあります。

  • GPT-NeoX などのオープンソース LLM を活用して合成データを生成する
  • エンベッダーをより長いコンテキストに適応させるための軽量ポストトレーニングの探索
  • 品質とタスク範囲を管理するための迅速なエンジニアリング技術の開発
  • 産業用の推論レイテンシーとストレージコストを改善する方法

ベンチマークを上回るだけでなく、大規模な言語モデルを採用してテキストの埋め込みを強化することで、将来の興味深い可能性が開かれます。 LLM が自然言語の習得において進歩を続けるにつれて、忠実度の高い合成データを生成する能力も向上する可能性があります。

しかし、この可能性を現実世界への影響に変換するための重要な研究の方向性は依然として残っています。

カスタマイズと制御

合成データの主な利点は、特定のニーズに合わせた例をプログラムで生成できることです。論文で実証されているように、プロンプト エンジニアリングにより、何十万もの埋め込みタスクのトレーニング データを作成できます。

しかし、現在のプロンプト デザインの実践は、依然として科学というよりも芸術に近いものです。生成されたデータの特性を正確に制御する体系的で再現可能な方法を開発すれば、この技術の適用可能性が拡大します。

たとえば、例の複雑さ、あいまいさ、新規性などの要素を調整する手法は、下流のタスクにおける堅牢性の問題に対処するのに役立つ可能性があります。進化する現実世界の分布に合わせて動的プロンプトを生成することも、未解決の課題です。

大規模なトレーニング

事前トレーニングされた LLM はすでにかなりの言語知識をエンコードしていますが、スケールを増やすことでデータ生成スキルがさらに強化される可能性があります。インターネット テキストの何兆ものトークンでトレーニングされた GPT-4 のようなモデルは、強力な少数ショット学習を示しますが、トレーニング データの合成に特化して最適化されていません。

Web スケールで自己教師ありデータ生成をブートストラップするように調整されたアーキテクチャと目標は、この方法論の品質と効率を大幅に向上させる可能性があります。取得した知識を効率的に統合して学習した知識を補完することも、有望な方向性の 1 つです。

マルチタスクと多言語

論文で指摘されているように、リソースの少ない言語でのパフォーマンスの向上は依然として課題です。単一の大規模な LLM を事前トレーニングするのではなく、特定のデータ モダリティまたは言語ドメインに特化した小規模なエキスパート モデルのフリートをトレーニングするという代替方法があります。

このようなアンサンブル アプローチは、専門家間で学習した表現を共有することで、まれなタスクや言語の範囲を改善するのに役立ちます。言語とタスクの専門知識を時間の経過とともに拡大するための継続的な学習も、刺激的な見通しです。

結論として、このペーパーでは、LLM からのトレーニング データを合成してパフォーマンスの高いテキスト埋め込みを作成するという革新的なコンセプトを紹介します。その結果は、この方法論の有効性を示しており、以前のベンチマークを上回っています。 LLM と合成データ技術が進歩するにつれ、その知識を活用してエンベッダーをトレーニングすることが、非常に有望な方向性になる可能性があります。

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。 私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェア エンジニアリング プロジェクトに貢献してきました。 私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。