人工知能

大規模言語モデルを評価する:技術ガイド

mm
Evaluating Large Language Models

大規模言語モデル(LLM) seperti GPT-4、Claude、LLaMAは、驚くほど人間らしいテキストを生成する能力により、爆発的に人気を博しています。これらのAIシステムは、コンテンツ作成からカスタマーサービスチャットボットまで、さまざまな用途で使用されています。

しかし、これらのモデルが本当に優れているかどうかを判断するにはどうすればよいのでしょうか?新しいLLMが不断に発表され、すべてがより大規模で優れていると主張しているので、これらのモデルのパフォーマンスを評価して比較するにはどうすればよいのでしょうか。

この総合ガイドでは、大規模言語モデルの評価に使用する主要なテクニックを探求します。各アプローチの長所と短所を調べ、いつそれらを適用するか、またそれらをLLMテストにどのように活用できるかを見ていきます。

タスク固有のメトリック

LLMを評価する最も直接的な方法の1つは、標準化されたメトリックを使用して既存のNLPタスクでテストすることです。たとえば、

要約

要約タスクの場合、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)などのメトリックが一般的に使用されます。ROUGEは、モデル生成の要約と人間が書いた「参照」要約を比較し、単語またはフレーズの重なりを数えます。

ROUGEにはいくつかのバリエーションがあり、それぞれに長所と短所があります。

  • ROUGE-N: n-gram(N個の単語のシーケンス)の重なりを比較します。ROUGE-1は単語(unigrams)を使用し、ROUGE-2は2つの単語(bigrams)を使用します。利点は、単語の順序を捉えることができるが、厳しすぎる可能性があります。
  • ROUGE-L: 最長共通サブシーケンス(LCS)に基づいています。単語の順序に対してより柔軟ですが、主なポイントに焦点を当てています。
  • ROUGE-W: LCSのマッチを重み付けします。ROUGE-Lを改善しようとします。

一般的に、ROUGEメトリックは高速で自動的であり、システムの要約をランク付けするのに適しています。ただし、連続性や意味を測定しません。要約が高いROUGEスコアを得ることができても、まだ無意味である可能性があります。

ROUGE-Nの式は次のとおりです。

ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑

ここで、

  • Count_{match}(gram_n)は、生成された要約と参照要約の両方に含まれるn-gramの数です。
  • Count(gram_n)は、参照要約に含まれるn-gramの数です。

たとえば、ROUGE-1(単語)については、

  • 生成された要約: “猫は座っていた。”
  • 参照要約: “猫はマットの上に座っていた。”
  • 重なり合う単語: “猫”、”座っていた”
  • ROUGE-1スコア = 3/5 = 0.6

ROUGE-Lは、最長共通サブシーケンス(LCS)を使用します。単語の順序に対してより柔軟です。式は次のとおりです。

ROUGE-L=���(generated,reference)max(length(generated), length(reference))

ここで、LCSは、最長共通サブシーケンスの長さです。

ROUGE-Wは、LCSのマッチを重み付けします。LCS内の各マッチの重要性を考慮します。

翻訳

機械翻訳タスクの場合、BLEU(Bilingual Evaluation Understudy)が一般的に使用されるメトリックです。BLEUは、モデル出力の翻訳と専門家による人間の翻訳の類似性を、n-gram精度と簡潔性ペナルティを使用して測定します。

BLEUの動作の重要な側面:

  • n-gramの重なりをnが4まで(単語、2つの単語、3つの単語、4つの単語)比較します。
  • n-gram精度の幾何平均を計算します。
  • 翻訳が参照よりもはるかに短い場合に、簡潔性ペナルティを適用します。
  • 一般的に、0から1の範囲で、1が参照との完全な一致を表します。

BLEUは、翻訳の品質に対する人間の判断と妥当に相関しています。しかし、限界があります。

  • 参照に対する精度のみを測定し、再現率やF1スコアは測定しません。
  • 異なる単語を使用した創造的な翻訳に苦労します。
  • 「操作」に弱いです。

他の翻訳メトリック、たとえばMETEORやTERは、BLEUの弱点を改善しようとします。しかし、一般的に、自動メトリックは翻訳の品質を完全に捉えることはできません。

その他のタスク

要約と翻訳に加えて、F1、精度、MSEなどのメトリックを使用して、LLMのパフォーマンスを次のようなタスクで評価できます。

  • テキスト分類
  • 情報抽出
  • 質問回答
  • 感情分析
  • 文法的エラー検出

タスク固有のメトリックの利点は、評価が標準化されたデータセットを使用して完全に自動化できることです。SQuADのようなQAやGLUEベンチマークのようなタスクの範囲で結果を簡単に追跡できます。

ただし、これらのメトリックは狭い焦点を持っており、全体的な言語の品質を測定できません。単一のタスクのメトリックで優れているLLMは、一般的なコンテキストで論理的で役立つテキストを生成することに失敗する可能性があります。

研究ベンチマーク

LLMを評価する一般的な方法は、さまざまなトピックやスキルを網羅する包括的な研究ベンチマークを使用することです。これらのベンチマークにより、モデルを迅速に大規模にテストできます。

いくつかの有名なベンチマークには、次のものがあります。

  • SuperGLUE – 多様な11の言語タスクの難しいセット。
  • GLUE – 9つの文理解タスクのコレクション。SuperGLUEよりも簡単です。
  • MMLU – 57の異なるSTEM、社会科学、人文科学のタスク。知識と推論能力をテストします。
  • Winograd Schema Challenge – 共通の意味の推論を必要とする代名詞解決問題。
  • ARC – 自然言語推論タスクの難しいもの。
  • Hellaswag – 状況に関する共通の意味の推論。
  • PIQA – 図を必要とする物理学の質問。

これらのベンチマークで評価することで、研究者は、モデルが数学、論理、推論、コーディング、共通の意味、などを実行する能力を迅速にテストできます。正しく回答された質問の割合が、モデルを比較するためのベンチマークメトリックになります。

ただし、ベンチマークには、トレーニングデータの汚染という大きな問題があります。多くのベンチマークには、すでにモデルが事前トレーニング中に見た例が含まれています。これにより、モデルは特定の質問に対する答えを「暗記」し、実際の能力よりも優れて見える可能性があります。

ベンチマークから重複する例を削除して「汚染を除去」する試みが行われています。しかし、特にモデルが質問の言い換えや翻訳バージョンを見た場合には、これを包括的に行うことは困難です。

したがって、ベンチマークは幅広いスキルを効率的にテストできますが、汚染によりスコアのインフレーションを避けることはできません。補足的な評価方法が必要です。

LLMの自己評価

面白いアプローチは、LLMが別のLLMの出力を評価することです。アイデアは、「より簡単なタスク」の概念を利用することです。

  • 高品質の出力を生成することは、LLMにとって難しい場合があります。
  • しかし、与えられた出力が高品質であるかどうかを判断することは、より簡単なタスクである可能性があります。

たとえば、LLMは、事実的で論理的な段落を最初から生成するのに苦労するかもしれませんが、与えられた段落が論理的に意味を成し、コンテキストに適しているかどうかを判断することは、より簡単です。

したがって、プロセスは次のとおりです。

  1. 入力プロンプトを最初のLLMに渡して出力を生成します。
  2. 入力プロンプトと生成された出力を「評価者」LLMに渡します。
  3. 評価者LLMに、出力の品質を評価する質問をします。たとえば、「上記の応答は論理的に意味を成しますか?」

このアプローチは、迅速に実装でき、LLMの評価を自動化します。しかし、課題もあります。

  • 評価者LLMとプロンプトの選択に大きく依存します。
  • 元のタスクの難しさに制限されます。複雑な推論を評価することは、LLMにとってまだ難しいです。
  • APIベースのLLMを使用する場合は、計算コストが高くなる可能性があります。

自己評価は、特にシステムで取得された情報を評価する場合に、特に有望です。追加のLLMクエリを使用して、取得されたコンテキストが適切に使用されていることを検証できます。

全体として、自己評価は潜在性がありますが、注意深い実装が必要です。これは、人間の評価を置き換えるのではなく、補足するものです。

人間の評価

自動メトリックとベンチマークの限界を考えると、人間の評価はまだLLMの品質を厳格に評価するための金標準です。

専門家は、次の点について詳細な定性的評価を提供できます。

  • 正確性と事実的正しさ
  • 論理、推論、共通の意味
  • 一貫性、連続性、読みやすさ
  • トーン、スタイル、声の適切性
  • 文法的正しさと流暢さ
  • 創造性とニュアンス

モデルを評価するには、人間に一連の入力プロンプトとLLM生成の応答を提示します。人間は応答の品質を評価し、通常は評価尺度とルーブリックを使用します。

欠点は、手動での人間の評価が高価で遅く、スケールアップが難しいことです。また、標準化された基準を開発し、評価者をそれらを一貫して適用するように訓練する必要があります。

いくつかの研究者は、モデルの対決をベットして評価するトーナメント方式のシステムを使用して、人間のLLM評価をクラウドソーシングする創造的な方法を探索しています。しかし、完全な手動評価と比較して、カバレッジはまだ限られています。

品質が重要なビジネス用途では、専門家による人間のテストがまだ金標準です。これは、LLMのリスクが高くなる用途では特に当てはまります。

結論

LLMを徹底的に評価するには、補足的な方法の多様なツールキットを使用する必要があります。単一のテクニックに頼るのではなく、自動アプローチを人間の監視と組み合わせて、信頼性の高いテスト方法論を開発できます。堅牢な評価により、LLMの潜在能力を解き放ち、リスクを責任を持って管理できます。

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することになりました。私の継続的な好奇心は、自然言語処理という分野にも私を引き付け、さらに探求したいと思っています。