Artificial Intelligence

大規模な言語モデルの評価: テクニカルガイド

公開済み

3ヶ月前

2024 年 1 月 29 日

GPT-4、Claude、LLaMA などの大規模言語モデル (LLM) の人気が爆発的に高まりました。これらの AI システムは、印象的に人間のようなテキストを生成する能力のおかげで、現在、コンテンツ作成から顧客サービスのチャットボットに至るまで、あらゆる用途に使用されています。

しかし、これらのモデルが実際に良いものであるかどうかをどうやって知ることができるのでしょうか?新しい LLM が絶えず発表され、どれもより大きく、より優れていると主張していますが、そのパフォーマンスをどのように評価し比較すればよいでしょうか?

この包括的なガイドでは、大規模な言語モデルを評価するための主要なテクニックを探ります。各アプローチの長所と短所、それらをいつ適用するのが最適か、および独自の LLM テストでそれらをどのように活用できるかを見ていきます。

タスク固有のメトリクス

LLM を評価する最も簡単な方法の 1 つは、標準化されたメトリクスを使用して、確立された NLP タスクで LLM をテストすることです。例えば：

要約

要約タスクの場合、次のような指標 RED （要点評価のための想起指向のアンダースタディ）が一般的に使用されます。 ROUGE は、モデルが生成した要約を人間が書いた「参照」要約と比較し、単語やフレーズの重複を数えます。

ROUGE にはいくつかのフレーバーがあり、それぞれに長所と短所があります。

ルージュン： N グラム (N 個の単語のシーケンス) の重複を比較します。 ルージュ-1 ユニグラム (単一の単語) を使用します。 ルージュ-2 バイグラムなどを使用します。利点は語順を把握できることですが、厳密すぎる可能性があります。
ルージュL： 最長共通部分列 (LCS) に基づいています。語順はより柔軟ですが、要点に焦点を当てています。
ルージュW： LCS 一致を重要度に基づいて重み付けします。 ROUGE-Lの改良を試みます。

一般に、ROUGE メトリクスは高速かつ自動であり、ランキングシステムの概要に適しています。ただし、一貫性や意味は測定されません。要約は高い ROUGE スコアを取得しても、依然として無意味である可能性があります。

ROUGE-N の計算式は次のとおりです。

$ルージュン = Σ ^{s \in {参考資料の概要}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {参考資料の概要}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

どこ：

Count_{match}(gram_n) 生成されたサマリーと参照サマリーの両方における N グラムの数です。
Count(gram_n) は、参照概要内の N グラムの数です。

たとえば、ROUGE-1 (ユニグラム) の場合:

生成された概要: 「猫は座っていました。」
参考概要：「猫はマットの上に座りました。」
重複するユニグラム: 「The」、「cat」、「sat」
ROUGE-1 スコア = 3/5 = 0.6

ルージュL 最長共通部分列 (LCS) を使用します。語順がより柔軟になります。式は次のとおりです。

$ルージュL = max(長さ(生成), 長さ(参照)) L CS ( 生成された , 参照 )$

場所 LCS 最長の共通部分列の長さです。

ルージュW LCS が一致する重み付けを行います。 LCS の各試合の重要性が考慮されます。

インタビュー

機械翻訳タスクの場合、 BLUE (バイリンガル評価アンダースタディ) は一般的な指標です。 BLEU は、N グラムの精度と簡潔さのペナルティを使用して、モデルの出力翻訳とプロによる人間の翻訳との類似性を測定します。

BLEU の仕組みの重要な側面:

最大 4 の n について、n グラムの重複を比較します (ユニグラム、バイグラム、トリグラム、4 グラム)。
N グラム精度の幾何平均を計算します。
翻訳が参照よりも大幅に短い場合は、簡潔さのペナルティを適用します。
通常、範囲は 0 ～ 1 で、1 は参照と完全に一致します。

BLEU は、翻訳品質に関する人間の判断とかなりよく相関しています。しかし、それでも制限があります。

基準に対する精度のみを測定し、再現率や F1 は測定しません。
異なる表現を使用した創造的な翻訳に苦労しています。
翻訳トリックによる「ゲーム」の影響を受けやすい。

METEOR や TER などの他の変換指標は、BLEU の弱点を改善しようとしています。しかし一般に、自動指標では翻訳の品質を完全には把握できません。

その他の作業

要約と翻訳に加えて、F1、精度、MSE などのメトリクスを使用して、次のようなタスクの LLM パフォーマンスを評価できます。

テキスト分類
情報抽出
質問に答える
感情分析
文法エラーの検出

タスク固有のメトリクスの利点は、次のような標準化されたデータセットを使用して評価を完全に自動化できることです。 スクワッド QAと GLUE さまざまなタスクのベンチマーク。モデルが改善されるにつれて、結果を時間の経過とともに簡単に追跡できます。

ただし、これらの指標は狭い範囲に焦点を当てているため、全体的な言語の品質を測定することはできません。単一タスクのメトリクスでは良好なパフォーマンスを示す LLM は、一般に、一貫性のある論理的で役立つテキストの生成に失敗する可能性があります。

研究ベンチマーク

LLM を評価する一般的な方法は、さまざまなトピックやスキルをカバーする広範な研究ベンチマークに対して LLM をテストすることです。これらのベンチマークにより、モデルを大規模に迅速にテストできます。

よく知られているベンチマークには次のようなものがあります。

強力接着剤 – 11 の多様な言語タスクからなる挑戦的なセット。
GLUE – 9 つの文理解タスクのコレクション。 SuperGLUE よりも簡単です。
MMLU – 57 の異なる STEM、社会科学、人文科学のタスク。知識と推論能力をテストします。
Winograd スキーマチャレンジ – 常識的な推論を必要とする代名詞解決の問題。
ARC – 自然言語推論の挑戦的なタスク。
ヘラスワグ – 状況に関する常識的な推論。
ピカ – 図を必要とする物理の問題。

このようなベンチマークで評価することで、研究者はモデルの数学、論理、推論、コーディング、常識などを実行する能力を迅速にテストできます。正解した質問の割合は、モデルを比較するためのベンチマーク指標になります。

ただし、ベンチマークに関する大きな問題は次のとおりです。 トレーニングデータの汚染。多くのベンチマークには、事前トレーニング中にモデルによってすでに確認された例が含まれています。これにより、モデルは「暗記する」特定の質問に答え、実際の能力よりも優れたパフォーマンスを発揮します。

「」という試みが行われています。除染重複する例を削除してベンチマークを実行します。しかし、特にモデルが質問の言い換えまたは翻訳されたバージョンを見た可能性がある場合、これを包括的に行うのは困難です。

したがって、ベンチマークは幅広いスキルを効率的にテストできますが、真の推論能力を確実に測定したり、汚染によるスコアのインフレを回避したりすることはできません。補完的な評価方法が必要です。

LLM の自己評価

興味深いアプローチは、LLM に別の LLM の出力を評価させることです。アイデアは、「より簡単な」タスクの概念を活用することです。

LLM にとって高品質の出力を生成するのは難しい場合があります。
ただし、特定の出力が高品質であるかどうかを判断するのは簡単な作業です。

たとえば、LLM は事実に基づいた一貫した段落を最初から生成するのに苦労するかもしれませんが、特定の段落が論理的に意味があり、コンテキストに適合しているかどうかをより簡単に判断できます。

したがって、プロセスは次のとおりです。

入力プロンプトを最初の LLM に渡して出力を生成します。
入力プロンプトと生成された出力を 2 番目の「評価者」LLM に渡します。
評価者 LLM に質問をして、出力品質を評価します。例: 「上記の応答は論理的に意味がありますか?」

このアプローチは実装が早く、LLM 評価を自動化します。しかし、いくつかの課題もあります。

パフォーマンスは、評価者 LLM の選択とプロンプトの文言に大きく依存します。
元のタスクの難易度によって制限されます。 LLM にとって、複雑な推論を評価することは依然として困難です。
API ベースの LLM を使用する場合、計算コストが高くなる可能性があります。

自己評価は、検索された情報を評価する場合に特に有望です。 RAG (検索拡張世代) システム。追加の LLM クエリでは、取得されたコンテキストが適切に使用されているかどうかを検証できます。

全体として、自己評価は可能性を示していますが、実装には注意が必要です。それは人間の評価に取って代わるのではなく、補完するものです。

人間の評価

自動化されたメトリクスとベンチマークの限界を考慮すると、LLM の品質を厳密に評価するためのゴールドスタンダードは依然として人間による評価です。

専門家は以下について詳細な定性的評価を提供できます。

正確さと事実の正しさ
論理、推論、常識
一貫性、一貫性、読みやすさ
口調、スタイル、声の適切さ
文法性と流暢さ
創造性とニュアンス

モデルを評価するために、人間には一連の入力プロンプトと LLM が生成した応答が与えられます。多くの場合、評価尺度やルーブリックを使用して、回答の質を評価します。

欠点は、人による手動評価は費用がかかり、時間がかかり、拡張するのが難しいことです。また、標準化された基準を開発し、それを一貫して適用できるように評価者を訓練することも必要です。

研究者の中には、人々がモデル間の対戦に賭けて判断するトーナメント形式のシステムを使用して、人間による LLM 評価をクラウドファンディングする創造的な方法を模索している人もいます。ただし、完全な手動評価と比較すると、対象範囲は依然として限られています。

生のスケールよりも品質が重要なビジネスユースケースでは、コストがかかるにもかかわらず、専門家による人間によるテストが依然としてゴールドスタンダードです。これは、LLM のリスクの高いアプリケーションに特に当てはまります。

まとめ

大規模な言語モデルを徹底的に評価するには、単一の手法に依存するのではなく、補完的な手法からなる多様なツールキットを使用する必要があります。

速度を重視した自動化されたアプローチと、精度を追求した人間による厳密な監視を組み合わせることで、大規模な言語モデルの信頼できるテスト手法を開発できます。堅牢な評価により、責任を持ってリスクを管理しながら、LLM の膨大な可能性を引き出すことができます。

関連トピック：AI GPT ラマメトリクス

次に

誤った情報の時代を乗り切る: データ中心の生成 AI の事例

お見逃しなく

大規模言語モデルのサーバーレス推論の将来

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。