ソートリーダー

LLMのベンチマーク

公開済み 2024 年 8 月 28 日

イリーナ・バルスカヤ Yandexの主任データサイエンティスト、博士

LLM パフォーマンス評価におけるベンチマークの役割と限界を理解します。堅牢な LLM を開発するための手法を探ります。

近年、大規模言語モデル（LLM）の人気が爆発的に高まっています。皆さんもご存知でしょう。LLMは人間の言語コマンドを理解する優れた能力を持ち、ビジネスにとってまさに完璧な統合ツールとなっています。重要なワークフローをサポートし、タスクを自動化して効率を最大限に高めます。さらに、平均的なユーザーの理解を超えた多くのことをLLMで実現できます。LLMへの依存度が高まるにつれて、必要な精度と信頼性を確保するための対策に、より一層注意を払う必要があります。これは組織全体に関係するグローバルな課題ですが、ビジネスの分野では、さまざまな領域にわたってLLMのパフォーマンスを評価するために使用できるベンチマークがいくつか存在します。これらのベンチマークは、モデルの理解力、論理構築能力、数学的能力などをテストすることができ、その結果に基づいてLLMがビジネス展開に適しているかどうかを判断します。

この記事では、LLM 評価の最も一般的なベンチマークの包括的なリストを集めました。各ベンチマークについて詳しく説明し、さまざまな LLM が評価基準に対してどのように評価されるかを見ていきます。しかし、まずは LLM 評価について詳しく理解しましょう。

LLM評価とは何ですか?

他のAIモデルと同様に、LLMも言語モデルのパフォーマンスの様々な側面（知識、精度、信頼性、一貫性）を評価する特定のベンチマークに基づいて評価する必要があります。この標準には通常、以下の項目が含まれます。

ユーザークエリの理解: 幅広いユーザー入力を正確に理解し解釈するモデルの能力を評価します。
出力検証: AI が生成した応答を信頼できる知識ベースと照合して、正確かつ関連性があることを確認します。
堅牢性： あいまい、不完全、またはノイズの多い入力に対してモデルがどの程度適切に機能するかを測定します。

LLM 評価により、開発者は制限を効率的に特定して対処できるようになり、全体的なユーザーエクスペリエンスを向上させることができます。LLM を徹底的に評価すると、あいまいな入力や予期しない入力を含むさまざまな実際のアプリケーションを処理できるほど正確で堅牢なものになります。

ベンチマーク

LLM は、現在までに最も複雑なテクノロジーの 1 つであり、最も難しいアプリケーションにも力を発揮します。したがって、評価プロセスも同様に複雑で、思考プロセスと技術的正確性が試されます。

ベンチマークでは、特定のデータセット、メトリック、評価タスクを使用して LLM のパフォーマンスをテストし、さまざまな LLM を比較してその精度を測定できるため、パフォーマンスの向上によって業界の進歩が促進されます。

LLM パフォーマンスの最も典型的な側面をいくつか示します。

知識モデルの知識は、様々な分野にわたってテストする必要があります。そのために知識ベンチマークが存在します。このベンチマークは、物理学、プログラミング、地理学など、様々な分野からモデルがどれだけ効果的に情報を想起できるかを評価します。
論理的 推論: モデルが段階的に「考え」、論理的な結論を導き出す能力をテストすることを意味します。通常、モデルが日常的な知識と論理的推論に基づいて最も妥当な継続または説明を選択しなければならないシナリオが含まれます。
読解モデルは自然言語の解釈に優れ、それに応じて応答を生成する必要があります。テストは、文章に基づいて質問に答え、理解、推論、詳細の保持を測定するようなものです。学校の読解テストのようなものです。
コードの理解: これは、モデルのコードの理解、記述、デバッグの能力を測定するために必要です。これらのベンチマークは、モデルが正確に解決する必要があるコーディングタスクまたは問題をモデルに与え、多くの場合、さまざまなプログラミング言語とパラダイムをカバーします。
世界の知識モデルが世界に関する一般的な知識をどの程度理解しているかを評価する。これらのデータセットは、正解するためには広範かつ百科事典的な知識が必要となる質問を含んでいるため、より具体的で専門的な知識ベンチマークとは異なります。

「知識」ベンチマーク

MMLU (マルチモーダル言語理解)

このベンチマークは、人文科学、社会科学、歴史、コンピューターサイエンス、さらには法律など、さまざまなトピックに関する LLM の事実知識の理解をテストするために作成されています。57 の質問と 15 のタスクはすべて、モデルが優れた推論機能を備えていることを確認することを目的としています。これにより、MMLU はさまざまなトピックを扱う LLM の事実知識と推論を評価するための優れたツールになります。

最近、これは上記の分野でLLMを評価するための重要なベンチマークとなっています。開発者は常にこのベンチマークで他のモデルを上回るようにモデルを最適化したいと考えており、これがLLMにおける高度な推論と知識を評価するための事実上の標準となっています。大規模なエンタープライズグレードのモデルは、印象的なスコアこのベンチマークでは、GPT-4-omni が 88.7%、Claude 3 Opus が 86.8%、Gemini 1.5 Pro が 85.9%、Llama-3 70B が 82% という結果が出ています。小型モデルは通常、このベンチマークではそれほど良いパフォーマンスを発揮せず、通常は 60～65% を超えることはありませんが、最近の Phi-3-Small-7b の 75.3% というパフォーマンスは注目に値します。

しかし、MMLUには欠点がないわけではありません。曖昧な質問などの既知の問題があります。不正解、コンテキストが欠落しています。また、一部のタスクは LLM の適切な評価には簡単すぎると考える人も多くいます。

MMLUのようなベンチマークは現実世界のシナリオを完全に描写するものではないことを明確にしておきたいと思います。LLMがこの点で高いスコアを獲得したとしても、必ずしもその分野の専門家になったことを意味するわけではありません。ベンチマークは対象範囲がかなり限定されており、多肢選択式の問題に頼ることが多く、現実世界の相互作用の複雑さや文脈を完全に捉えることはできません。真の理解には、事実を知り、その知識を動的に適用することが必要であり、これには批判的思考、問題解決、そして文脈理解が含まれます。こうした理由から、LLMはモデルがベンチマークの妥当性と有効性を維持するために、常に改良と更新を行う必要があります。

GPQA (大学院レベルの Google 対応 Q&A ベンチマーク)

このベンチマークは、LLMの論理的推論能力を、データセット質問はわずか 448 問です。分野の専門家が開発し、生物学、物理学、化学のトピックをカバーしています。

各質問は次の検証プロセスを経ます。

同じトピックの専門家が質問に答え、詳細なフィードバックを提供します。
質問作成者はこのフィードバックに基づいて質問を修正します。
2 人目の専門家が修正された質問に答えます。

このプロセスにより、質問が客観的で正確であり、言語モデルにとって挑戦的なものであることが実際に保証されます。経験豊富な博士号取得者でさえ、これらの質問の精度は 65% にしか達しませんが、GPT-4-omni は 53.6% にしか達せず、人間の知能と機械の知能のギャップが浮き彫りになっています。

資格要件が厳しいため、データセットは実際にはかなり小さく、正確性を比較するための統計的検出力が多少制限され、大きな効果サイズが必要になります。これらの質問を作成し検証した専門家は Upwork から来たため、専門知識と対象トピックに基づいてバイアスが生じた可能性があります。

コードベンチマーク

HumanEval

164のプログラミング問題、LLMのコーディング能力を実際にテストします。 HumanEvalこれは、大規模言語モデル (LLM) の基本的なコーディング能力をテストするように設計されています。生成されるコードの機能的正確性を判断するために pass@k メトリックを使用し、上位 k 個の LLM 生成コードサンプルのうち少なくとも 1 つがテストケースに合格する確率を出力します。

HumanEval データセットには関数シグネチャ、ドキュメント文字列、コード本体、およびいくつかの単体テストが含まれていますが、実際のコーディング問題がすべて含まれているわけではありません。そのため、さまざまなシナリオに対して正しいコードを作成するモデルの能力を適切にテストすることはできません。

MBPP (主に基本的な Python プログラミング)

メガバイトベンチマークは、クラウドソーシングされた 1,000 の Python プログラミング問題で構成されています。これらは初級レベルの問題であり、基本的なプログラミングスキルに焦点を当てています。モデルのパフォーマンスを評価するために、数回のショットと微調整のアプローチが使用され、通常、このデータセットでは大規模なモデルの方がパフォーマンスが向上します。ただし、データセットには主に初級レベルのプログラムが含まれているため、実際のアプリケーションの複雑さと課題を完全には表していません。

数学のベンチマーク

ほとんどの法学修士課程の学生は標準的な回答を組み立てるのが得意ですが、数学的推論は彼らにとってはるかに大きな問題です。なぜでしょうか? 質問の理解、数学的推論による段階的な論理的アプローチ、正しい答えを導き出すスキルが求められるからです。

「思考の連鎖」（CoT）法は、数学関連のベンチマークでLLMを評価するために考案された手法で、モデルに問題を解く際の推論プロセスを段階的に説明させるものです。この手法にはいくつかの利点があります。推論プロセスの透明性を高め、モデルのロジックの欠陥を特定しやすくし、問題解決能力をより詳細に評価できるようになります。複雑な問題を一連のより単純なステップに分解することで、CoTは数学ベンチマークにおけるモデルのパフォーマンスを向上させ、推論能力に関するより深い洞察を提供します。

GSM8K: 人気の数学ベンチマーク

LLM における数学能力を評価するためのよく知られたベンチマークの 8 つに、GSM8K データセットがあります。GSM8.5K は、中学数学の問題 4k 個で構成されており、解くには数ステップしかかからず、解決には主に一連の基本的な計算を実行することが含まれます。通常、大規模なモデルや数学的推論用に特別にトレーニングされたモデルは、このベンチマークで優れたパフォーマンスを発揮する傾向があります。たとえば、GPT-96.5 モデルは 7% のスコアを誇りますが、DeepSeekMATH-RL-88.2B は XNUMX% でわずかに遅れをとっています。

GSM8K は、小学校レベルの数学の問題を処理するモデルの能力を評価するのに役立ちますが、より高度で多様な数学の課題を解決するモデルの能力を完全には捉えられない可能性があり、そのため数学の能力の包括的な尺度としての有効性は制限されます。

数学データセット: 包括的な代替手段

数学データセットは、GSM8Kのようなベンチマークの欠点を解決しました。このデータセットはより広範囲で、初等算数から高校、大学レベルの問題までをカバーしています。また、人間と比較され、数学が苦手なコンピュータサイエンスの博士課程の学生の精度は40%、金メダリストの精度は90%でした。

これは、LLMの数学的能力をより包括的に評価するものです。モデルが基本的な算術に精通していること、そして代数、幾何学、微積分といった複雑な分野にも精通していることを証明します。しかし、問題の複雑性と多様性が高まると、特に幅広い数学的概念について明示的に訓練されていないモデルでは、高い精度を達成することが困難になる可能性があります。また、Mathデータセットにおける問題の形式が多様であることから、モデルのパフォーマンスに一貫性がなくなる可能性があり、モデルの全体的な数学的能力について明確な結論を導き出すことが非常に困難になります。

数学データセットとChain of Thought法を組み合わせることで、幅広い数学的課題における法学修士（LLM）の段階的な推論能力を明らかにすることができ、評価の質を高めることができます。このような組み合わせアプローチにより、法学修士（LLM）の真の数学的能力をより強固かつ詳細に評価することが可能になります。

読解力のベンチマーク

読解力評価は、複雑なテキストを理解し処理するモデルの能力を評価するもので、顧客サポート、コンテンツ生成、情報検索といったアプリケーションにとって特に重要です。このスキルを評価するために設計されたベンチマークはいくつかあり、それぞれ独自の属性を持ち、モデルの能力を包括的に評価するのに役立ちます。

RACE (試験からの読解データセット)

RACE ベンチマークには、28,000 歳から 100,000 歳の中国の中高生の英語試験から収集された約 12 の文章と 18 の質問が含まれています。与えられた文章から抽出される質問と回答に制限がないため、タスクはさらに難しくなります。

幅広いトピックと質問タイプをカバーしているため、徹底的な評価が可能で、さまざまな難易度の質問が含まれています。また、RACE の質問は人間の読解力をテストするために特別に設計されており、ドメインの専門家によって作成されています。

しかし、このベンチマークには欠点もあります。中国の教材に基づいて開発されているため、グローバルな状況を反映しない文化的偏見が入り込む傾向があります。また、一部の質問の難易度は高く、実際の典型的なタスクを反映していません。そのため、パフォーマンス評価はそれほど正確ではない可能性があります。

DROP (段落ごとの個別推論)

もう 96,000 つの重要なアプローチは DROP (Discrete Reasoning Over Paragraphs) です。これは、段落に対して離散推論を実行するモデルに課題を与えます。LLM の推論能力をテストするための XNUMX の質問があり、質問は Wikipedia から抽出され、Amazon Mechanical Turk からクラウドソーシングされます。DROP の質問では、多くの場合、文章全体に散らばっている情報に基づいて、加算、減算、比較などの数学的演算を実行するモデルが呼び出されます。

問題は難しいです。LLM は文章中の複数の数字を見つけ、それらを足し算または引き算して最終的な答えを出す必要があります。GPT-4 や palm などの大規模モデルは 80% と 85% を達成し、人間は DROP データセットで 96% を達成しています。

常識的なベンチマーク

言語モデルにおける常識のテストは興味深いだけでなく、人間的な推論と一致する判断や推論を行うモデルの能力を評価する上でも重要です。実践的な経験を通して包括的な世界モデルを構築する人間とは異なり、言語モデルは膨大なデータセットを用いて学習しますが、実際には文脈を本質的に理解しているわけではありません。そのため、言語モデルは、日常的な状況の直感的な把握、論理的推論、そして実践的な知識を必要とするタスクを苦手としています。これらは、堅牢で信頼性の高いAIアプリケーションにとって非常に重要です。

HellaSwag (敵対的な世代の状況に対する、よりハードな結末、より長いコンテキスト、および低ショットのアクティビティ)

Hellaswagは、ワシントン大学とアレン人工知能研究所のRowan Zellersらによって開発されました。これは、与えられたシナリオの最も妥当な継続を予測するモデルの能力をテストするために設計されています。このベンチマークは、敵対的フィルタリング（AF）を用いて構築されています。AFでは、一連の識別器が敵対的な機械生成の誤った回答を反復的に選択します。この手法は、人間にとっては些細な例であるものの、モデルにとっては難しいデータセットを作成し、「ゴルディロックス」な難易度ゾーンを生み出します。

ヘラスワグは以前のモデルでは困難でしたが、GPT-4 などの最先端のモデルは人間の精度に近いパフォーマンスレベルを達成しており、この分野で大きな進歩が見られます。ただし、これらの結果は、AI 機能の進歩に対応するためにベンチマークを継続的に進化させる必要があることを示唆しています。

オープンブック

Openbook データセットは、5957 件の初等レベルの理科の多肢選択問題で構成されています。これらの問題はオープンブック試験から収集され、対象科目に対する人間の理解度を評価するために開発されました。

Openbook ベンチマークでは、情報検索を超えた推論能力が求められます。GPT-4 は現時点で 95.9% という最高の精度を達成しています。

OpenbookQA はオープンブック試験をモデルにしており、5,957 問の多肢選択式の初級レベルの科学問題で構成されています。これらの問題は、1,326 の核となる科学事実の理解と、新しい状況への応用を探るように設計されています。

Hellaswag と同様に、以前のモデルでは OpenbookQA は困難でしたが、GPT-4 などの最新のモデルは人間に近いパフォーマンスレベルを達成しています。この進歩は、AI 理解の限界を押し広げ続けるために、さらに複雑で微妙なベンチマークを開発することの重要性を強調しています。

LLM パフォーマンス評価にはベンチマークで十分でしょうか?

はい、それらは LLM のパフォーマンスを評価するための標準化されたアプローチを提供しますが、誤解を招く可能性もあります。Large Model Systems Organization は、優れた LLM ベンチマークはスケーラブルで、比較的少ない試行回数で新しいモデルを評価でき、すべてのモデルに一意のランキング順序を提供できる必要があると述べています。しかし、それだけでは十分ではない理由がいくつかあります。以下にいくつか挙げます。

ベンチマーク漏洩

これはよくあるケースで、トレーニングデータがテストデータと重複して、誤った評価が行われる場合に発生します。トレーニング中にモデルがすでにいくつかのテスト問題に遭遇している場合、その結果は実際の機能を正確に反映していない可能性があります。ただし、理想的なベンチマークは、記憶を最小限に抑え、現実のシナリオを反映する必要があります。

評価バイアス

LLMベンチマークのリーダーボードは、様々なタスクにおけるLLMのパフォーマンスを比較するために使用されます。しかし、モデルの比較にこれらのリーダーボードに頼るのは危険です。誤解を招くベンチマークテストで質問の順序を変更するなどの単純な変更により、モデルのランキングが最大 8 位まで変わる可能性があります。また、LLM は採点方法によってパフォーマンスが異なる場合があり、評価バイアスを考慮することの重要性が強調されます。

オープンエンド

現実世界の LLM インタラクションには、望ましい AI 出力を生成するためのプロンプトの設計が含まれます。LLM 出力はプロンプトの有効性に依存し、ベンチマークは LLM のコンテキスト認識をテストするように設計されています。ベンチマークは LLM のコンテキスト認識をテストするように設計されていますが、必ずしも現実世界のパフォーマンスに直接つながるわけではありません。たとえば、LSAT などのベンチマークデータセットで 100% のスコアを達成したモデルは、実際のアプリケーションで同じレベルの精度を保証するものではありません。これは、LLM 評価において現実世界のタスクのオープンエンドな性質を考慮することの重要性を強調しています。

堅牢なLLMのための効果的な評価

ベンチマークは必ずしもすべての問題に一般化できるわけではないため、必ずしも最良の選択肢ではないことがお分かりいただけたと思います。しかし、他の方法もあります。

カスタムベンチマーク

これらは、タスク固有のシナリオにおける特定の動作や機能をテストするのに最適です。例えば、LLMが医療従事者向けに設計されている場合、医療現場から収集されたデータセットは、現実世界のシナリオを効果的に再現します。これらのカスタムベンチマークは、ドメイン固有の言語理解、パフォーマンス、そして固有のコンテキスト要件に焦点を当てることができます。ベンチマークを現実世界のシナリオと整合させることで、LLMが全体的に優れたパフォーマンスを発揮し、想定される特定のタスクにおいて優れたパフォーマンスを発揮することを保証できます。これにより、モデルの機能におけるギャップや弱点を早期に特定し、対処するのに役立ちます。

データ漏洩検出パイプライン

評価結果の整合性を「示す」ためには、データ漏洩のないベンチマークパイプラインが非常に重要です。ベンチマークデータがモデルの事前学習コーパスに含まれるとデータ漏洩が発生し、人為的に高いパフォーマンススコアが生成されます。これを回避するには、ベンチマークデータを事前学習データと相互参照する必要があります。さらに、過去に確認された情報を回避するための対策も講じる必要があります。これには、モデルの学習パイプラインとは別に保管されている独自のデータセットや、新たにキュレーションされたデータセットの使用が含まれます。これにより、得られるパフォーマンス指標がモデルの優れた汎化能力を反映することが保証されます。

人間の評価

自動化された指標だけでは、モデルのパフォーマンスの全容を捉えることはできません。特に、言語理解と生成という非常に微妙で主観的な側面に関してはなおさらです。人間による評価の方が、はるかに優れた評価となります。

専門家の採用 特に専門分野において、詳細かつ信頼性の高い評価を提供できます。
クラウドソーシング! Amazon Mechanical Turk のようなプラットフォームを使用すると、人間の多様な判断を迅速かつ低コストで収集できます。
コミュニティのフィードバック: ユーザーが投票してモデルを比較できる LMSYS リーダーボードアリーナなどのプラットフォームを使用すると、洞察力がさらに高まります。たとえば、LMSYS Chatbot Arena Hard は、ユーザーとの直接的なやり取りや投票を通じて、トップモデル間の微妙な違いを浮き彫りにするのに特に効果的です。

まとめ：

評価とベンチマークがなければ、LLM が現実世界のタスクを処理する能力が、私たちが考えているほど正確で適用可能であるかどうかを知る方法はありません。しかし、前述したように、ベンチマークはそれをチェックするための完全に確実な方法ではなく、LLM のパフォーマンスにギャップが生じる可能性があります。これにより、実際に作業に適した LLM の開発が遅れる可能性もあります。

理想的な世界では、こうあるべきです。LLM はユーザーのクエリを理解し、プロンプトのエラーを識別し、指示どおりにタスクを完了し、信頼性の高い出力を生成します。結果はすでに素晴らしいものですが、理想的ではありません。ここで、タスク固有のベンチマークが、人間による評価やベンチマーク漏れの検出と同様に非常に役立つことが証明されます。これらを使用することで、実際に堅牢な LLM を作成する機会が得られます。

関連トピック：AIベンチマーク AIパフォーマンスベンチマーク LLM LLMパフォーマンス監視

次に

感情分析は金融市場の動向を予測するのに効果的ですか?

お見逃しなく

オンプレミスデータレイクハウスアーキテクチャの理解

イリーナ・バルスカヤ博士、Yandex 主任データサイエンティスト

イリーナ・バルスカヤ博士は、製品分析と最先端技術の分析の両方を網羅する10年以上の経験を持つ著名なデータサイエンティストです。彼女は、サウジアラビア初の完全に機能するローカライズされたAIベースの音声アシスタントであるYasminaの開発と分析を主導し、現代標準アラビア語とサウジアラビア方言の複雑なデータローカリゼーションとラベル付けを担当しました。現在、イリーナは品質分析を率いています。 YandexのAI技術の進歩を推進します。