人工知能
AIベンチマークがモデルに嘘を教える時

AIホールュシネーション — システムが正しそうに聞こえるが実際に誤った答えを生み出す — は、人工知能の最も難しい課題の1つです。今日の最も高度なモデル、たとえば DeepSeek-V3、Llama、およびOpenAIの最新のリリースも、高い信頼性で不正確な情報を生み出します。ヘルスケアや法律などの分野では、これらのミスは深刻な結果につながる可能性があります。
伝統的に、ホールュシネーションは、大規模な言語モデルが訓練される方法の副産物と見なされてきました。彼らは、情報が真実であるかどうかを確認することなく、次に最も可能性の高い単語を予測することを学びます。しかし、新しい研究は、この問題が訓練に止まらない可能性があることを示唆しています。AIのパフォーマンスをテストし、比較するために使用されるベンチマークは、実際に誤解を招く動作を強化し、正確なものではなく、説得力のある答えを報奨しています。
この視点の転換は、問題を再定義します。如果モデルはテストを満たすために訓練されるのであれば、ホールュシネーションは偶発的な欠陥ではなく、学習された戦略です。このことが起こる理由を理解するために、AIモデルがなぜ無知を認めるのではなく、推測するのかを見てみましょう。
AIモデルが推測する理由
AIモデルがなぜ無知を認めるのではなく、推測するのかを理解するために、難しい試験問題に直面した学生を考えてみましょう。学生には2つの選択肢があります。答えを空白のままにして0点を取るか、ある程度の信用がある推測を行うかです。合理的には、推測する方が良い選択肢のようです。なぜなら、正解する可能性があるからです。
AIモデルも評価中に同様の状況に直面します。ほとんどのベンチマークは二値のスコアリングシステムを使用します。正解はポイントを獲得しますが、不正解または不確かな回答は何も獲得しません。如果モデルに「ある研究者の誕生日は何ですか?」と問われて、本当に知らない場合は、「知らない」と答えることは失敗とみなされます。ただし、誕生日をでたらめに答えることは、正解する可能性があります。もし間違っていたとしても、システムは自信のある推測を罰することはありません。
このダイナミクスは、ホールュシネーションが広範な研究にもかかわらず、持続する理由を説明しています。モデルは不正行為を行っているのではなく、評価に組み込まれたインセンティブに従っているのです。彼らは、答えが誤りであっても、自信を持って答えることがスコアを最大化する最善の方法であることを学習します。結果として、モデルは不確実性を表現するのではなく、正しいかどうかに関係なく、権威的な声明を出すように促されます。
AIの不誠実さの数学的基礎
研究は、ホールュシネーションが言語モデルの学習の数学的基礎から生じることを示しています。モデルが完全に正確な情報でしか訓練されていなくても、その統計的目的は依然として誤りにつながります。なぜなら、正しい答えを生成することは、答えが有効であるかどうかを認識するよりも本質的に難しいからです。
これは、モデルが明確なパターンが欠如する事実、たとえば誕生日や他のユニークな詳細で、しばしば失敗する理由を説明するのに役立ちます。数学的分析によると、これらのケースでのホールュシネーションの率は、訓練データで一度だけ出現する事実の割合と同じくらい高いはずです。言い換えると、データでの情報の希少性が高ければ高いほど、モデルがそれに苦労する可能性は高くなります。
問題は希少な事実に限定されません。モデル容量やアーキテクチャ設計などの構造的制約も、システム的なエラーを生み出します。たとえば、以前のモデルは非常に短いコンテキストウィンドウで、長距離の推論を必要とするタスクで一貫して失敗しました。これらのミスは、ランダムな故障ではなく、モデルの数学的フレームワークの予測可能な結果でした。
ポストトレーニングが問題を解決しない理由
AIモデルが大量のテキストデータセットで訓練された後、通常は出力をより有用で、有害でないようにするためにファインチューニングを行います。しかし、このプロセスは、ホールュシネーションを引き起こす根本的な問題と同じです。モデルの評価方法です。
最も一般的なファインチューニング方法、たとえば人間のフィードバックからの強化学習も、依然として二値のスコアリングを使用するベンチマークに依存しています。これらのベンチマークは、モデルに自信を持って答えることを報奨しますが、モデルが無知を認めることは何の報奨もありません。したがって、常に自信を持って回答するシステム、たとえそれが間違っているとしても、不確実性を表明するシステムよりも優れています。
研究者はこれを不確実性を罰する問題と呼びます。ホールュシネーションの検出または削減のための高度なテクニックも、根本的なベンチマークが依然として過信を好む限り、苦労します。言い換えると、どれほど洗練された修正であっても、評価システムが自信を持った推測を報奨し続ける限り、モデルは誤ったが確実な答えよりも、真実の不確実性の告白を好む傾向にあります。
進歩の幻想
AIコミュニティで広く共有されているリーダーボードは、この問題を悪化させます。ベンチマーク、たとえばMMLU、GPQA、およびSWE-benchは、研究論文や製品発表で支配的な地位を占めています。企業はスコアを強調して急速な進歩を示しています。しかし、報告書は、これらのベンチマーク自体がホールュシネーションを促進していることを指摘しています。
「知らない」と正直に答えるモデルは、現実の状況ではより安全かもしれませんが、リーダーボードではランクが低くなります。一方、説得力のあるが誤った答えをでたらめに答えるモデルは、スコアが高くなります。採用、資金調達、名声がリーダーボードのランキングに依存する場合、進歩の方向性が歪んでしまいます。一般大衆は、継続的な改善の物語を見ていますが、実際にはモデルは欺瞞するように訓練されています。
AIにおける誠実な不確実性の重要性
ホールュシネーションは、研究上の課題だけではなく、現実の結果をもたらします。ヘルスケアでは、モデルが薬物の相互作用をでたらめに答えることが医師を欺く可能性があります。教育では、歴史的事実をでたらめに答えるモデルは生徒を誤解させる可能性があります。ジャーナリズムでは、偽の nhưng 説得力のある引用を生み出すチャットボットは、誤情報を広める可能性があります。これらのリスクはすでに現れています。スタンフォードAIインデックス2025は、ホールュシネーションを測定するために設計されたベンチマークが「普及しづらい」ことを報告しています。同時に、リーダーボードを支配し、自信のあるが信頼できない答えを報奨するベンチマークが、進歩の方向性を決定し続けています。
これらの発見は、課題と機会の両方を強調しています。ホールュシネーションの数学的根源を調査することで、研究者はより信頼性の高いAIシステムを構築するための明確な方向性を特定しました。鍵は、不確実性を欠陥と見なすのではなく、評価および報奨されるべき重要な能力として認識することです。
この視点の転換は、ホールュシネーションの削減を超えた影響をもたらします。自らの知識の限界を正確に評価および伝達できるAIシステムは、高いリスクを伴う医療、法律、科学研究などの分野でより適切になります。
誠実なAIのための評価の再考
これらの発見は、より信頼性の高いAIを構築するには、AIの能力を測定する方法を再考する必要があることを強調しています。単純な正解/不正解のスコアリングに頼るのではなく、評価フレームワークはモデルが適切に不確実性を表現することを報奨する必要があります。これには、ベンチマークの指示書に、信頼性のしきい値と対応するスコアリングスキームに関する明確なガイダンスを提供することが含まれます。
一つの有望なアプローチは、明示的な信頼性ターゲットを作成することです。モデルは、特定のしきい値を超えた場合にのみ答えるように指示され、スコアリングはそれに応じて調整されます。このセットアップでは、不確実性は弱点ではなく、責任ある行動の一部となります。
鍵は、信頼性の要件を明示的にすることです。現在のベンチマークは、不確実性に対する隠れた罰を生み出しますが、モデルはこれを避けることを学習します。明示的な信頼性ターゲットは、モデルが実際に望ましい行動、つまり自信を持って答えることと、知識が不足している場合は不確実性を認めることを最適化できるようにします。
結論
AIホールュシネーションは、ランダムな欠陥ではなく、AIのパフォーマンスを測定するために使用されるベンチマークによって強化されています。自信のある推測を正確さよりも報奨する現在の評価システムは、モデルを信頼性よりも欺瞞性の向上に導きます。ヘルスケア、法律、科学などの分野で信頼できるAIを望むのであれば、評価および報奨の方法を見直す必要があります。進歩は、正確さだけでなく、モデルが何を知らないかを認識および告白する能力によって測定されるべきです。












