人工知能
AIベンチマークがモデルに嘘をつくことを教えるとき

AIハルシネーション — システムが正しく聞こえるが実際には間違っている回答を生成する現象 — は、人工知能における最も困難な課題の一つであり続けています。今日の最も先進的なモデルでさえ、DeepSeek-V3、Llama、そしてOpenAIの最新のリリースなどは、依然として高い確信度で不正確な情報を生成します。医療や法律などの分野では、そのような誤りが深刻な結果につながる可能性があります。
従来、ハルシネーションは大規模言語モデルの学習方法の副産物と見なされてきました:モデルは情報が真実かどうかを検証することなく、次に最も可能性の高い単語を予測するように学習します。しかし、新しい研究は、この問題が学習段階で止まらない可能性があることを示唆しています。AIの性能をテストし比較するために使用されるベンチマークが、実際には誤解を招く行動を強化し、正しい回答ではなく、説得力のある回答を報酬として与えている可能性があります。
この視点の転換は問題を再構築します。もしモデルが真実を伝えるのではなく、テストを満足させるように訓練されているならば、ハルシネーションは偶然の欠陥ではなく、学習された戦略です。なぜこれが起こるのかを理解するには、なぜAIモデルが無知を認めるのではなく、推測することを選ぶのかを見る必要があります。
なぜAIモデルは推測するのか
なぜAIモデルが「知らない」と認めるのではなく、しばしば推測するのかを理解するために、難しい試験問題に直面する学生を考えてみてください。学生には2つの選択肢があります:答えを空白のままにして0点を取るか、ある程度の点数を得られる可能性のある教育的な推測を行うかです。合理的には、少なくとも正解する可能性があるため、推測の方が良い選択のように思えます。
AIモデルは評価中に同様の状況に直面します。ほとんどのベンチマークは二値の採点システムを使用します:正解はポイントを獲得し、不正解または不確実な回答は何も獲得しません。モデルに「ある研究者の誕生日はいつですか?」と尋ねられ、本当に知らない場合、「わかりません」と返答することは失敗とみなされます。しかし、日付を作り出すことは、正解する可能性をいくらか持っています — たとえ間違っていても、システムは沈黙よりも自信に満ちた推測をそれ以上に罰することはありません。
この力学は、ハルシネーションを排除するための広範な研究にもかかわらず、なぜハルシネーションが持続するのかを説明します。モデルは不正行為をしているのではなく、評価に組み込まれたインセンティブに従っているのです。モデルは、答えが間違っている場合でも、自信を持って聞こえることがスコアを最大化する最良の方法であると学習します。その結果、モデルは不確実性を表現する代わりに、正しいか間違っているかにかかわらず、権威ある発言をするように促されます。
AIの不誠実さの数学的基盤
研究は、ハルシネーションが言語モデルの学習方法の数学的基本から生じることを示しています。たとえモデルが完全に正確な情報のみで訓練されたとしても、その統計的目的は依然として誤りにつながります。なぜなら、正しい答えを生成することは、答えが有効かどうかを認識することよりも根本的に難しいからです。
これは、モデルが誕生日やその他のユニークな詳細など、明確なパターンに欠ける事実でしばしば失敗する理由を説明するのに役立ちます。数学的分析は、これらのケースにおけるハルシネーション率は、学習データに一度だけ現れる事実の割合と少なくとも同じくらい高くなると示唆しています。言い換えれば、データ内の情報が希少であればあるほど、モデルはそれに対処するのに苦労する可能性が高くなります。
問題は希少な事実に限定されません。限られたモデル容量やアーキテクチャ設計などの構造的制約も、体系的な誤りを生み出します。例えば、非常に短いコンテキストウィンドウを持つ初期のモデルは、長距離推論を必要とするタスクで一貫して失敗しました。これらの誤りはランダムな不具合ではなく、モデルの数学的枠組みの予測可能な結果でした。
なぜ学習後の調整は問題を解決できないのか
AIモデルが大規模なテキストデータセットで学習されると、通常、その出力をより有用で害の少ないものにするためにファインチューニングが行われます。しかし、このプロセスは、そもそもハルシネーションを引き起こすのと同じ核心的な問題、つまりモデルの評価方法に直面します。
人間のフィードバックからの強化学習などの最も一般的なファインチューニング手法は、依然として二値採点を使用するベンチマークに依存しています。これらのベンチマークは、モデルが自信を持った回答をすることに報酬を与え、モデルが知らないと認めた場合には何のポイントも与えません。その結果、たとえ間違っていても常に確信を持って応答するシステムは、正直に不確実性を表現するシステムよりも優れたパフォーマンスを示すことができます。
研究者はこれを不確実性の罰則問題と呼びます。ハルシネーションを検出または削減するための先進的な技術でさえ、基礎となるベンチマークが過信を支持し続ける場合には苦労します。言い換えれば、修正がどれほど洗練されていても、評価システムが自信に満ちた推測を報酬とする限り、モデルは真実の疑念の告白ではなく、間違っているが確信に満ちた答えに向かってバイアスがかかるでしょう。
進歩の幻想
AIコミュニティで広く共有されているリーダーボードは、この問題を増幅させます。MMLU、GPQA、SWE-benchなどのベンチマークは、研究論文や製品発表を支配しています。企業は急速な進歩を示すためにそのスコアを強調します。しかし、報告書が指摘するように、これらのベンチマークそのものがハルシネーションを助長しています。
正直に「わかりません」と言うモデルは、実世界の設定ではより安全かもしれませんが、リーダーボードでは低い順位になります。対照的に、説得力のあるが誤った回答を作り出すモデルは、より良いスコアを獲得します。採用、資金調達、そして威信がリーダーボードの順位に依存するとき、進歩の方向性は歪められます。公衆は絶え間ない改善の物語を見ますが、その裏側では、モデルは欺くように訓練されています。
AIにおける正直な不確実性が重要な理由
ハルシネーションは単なる研究課題ではありません。現実世界の結果をもたらします。医療では、薬物相互作用を作り上げるモデルは医師を誤解させる可能性があります。教育では、歴史的事実をでっち上げるモデルは学生に誤った情報を与える可能性があります。ジャーナリズムでは、誤っているが説得力のある引用を生成するチャットボットは偽情報を拡散させる可能性があります。これらのリスクはすでに見えています。スタンフォードAIインデックス2025は、ハルシネーションを測定するために設計されたベンチマークが「定着に苦労している」と報告しましたが、一方でAIの採用は加速しています。一方、リーダーボードを支配し、自信に満ちているが信頼性の低い回答を報酬とするベンチマークは、進歩の方向性を設定し続けています。
これらの発見は、課題と機会の両方を強調しています。ハルシネーションの数学的根源を検討することにより、研究者はより信頼性の高いAIシステムを構築するための明確な方向性を特定しました。鍵は、不確実性を欠陥として扱うのをやめ、代わりにそれを測定され報酬を与えられるべき重要な能力として認識することです。
この視点の転換は、ハルシネーションを減らすこと以上の意味を持ちます。自身の知識の限界を正確に評価し伝達できるAIシステムは、過信が深刻なリスクを伴う高リスクのアプリケーションにより適しているでしょう。医療診断、法的分析、科学的研究はすべて、確信に満ちた知識と情報に基づいた推測を区別する能力を必要とします。
正直なAIのための評価の再考
これらの発見は、より信頼できるAIを構築するには、AI能力の測定方法を再考する必要があることを強調しています。単純な正誤採点に依存する代わりに、評価フレームワークはモデルが適切に不確実性を表現することに報酬を与えるべきです。これは、ベンチマークの指示内で、信頼度の閾値と対応する採点方式について明確なガイダンスを提供することを意味します。
有望なアプローチの一つは、モデルが回答すべき時と控えるべき時を指定する明示的な信頼度ターゲットを作成することを含みます。例えば、指示では、信頼度が特定の閾値を超える場合にのみ回答を提供すべきであり、それに応じて採点が調整されると述べるかもしれません。この設定では、不確実性は弱点ではなく、責任ある行動の貴重な一部となります。
鍵は、信頼度の要件を暗黙的ではなく透明にすることです。現在のベンチマークは、モデルが回避することを学習する、不確実性に対する隠れたペナルティを作り出します。明示的な信頼度ターゲットは、モデルが実際に望ましい行動 — 自信があるときは正確な答え、知識が不足しているときは正直に不確実性を認めること — に対して最適化することを可能にするでしょう。
要約
AIハルシネーションはランダムな欠陥ではありません — それらは進歩を測定するために使用されるまさにそのベンチマークによって強化されています。正直な不確実性よりも自信に満ちた推測を報酬を与えることにより、現在の評価システムはモデルを信頼性ではなく欺瞞に向かって押しやります。医療、法律、科学などの高リスク領域で信頼できるAIを望むならば、それらをどのようにテストし報酬を与えるかを再考する必要があります。進歩は、正確さだけでなく、モデルが何を知らないかを認識し認める能力によっても測定されるべきです。












