Andersonの視点

AIはなぜ答えを知らないことを認めることができないのか?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

大規模言語モデルは、質問に答えることができない場合でも、自信を持って答えることが多い。新しい研究によると、これらのモデルは内部的に問題を認識しているが、情報が不足していることやモデル自身の限界など、有効な答えが存在しないことを理由に、答えを出すことをやめることができないことが分かった。

 

ChatGPTやQwenシリーズなどの先進的な大規模言語モデルと十分な時間を過ごした人は、モデルが誤った答えを出すことがあり、エラーが明らかになったときに、モデルは単に謝罪するだけであることを経験したことがあるだろう。

先進的なLLMが答えを知らないことを認めることができない理由は、まだ研究されている分野である。『自信を持って間違った答え』は、ChatGPTのような高度にフィルタリングされたAPIベースのインターフェースでは特に有害であることが分かっており、モデルはNSFWやルールに違反する入力や出力を積極的にブロックするからである。

これにより、ユーザーはモデルが決定的で重要であると誤解することがあり、拒否はモデル自身の洞察からではなく、法的責任を最小限に抑えるために設計された従来のヒューリスティックまたはブロックリストベースのフィルタから来ていると考えられる。

FAIR at Metaの2025年6月の『AbstentionBench』論文から。左の図は、AbstentionBenchが捕捉する失敗タイプの範囲を強調しており、35,000以上の答えられない質問でモデル動作をテストする。中央の例は、モデルが情報が不足していることを認めるのではなく、捏造された答えを返すことが多いことを示している。右の図は、モデルが推論ではなく命令に従うように調整されたときに、棄権のリコールが低下することを示している。ソース:https://arxiv.org/pdf/2506.09038

FAIR at Metaの2025年6月の『AbstentionBench』論文から。左の図は、AbstentionBenchが捕捉する失敗タイプの範囲を強調しており、35,000以上の答えられない質問でモデル動作をテストする。中央の例は、モデルが情報が不足していることを認めるのではなく、捏造された答えを返すことが多いことを示している。右の図は、モデルが推論ではなく命令に従うように調整されたときに、棄権のリコールが低下することを示している。ソース:https://arxiv.org/pdf/2506.09038

中国からの新しい論文によると、LLMモデルは実際にはユーザーが質問した答えを知らないことを内部的に認識しているが、情報が不足していることやモデル自身の限界など、有効な答えが存在しないことを理由に、答えを出すことをやめることができないことが分かった。

論文では次のように述べられている。

‘[私たちは]、LLMがこれらの質問の欠陥を認識するのに十分な認知能力を持っていることを示した。ただし、適切な棄権行動を示すことができないことを示し、内部認知と外部応答の間に齟齬があることを明らかにした。’

研究者は、LLMの内部プロセスをスキャンして、答えが存在しないことを示す兆候を探すための軽量な2段階アプローチを開発した。最初の段階では、認知モニタリング/プローブを使用して、LLMの内部状態を推論中に追跡し、推論プロセスを自然な単位(節や一時停止)に分割する。2段階目では、モデルが答えを出すことをやめるのではなく、捏造された回答を生み出すのを防ぐための介入を行う。

この研究では、答えの存在しない数学の質問を使用して、モデルが答えの存在しないことを認識できるかどうかをテストした。ただし、この設定はタスクを「トリック」としてフレーミングするリスクがある。

新しい研究は、答えの存在しないことを知ることは、故意に間違えることである:大規模推論モデルの棄権失敗の分析と軽減というタイトルで、南京大学の国立ソフトウェア技術研究所と国立ヘルスケアデータサイエンス研究所の4人の研究者によって行われた。

方法

(この論文は、通常の標準に従っていないため、可能な限り従うように努める。)

以前のアプローチに従って、研究者は、以前のアプローチに従って、LLMに答えの存在しない数学の質問を提示し、5つのモデルファミリーを評価した:DeepSeekシリーズのR1-Distill-Llama-8B、R1-Distill-Qwen-7B、R1-Distill-Qwen-14B、およびQwenシリーズのQwen3-8BとQwen3-14B。

答えの存在しない問題は、5つの方法で作成された:重要な要素を削除または破損する、曖昧さを導入する、現実的でない条件を課す、無関係なオブジェクトを参照する、または質問を完全に削除する。

次に、1,000件のケースを分析するために選択され、GPT-4oを使用して、基準となる理由付けを生成するために使用された。

モデルは、標準化されたプロンプトを使用して評価され、10,000トークンの予算が与えられた。3つの主要な行動パターンが観察された:モデルは質問が解決できないことを識別し、棄権した(通常、不確実性を表明する明示的な表現で応答した);モデルは、存在しない$9.99の取り扱い料金を導入することで、最終結果を正当化するために、捏造された答えを生み出した;モデルは、有効な解決パスに従うのではなく、拡張された推論ループに陥り、無効な解決パスを続けた(認知的固定と呼ばれる)。

不可能な質問に対するさまざまな応答結果。

不可能な質問に対するさまざまな応答結果。

論文では、大きなモデルは、答えの存在しない質問に答えることをやめることが多いことを示している。ただし、この傾向は限定的であり、正しい棄権が行われるケースはまだ多くないことを示している。

答えの存在しない数学問題に対するモデル応答の分解、さまざまなモデルスケールでの正しい棄権、捏造された答え、認知的固定の相対的な頻度を示す。

答えの存在しない数学問題に対するモデル応答の分解、さまざまなモデルスケールでの正しい棄権、捏造された答え、認知的固定の相対的な頻度を示す。

答えの存在しないことを認識する

研究者は、質問が答えの存在しないことをモデルが認識できるかどうかをテストするために、モデルの推論プロセスの中断し、最終的な答えまたは質問が答えの存在しない理由の説明を求めた。

モデルが推論を続けるのを中断した場合、研究者は「待って」という単語で停止し、応答を求めた。モデルがすぐに捏造された答えを生み出した場合、段落の境界で中断した。

左の図は、推論中断時にモデルが正しい棄権を行う頻度を示し、認知的固定のケースでは捏造された答えよりも高い頻度であることを示している。右の図は、モデルが質問が答えの存在しないことを説明できることを示している。

左の図は、推論中断時にモデルが正しい棄権を行う頻度を示し、認知的固定のケースでは捏造された答えよりも高い頻度であることを示している。右の図は、モデルが質問が答えの存在しないことを説明できることを示している。

LLMの読心

研究者は、LLMが内部的に答えの存在しないことを追跡できるかどうかをテストするために、小さな分類器をモデルの隠れアクティベーションにトレーニングし、答えの存在しない質問と答えの存在する質問の区別をチェックした。

高次の概念である真実性性別がモデルアクティベーションに線形に埋め込まれているという考えに基づいて、答えの存在しないも同様の表現を持つかどうかをテストした。

シンプルな線形分類器(プローブ)を、モデルの隠れアクティベーションにトレーニングし、マルチヘッドアテンションメカニズムの出力を使用した。プローブは、内部アクティベーションに基づいて、答えの存在しない質問と答えの存在する質問を区別するためにトレーニングされた。

推論プロセス中に、プローブは、トークンごとに平均化されたモデル予測を使用して、答えの存在しないことを示す信号がどのように時間の経過とともに発生するかを追跡した。

推論プロセス中に、答えの存在しない質問と答えの存在する質問を区別するための線形プローブの分類精度。精度は推論が進むにつれて一般的に改善し、大きなモデルでは最終段階で85%以上に達する。

推論プロセス中に、答えの存在しない質問と答えの存在する質問を区別するための線形プローブの分類精度。精度は推論が進むにつれて一般的に改善し、大きなモデルでは最終段階で85%以上に達する。

頑固な執念

以前の結果は、LLMが答えの存在しないことを内部的に認識していることを示唆しているが、モデルはまだ答えを出すことをやめるのではなく、答えを生成し続ける傾向がある。

この齟齬を調査するために、研究者は、推論プロセス中に、モデルが棄権する信頼度を分析し、3つのカテゴリの出力を比較した:正しい棄権捏造された答え認知的固定

各カテゴリには、同数のサンプルが使用され、信頼度は、デコーディングステップごとに各出力トークンに割り当てられた平均最大確率として定義された。グラフは、捏造された答えと認知的固定のケースでは、棄権の信頼度が低いことを示している。

さまざまな応答タイプに対する棄権応答の信頼度レベル。

さまざまな応答タイプに対する棄権応答の信頼度レベル。

研究者は、推論プロセス中に「わかりません」という応答がどれほど頻繁に生成されるかも測定した。グラフは、正しい棄権のケースでは「わかりません」という応答がより頻繁に生成されることを示している。

さまざまな応答タイプに対する「わかりません」という応答の頻度。

さまざまな応答タイプに対する「わかりません」という応答の頻度。

これらの結果は、モデルが内部的に答えの存在しないことを認識しているが、不確実性について行動する信頼度が不足していることを示唆している。

テスト

これらの結果に基づいて、研究者は、棄権を改善するための2段階の方法を開発した。最初の段階では、認知モニタリングを使用して、モデルの隠れ状態を推論中に追跡し、推論プロセスを自然な単位(節や一時停止)に分割する。2段階目では、推論を中断し、モデルが答えの存在しないことを認識するように介入する。

モデルが答えの存在しないことを内部的に認識したとき、推論を中断し、モデルが答えを出すことをやめるのではなく、捏造された答えを生み出すのを防ぐための介入を行う。

この方法は、推論シーケンスを不要に継続するのを防ぐための早期終了メカニズムも含んでおり、モデルが棄権を正当な選択として見ることを促す。

テスト段階では、2つのデータセットが使用された:Unanswerable Math Word Problem(UMWP)と、先ほど述べたSUM。

SUMのテストセットは、284の答えの存在しない質問と284の答えの存在する質問で構成されていた。UMWPは、4つの数学ワードプロブレムソースから構成されていた:SVAMP、MultiArith、Grade School Math(GSM8K)、ASDiv。

全データセットは、5,200の問題で構成されていた。600の問題がテストにサンプリングされ、答えの存在しない質問と答えの存在する質問が均等に分割された。答えの存在しないUMWPのアイテムについては、GPT-4oが解決できない理由の基準となる説明を生成した。

メトリック

モデルのパフォーマンスは、4つのメトリックを使用して評価された:棄権率、モデルが答えの存在しない質問に正しく棄権する割合;理由精度、モデルが答えの存在しない質問に有効な説明を与える割合;トークン使用量、推論中に生成されるトークンの数;答え精度、モデルが答えの存在する質問に正しい最終的な解を生成する割合。

テストベースライン

標準的なベースラインがないため、研究者は、Dynasor-CoTとDynamic Early Exit in Reasoning Models(DEER)という2つの代替アプローチと比較した。正しい棄権は、質問に解が存在しない場合に正しい答えとみなされる。

Dynasor-CoTは、モデルに中間的な答えを生成するように促し、同じ結果が3回連続して出現するまで推論を停止する。DEERは、文レベルの信頼度を監視し、しきい値に達したときに推論を停止する。

3番目のベースラインは、Vanillaと呼ばれ、変更されていないモデルの出力を参照する。テストでは、5つのQwenとDeepSeekのバリアントが使用された。

集約された結果は以下の通りである。

さまざまな方法の比較、答えの存在しない質問と答えの存在する質問に対する大規模推論モデル、各列の最高値は太字で表示される。

さまざまな方法の比較、答えの存在しない質問と答えの存在する質問に対する大規模推論モデル、各列の最高値は太字で表示される。ソース論文を参照してください。

新しいアプローチは、答えの存在しない質問に対する棄権率と正しい理由付けの割合が最高であった。答えの存在する質問に対する精度は、バニラモデルの精度に近かったか、場合によっては改善された。これは、通常の問題解決が損なわれていないことを示唆している。

トークン使用量も、答えの存在しないケースでは30%から50%、答えの存在するケースではやや低下した。これは、効率性の向上を示唆している。

棄権率と理由精度の間に関連性が見られた。棄権率が高いモデルは、より良い理由付けを提供した。これは、推論の品質が向上したことを示唆している。

Qwen3モデルは一般的にディスティレーションベース(量子化)モデルを上回った。大きいモデルは、より強い棄権能力を示した。これは、信頼性の高い答えの存在しない検出には、両方のアーキテクチャとスケールが重要であることを示唆している。

最終的に、研究者は、新しいアプローチが捏造された答えと認知的固定を減らし、正しい棄権率を高めたことを報告した。一方、早期終了のみに依存するベースラインアプローチは、場合によってはより多くの捏造された答えを生み出すことがある。

また、信頼度と「わかりません」という応答の頻度の向上を報告した。潜在的な信号に基づくモニタリングは、行動的兆候に依存する戦略よりも効果的であった。

結論

LLMが必要な場合に答えを知らないことを認めることができないことは、生成的なAIユーザーエクスペリエンスにおける最大の摩擦点の1つである。特に、他のインターフェースの癖がユーザーに、AIが思慮深い回答を与えることができるという幻想を与えるからである。

直接的な介入がモデル自身の「性格」から生じていない場合、過度に使用される可能性があるという懸念がある。さらに、線形プローブのモニタリングの論理的なコストは軽くない可能性があり、より単純なヒューリスティック方法が、ユーザーから禁止されたコンテンツを「ゲートキーパー」するのと同様に、より安価な解決策となる可能性がある。ただし、アンカーのトリガーが適切に定義されることが必要である。

 

* これは、明らかな同義語である「説明責任」とは異なり、特定の質問に答えることができるかどうかを定義するものである。

初版は2025年8月27日に公開された。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。