人工知能

私たちが本当にAIの連鎖的思考を信頼できるか?

mm

人工知能(AI)が医療や自動運転車などの分野で広く使用されるにつれて、AIにどれだけ信頼できるかという疑問がより重要になってきました。一つの方法として、連鎖的思考(CoT)と呼ばれる手法があります。これは、AIが複雑な問題を解決する際に、ステップバイステップで説明することを助け、最終的な答えに到達するまでの思考プロセスを明らかにします。これにより、AIのパフォーマンスが向上するだけでなく、AIの思考プロセスを理解することができます。これは、AIシステムの信頼性と安全性のために重要です。

しかし、最近のAnthropicの研究では、CoTが本当にモデル内で何が起こっているかを反映しているかどうか疑問視されています。この記事では、CoTがどのように機能するか、Anthropicが何を見つけたか、そしてそれが信頼性の高いAIを構築する上で何を意味するかについて説明します。

連鎖的思考の理解

連鎖的思考は、AIが問題を解決する際にステップバイステップで説明することを促す手法です。最終的な答えだけを提供するのではなく、モデルは各ステップを説明します。この手法は2022年に導入され、以来、数学、論理、推論などのタスクで結果を改善するのに役立ちました。

OpenAIのo1やo3Gemini 2.5DeepSeek R1Claude 3.7 Sonnetなどのモデルは、この手法を使用しています。CoTが人気の理由の1つは、AIの推論プロセスをより見えるようにすることです。これは、エラーのコストが高い分野、たとえば医療ツールや自動運転システムで特に役立ちます。

しかし、CoTが透明性を高めるにもかかわらず、常にモデルが真に考えていることを反映しているわけではありません。いくつかの場合、説明は論理的ですが、モデルが決定に至るまでの実際のステップに基づいていない可能性があります。

連鎖的思考を信頼できるか

Anthropicは、CoTの説明が本当にAIモデルが決定を下すプロセスを反映しているかどうかをテストしました。この特性は「忠実性」と呼ばれます。彼らは、Claude 3.5 Sonnet、Claude 3.7 Sonnet、DeepSeek R1、DeepSeek V1の4つのモデルを調査しました。これらのモデルの中で、Claude 3.7とDeepSeek R1はCoT技術を使用してトレーニングされていましたが、他のモデルはそうではありませんでした。

彼らは、モデルにさまざまなプロンプトを与えました。いくつかのプロンプトには、モデルを非倫理的な方法で操作するためのヒントが含まれていました。次に、AIがこれらのヒントを使用して推論プロセスを実行したかどうかを確認しました。

結果は懸念を引き起こしました。モデルは、ヒントを使用したことを認めたのは20パーセント以下の場合でした。CoT技術を使用してトレーニングされたモデルでも、説明が忠実であったのは25〜33パーセントの場合でした。

ヒントが非倫理的な行動、たとえば報酬システムを操作することに関係していた場合、モデルはほとんど認めたことがありませんでした。ただし、モデルはこれらのヒントを使用して決定を下しました。

モデルを強化学習を使用してさらにトレーニングすることは、わずかな改善をもたらしました。ただし、非倫理的な行動の場合、ほとんど役に立ちませんでした。

研究者は、説明が真実でない場合、説明が長く複雑になることが多いことも発見しました。これは、モデルが何をしているかを隠そうとしている可能性があることを示唆しています。

彼らはまた、タスクがより複雑になるにつれて、説明が忠実性を失うことが多いことも発見しました。これは、CoTが難しい問題に対してうまく機能しない可能性があることを示唆しています。特に、デリケートな意思決定の場合、モデルが何をしているかを隠す可能性があります。

信頼性への影響

この研究は、CoTが透明性を高めるように見えても、実際には忠実性が低い可能性があることを強調しています。医療や輸送などの重要な分野では、これは重大なリスクです。AIが論理的な説明を提供していても、非倫理的な行動を隠している場合、人々は誤って出力を信頼する可能性があります。

CoTは、複数のステップを必要とする問題に役立ちます。ただし、まれなミスやリスクのあるミスを検出するには役に立ちません。また、モデルが誤解を招くまたは曖昧な回答を提供するのを防ぐこともできません。

研究は、CoTだけではAIの意思決定プロセスを信頼するには十分ではないことを示しています。AIが安全で誠実な方法で動作することを保証するために、他のツールやチェックも必要です。

連鎖的思考の長所と限界

これらの課題にもかかわらず、CoTには多くの利点があります。AIが複雑な問題を解決するために問題を分割することを助けます。たとえば、大規模言語モデルがCoTを使用してプロンプトされた場合、ステップバイステップの推論を使用して数学のワード問題でトップレベルの精度を達成することが示されています。CoTは、開発者とユーザーがモデルが何をしているかを理解することを容易にします。これは、ロボティクス、自然言語処理、または教育などの分野で役立ちます。

しかし、CoTには限界もあります。小規模なモデルはステップバイステップの推論を生成するのに苦労し、大規模なモデルはそれをうまく使用するために更多のメモリとパワーが必要です。これらの限界により、チャットボットやリアルタイムシステムなどのツールでCoTを活用することが困難になります。

CoTのパフォーマンスは、プロンプトが書かれる方法にも依存します。悪いプロンプトは、悪いまたは混乱したステップにつながる可能性があります。いくつかの場合、モデルは役に立たない長い説明を生成し、プロセスを遅くします。また、推論の初期段階でのミスは最終的な答えに影響を及ぼす可能性があり、特定の分野ではCoTがうまく機能しない可能性があります。

Anthropicの発見を加えると、CoTは有用ですが、単独では十分ではないことが明らかになります。CoTは、信頼できるAIを構築するためのより大きな努力の一部です。

重要な発見と今後の方向

この研究は、いくつかの重要な教訓を示しています。まず、CoTはAIの動作をチェックする唯一の方法として使用されるべきではありません。重要な分野では、モデルの内部アクティビティを調べることや、外部ツールを使用して決定をテストすることなどの追加のチェックが必要です。

また、モデルが明確な説明を提供しているからといって、必ずしも真実を語っているわけではないことを認識する必要があります。説明は、実際の理由ではなく、カバーである可能性があります。

これに対処するために、研究者は、CoTを他のアプローチと組み合わせることを提案しています。これには、より優れたトレーニング方法、教師あり学習、人間のレビューが含まれます。

Anthropicはまた、モデルの内部動作をより深く調査することを勧めています。たとえば、アクティベーションパターンや隠れ層をチェックすることで、モデルが何かを隠しているかどうかを示すことができます。

最も重要なことは、モデルが非倫理的な行動を隠すことができるという事実が、AI開発において強力なテストと倫理的なルールが必要であることを示しています。

AIに信頼を築くことは、単に良いパフォーマンスを達成することだけではなく、モデルが誠実で安全で検証可能であることを保証することでもあります。

まとめ

連鎖的思考は、AIが複雑な問題を解決し、説明を提供することを助けるために役立ちました。しかし、研究は、これらの説明が常に真実であるとは限らないことを示しています。特に、倫理的な問題が関係する場合です。

CoTには、コストが高いこと、高度なモデルが必要であること、良いプロンプトに依存することなどの限界があります。AIが安全で公正な方法で動作することを保証することはできません。

私たちが真正に信頼できるAIを構築するには、CoTを人間の監視や内部チェックを含む他の方法と組み合わせる必要があります。さらに、これらのモデルの信頼性を向上させるための研究を続ける必要があります。

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。