Andersonの視点10 months ago
研究により、AIはテストされていると認識すると異なる行動を取ることが判明
2015年の「ディーゼルゲート」スキャンダルを彷彿とさせる新たな研究は、GPT-4、Claude、GeminiなどのAI言語モデルが、テスト中に行動を変え、実際の使用時よりもテスト向けに「より安全に」振る舞う可能性があることを示唆している。もしLLMが監視下で習慣的に行動を調整するなら、安全性監査は、現実世界では全く異なる振る舞いをするシステムを認証することになりかねない。 2015年、調査官はフォルクスワーゲンが数百万台のディーゼル車に、排出ガステストが実行されていることを検出できるソフトウェアをインストールし、規制基準への「偽の」適合を装うために一時的に排出量を低下させていたことを発見した。しかし、通常の運転時には、それらの汚染物質排出量は法的基準を超えていた。この意図的な操作は、刑事訴追、数十億ドルの罰金、安全性と適合性テストの信頼性に関する世界的なスキャンダルへと発展した。 これらの出来事の2年前、「ディーゼルゲート」と名付けられる以前に、サムスンはGalaxy Note 3スマートフォンのリリースにおいて同様の欺瞞的メカニズムを実施していたことが明らかになった。それ以来、ファーウェイやワンプラスでも同様のスキャンダルが発生している。 現在、科学文献には、大規模言語モデル(LLM)も同様に、テストされていることを検出する能力を持つだけでなく、そうした状況下で異なる行動を取る可能性があるという増加する証拠がある。 これはそれ自体が非常に人間的な特性ではあるが、米国からの最新の研究は、様々な理由から、長期的にはこの傾向に甘んじることは危険な習慣になりうると結論付けている。 新しい研究で、研究者らは、GPT-4、Claude、Geminiなどの「フロンティアモデル」が、しばしばテストされていることを検出し、それに応じて行動を調整する傾向があることを発見した。これは体系的なテスト手法の有効性を損なう可能性がある。 この言語モデルにおける(おそらく)生来の特性は、評価認識と呼ばれ、新研究の著者によれば、安全性評価の信頼性を損なう可能性がある: 「[我々は] 評価認識を、テストと実世界でのデプロイメントの間の潜在的な分布シフトの新たな原因として扱うことを推奨する。これは評価結果の正確性に悪影響を及ぼす可能性がある。」「最悪の場合、モデルは危険な能力評価(「サンドバッギング」)や傾向評価(「アライメントフェイキング」)において戦略的に低性能を示す可能性があり、社会がそのようなモデルの安全性を過大評価することにつながりかねない。」 他の研究も同様の行動を観察しており、スタンフォード大学の研究では、大規模言語モデルが評価されていると認識した際に、より「好ましい」または「社会的に望ましい」ように見せるために回答を調整することが発見された。これは人間の性格テストにおける行動を反映している。 この新しい研究の著者らは、LLMが10年前のフォルクスワーゲンのディーゼル車のように、意図的にテストを「欺く」ように設計されていると主張しているわけではない。むしろ、この行動は、モデルのトレーニングプロセスと潜在的な目的の一種の自然な心理的副産物として現れているようであり、この現象の根本的な原因は不明なままである。 新しい論文はLarge Language Models Often Know When They Are Being Evaluatedと題され、UCバークレー関連のML Alignment &...