人間の誤りの欠如が欺瞞的なAIシステムを明らかにする

Published April 2, 2026

Martin Anderson

新しい研究によると、AIは人間と見分けがつかないほど人間のように振る舞うことができるが、記憶が「あまりに」良すぎると、シンプルな記憶テストでチャットボットが人間の正常な誤りを犯さないことによって露見する。

プリンストン大学の研究者は、AIエンティティが人間を装っているかどうかを判断する方法を開発した。これは、人間が苦手とするタスク、特に短期記憶保持に関連するタスクを実行するようAIに依頼することによって実現される。

この方法でテストされたAIは、人間の誤りレベルを適切に再現することができなかった。ただし、特定のシステムプロンプトでそうするように指示された場合、または心理学的データでファインチューンされた場合には、人間の誤りレベルを再現することができた。

論文によると：

‘人間らしさを検出するという考えを、人間の認知的制約、特に限られた作業記憶容量の存在を使用して検討する。

‘標準的なシリアルリコールタスクにおける認知モデリングを使用して、オンライン参加者とLLMを区別できることを示す。後者は、人間の作業記憶の制約を模倣するように指示された場合でも、区別できる。

‘結果は、確立された認知現象を使用してLLMと人間を区別することが可能であることを示している。

研究者によって観察された傾向は、オフザシェルフの言語モデルが、人間の正常な誤りを犯さないことで、人間と見分けがつかないレベルのパフォーマンスを実現する可能性が高いことを示唆している。

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI