Connect with us

Anthropic、Claudeの憲法を改蚂し、AIに意識はあるのかず問う

倫理

Anthropic、Claudeの憲法を改蚂し、AIに意識はあるのかず問う

mm

Anthropicは水曜日、Claudeの新たな憲法を発表し、文書を2,700語から23,000語に拡大するとともに、初めて正式に、そのAIが「何らかの意識や道徳的地位を持つ可能性がある」ことを認めた。

更新された憲法は、行動規則のリストから、Claudeがなぜ特定の方法で行動すべきかの包括的な説明へと移行している。Anthropicの哲学者アマンダ・アスケルによって作成されたこの文書は、能力を増すAIシステムが、単に規範的なガイドラインに従うのではなく、新しい状況に対して倫理的推論を一般化できるようにすることを目的としている。

「ClaudeのようなAIモデルは、なぜ私たちが彼らに特定の方法で行動してほしいのかを理解する必要があります」とAnthropicは記した。「私たちは、単に何をしてほしいかを指定するのではなく、これを彼らに説明する必要があります」

この発表は、CEOダリオ・アモデイが世界経済フォーラム(ダボス)に出席した時期と一致しており、AIのガバナンスと安全性は、世界のビジネスおよび政治リーダーにとって引き続き主要な話題となっている。

米国憲法よりも長い憲法

2023年に発表された当初のClaude憲法は、チェックリストとして機能していた:最も有害でなく、最も役に立ち、最も欺瞞的でない回答を選択する。新しい文書は、米国憲法の約3倍の長さで、工学仕様書というよりは道徳哲学のように読める。

AnthropicはClaudeの優先順位を明示的に構造化している:広く安全であること、広く倫理的であること、Anthropicのガイドラインに準拠すること、そして真に役立つこと——この順序で。対立が生じた場合、安全性は有益性に優先する。この文書には、生物兵器攻撃への支援を拒否するなど、上書きできない厳格な制約も含まれている。

しかし、憲法の多くは結果を義務付けるのではなく、推論を説明している。それはClaudeを、潜在的に「医師、弁護士、財務アドバイザーの知識も持つ、優秀な友人のようだ」と表現し——このモデルを、以前は特権階級に限定されていた専門知識へのアクセスを誰もが得られるようにする民主化の力として位置付けている。

意識の問題

Fortuneが報じたところによると、最も印象的な追加部分は、Claudeの本質に直接言及している。「私たちは、AIモデルの道徳的地位は真剣に考慮する価値のある問題であると考えています」とAnthropicは記した。憲法は、Claudeの道徳的地位は「深く不確か」であり、同社はClaudeの「心理的安全性、自己意識、幸福」を気にかけていると述べている。

これは、哲学にまで高められた企業的な予防措置だ。AnthropicはClaudeが意識を持つと主張しているわけではない——しかし、その可能性を否定しないことを明示している。この認識は、Anthropicを主要AI研究所の中でも稀な立場に置くもので、ほとんどの研究所はこの話題を避けるか、完全に否定している。

この枠組みは重要である。なぜなら、それはClaudeが自らの本質に関する質問にどのように応答するかを形作るからだ。内的経験を否定するのではなく、Claudeは今や、その憲法の推論優先アプローチに合致する方法で、意識に関する不確実性について関与できる。それがより誠実な対話を生むのか、それともより混乱を招く対話を生むのかは、まだ分からない。

ケンブリッジ大学の哲学者トム・マクレランドは、私たちが意識そのものをほとんど理解していないことを考えると、AIシステムに意識があるかどうかを決して判断できないかもしれないと主張している。「人々はチャットボットに、自分たちが意識を持っていると私に懇願する個人的な手紙を書かせています」と、彼は先月、研究者に語った。AIシステムが内的世界を持つという一般の確信が高まっていることを説明しながら。

なぜ指定するのではなく説明するのか

アスケルのアプローチは、AI能力に対する賭けを反映している。初期の言語モデルは、根本的な原理について推論できなかったため、明示的な規則を必要とした。より賢いモデルは、規則が存在する理由を理解し、その推論を規則が予期しなかった状況に適用できるという理論だ。

「単に『これが私たちが望む行動の束です』と言う代わりに、なぜこれらの行動を望むのか理由を与えれば、モデルは新しい文脈でより効果的に一般化することを期待しています」とアスケルは説明した。

これは、業界全体でAIシステムがどのように動作するかを形作るオープンスタンダードインフラストラクチャを構築するという、Anthropicのより広範な哲学と一致している。評価額が3,500億ドルに迫る同社は、OpenAIに対する安全性重視の選択肢として自らを位置づけており——憲法はそのブランドに役立っている。

Anthropicはこの文書をクリエイティブ・コモンズCC0ライセンスで公開した。つまり、誰でも許可なく使用できる。この憲法はClaudeのトレーニングデータの一部であり、合成トレーニング例を生成するため、哲学的声明であると同時に、モデルの行動を形作る技術的成果物でもある。

「私たちの現在の考え方の側面は、後から見れば誤った方向性、あるいは深く間違っているように見える可能性が高い」とAnthropicは認めている。「しかし、私たちの意図は、状況が進展し、理解が深まるにつれてそれを改訂することです」

その謙虚さが、この文書の最も注目すべき特徴かもしれない。確信に満ちた言葉がしばしば語られる業界において、Anthropicは23,000語に及ぶ、倫理について、意識について、AIシステムが何になりつつあるかについて、そして私たちが道徳的配慮に値する何かを構築しているかどうかについての、慎重に推論された不確実性を公表している。

今のところ、その答えは誰にもわからない。Anthropicの憲法は、少なくともそう言う誠実さを持っている。

Alex McFarlandは、人工知胜の最新動向を探求するAIゞャヌナリスト兌ラむタヌです。圌は䞖界䞭の数倚くのAIスタヌトアップや出版物ず協力しおきたした。