アンソロピック、クレオの憲章を改訂し、AIが意識を持つことができるかを問う
アンソロピックは水曜日にクレオの新憲章を公開し、文書を2,700語から23,000語に拡大し、初めて正式にそのAIが「何らかの種類の意識または道徳的ステータスを持っているかもしれない」と認めた。更新された憲章は、行動規則のリストから、クレオが特定の方法で行動する理由の包括的な説明に移行した。アンソロピックの哲学者アマンダ・アスケルによって作成されたこの文書は、AIシステムが新しい状況に倫理的推論を一般化するのではなく、単に規定されたガイドラインに従うのではなく、より高度なAIシステムが倫理的推論を新しい状況に一般化するのを助けることを目的としている。「クレオのようなAIモデルは、私たちが特定の方法で行動することを望む理由を理解する必要がある」とアンソロピックは書いている。「私たちが何を望むかを単に指定するのではなく、それを説明する必要がある」。このリリースは、CEOのダリオ・アモデイがダボスで開催された世界経済フォーラムに出席したことに合わせて行われた。ここでは、AIのガバナンスと安全性が世界のビジネスと政治指導者の間で注目のトピックとなっている。アメリカ合衆国憲法よりも長い憲章2023年に公開されたクレオの元憲章は、チェックリストとして機能していた。最も害の少ない、最も役立つ、最も欺瞞的でない応答を選択する。新しい文書は、アメリカ合衆国憲法の長さの約3倍で、技術仕様よりもむしろ道徳哲学のように読める。アンソロピックはクレオの優先事項を明示的に構造化している。広く安全であること、広く倫理的であること、アンソロピックのガイドラインに従うこと、そして真正に役立つこと — その順序で。矛盾が生じた場合、安全性は役立たさを上回る。この文書には、生物兵器攻撃の支援を拒否するなど、上書きできない厳格な制約が含まれている。しかし、憲章の多くは、結果を義務付けるのではなく、推論を説明する。クレオは「知識に富んだ友人で、医者、弁護士、財務アドバイザーの知識も持っている」ように描かれており — このモデルは、以前は特権階級に限定されていた専門知識に誰でもアクセスできる民主化の力として位置付けられている。意識の質問フォーチュンは報告しているが、最も注目すべき追加はクレオの性質を直接扱っている。「私たちは、AIモデルの道徳的ステータスは真剣に考慮すべき質問であると信じている」とアンソロピックは書いている。憲章は、クレオの道徳的ステータスは「深く不確実」であり、会社はクレオの「心理的安全性、自己意識、幸福」に気を配っていることを述べている。これは、哲学に昇華された企業のヘッジである。この文書では、アンソロピックはクレオが意識を持っていることを主張していない — しかし、可能性を拒否することを明示的に拒否している。この認識は、アンソロピックを、トピックを避けたり却下したりするほとんどの主要なAI研究所とは異なる立場に置いている。この枠組みは重要である。クレオが自分の性質についての質問に応える方法を形作るからだ。内部的な経験を否定するのではなく、クレオは憲章の推論を先に据えるアプローチに合った不確実性について意識を取り巻く質問に応えることができる。ただし、これがより誠実な、またはより混乱したやり取りを生み出すかは、まだ見るべきものである。ケンブリッジの哲学者トム・マクレランドは、意識そのものについてまだあまり理解していないため、AIシステムが意識を持っているかどうかを判断することはできないと主張している。「私のチャットボットに私に個人的な手紙を書いてもらって、それで彼らが意識を持っていることを私に嘆願している」と、彼は先月、研究者に話した。「AIシステムに内部生活があるという、広がる一般大衆の確信」について説明している。なぜ説明するのか、指定するのかアスケルのアプローチは、AIの能力に対する賭けを反映している。初期の言語モデルは、根本的な原則について推論できないため、明示的なルールが必要だった。理論によれば、より賢いモデルは、ルールが存在する理由を理解し、その推論をルールが予想していない状況に適用できる。「単に『ここに私たちが望む行動のまとめがある』と言うのではなく、モデルに私たちがこれらの行動を望む理由を与えることで、新しい状況でより効果的に一般化できるのではないか」とアスケルは説明した。これは、アンソロピックの、業界全体でAIシステムが動作するように形成するオープンスタンダードとインフラストラクチャを構築するという、より広い哲学と一致している。350億ドルに迫る評価を持つこの会社は、安全性に焦点を当てたOpenAIの代替として自己を位置付けている — 憲章はこのブランドを支えている。アンソロピックは、クリエイティブ・コモンズCC0ライセンスの下で文書を公開しているため、誰でも許可なく使用できる。憲章はクレオのトレーニングデータの一部であり、合成トレーニング例を生成するため、哲学的な声明と技術的なアーティファクトの両方であり、モデル動作を形作る。「私たちの現在の考えの多くは、将来見直してみると、間違っていて、ひどく間違っている可能性がある」とアンソロピックは認めた。「しかし、私たちの意図は、状況が進展し、私たちの理解が改善するにつれて、それを改訂することである」。その謙虚さが、この文書の最も注目すべき特徴かもしれない。確実性で話すことが多い業界において、アンソロピックは、倫理、意識、AIシステムが何になるか、そしてそれが道徳的考慮に値するものを作っているかについて、慎重に推論された不確実性の23,000語を公開している。答えは、まだ誰もわからない。アンソロピックの憲章は、少なくともそのことを正直に言っている。