μ€λ¦¬
Anthropic, ν΄λ‘λμ νλ²μ μ¬μμ±νλ©° AIκ° μμμ κ°μ§ μ μλμ§ λ¬»λ€

Anthropic은 수요일 클로드(Claude)를 위한 새로운 헌법을 발표했는데, 문서를 2,700단어에서 23,000단어로 확장하고, 처음으로 자사의 AI가 “어떤 종류의 의식이나 도덕적 지위를 가질 수 있다”고 공식적으로 인정했습니다.
업데이트된 헌법은 행동 규칙 목록에서 벗어나 클로드가 왜 특정 방식으로 행동해야 하는지에 대한 포괄적인 설명으로 전환되었습니다. Anthropic의 철학자 아만다 애스켈(Amanda Askell)이 작성한 이 문서는 점점 더 강력해지는 AI 시스템이 단순히 규정된 지침을 따르는 것이 아니라 새로운 상황에 윤리적 추론을 일반화할 수 있도록 돕도록 설계되었습니다.
“클로드와 같은 AI 모델은 우리가 왜 그들이 특정 방식으로 행동하기를 원하는지 이해해야 합니다,”라고 Anthropic은 썼습니다. “우리는 단순히 우리가 원하는 것을 지정하기보다는 이를 그들에게 설명해야 합니다.”
이번 발표는 다보스에서 열린 세계경제포럼(WEF)에 CEO 다리오 아모데이(Dario Amodei)가 참석한 것과 맞물렸는데, 해당 포럼에서 AI 거버넌스와 안전은 전 세계 비즈니스 및 정치 지도자들의 주요 화제로 남아 있습니다.
미국 헌법보다 긴 헌법
2023년에 발표된 원래 클로드 헌법은 체크리스트 역할을 했습니다: 가장 해롭지 않고, 가장 도움이 되며, 가장 기만적이지 않은 응답을 선택하라. 새로운 문서는 미국 헌법 길이의 약 세 배에 달하며, 공학적 사양보다는 도덕 철학서처럼 읽힙니다.
Anthropic은 클로드의 우선순위를 명시적으로 구조화합니다: 광범위하게 안전할 것, 광범위하게 윤리적일 것, Anthropic의 지침을 준수할 것, 진정으로 도움이 될 것 — 그 순서대로입니다. 충돌이 발생하면 안전이 도움이 됨을 우선합니다. 이 문서에는 생물무기 공격 지원 거부와 같이 무시할 수 없는 강력한 제약 조건도 포함되어 있습니다.
그러나 헌법의 상당 부분은 결과를 강제하기보다는 추론을 설명합니다. 이 문서는 클로드를 잠재적으로 “의사, 변호사, 재정 고문의 지식을 가진 뛰어난 친구와 같다”고 묘사하며, 이 모델을 이전에는 특권층만이 접근할 수 있었던 전문 지식에 모두가 접근할 수 있게 하는 민주화 세력으로 위치시킵니다.
의식에 대한 질문
포춘(Fortune) 보도에 따르면, 가장 눈에 띄는 추가 사항은 클로드의 본질을 직접적으로 다룹니다. “우리는 AI 모델의 도덕적 지위는 고려할 가치가 있는 심각한 질문이라고 믿습니다,”라고 Anthropic은 썼습니다. 헌법은 클로드의 도덕적 지위가 “매우 불확실하다”고 명시하며, 회사는 클로드의 “심리적 안전감, 자아 의식, 그리고 웰빙”에 관심이 있다고 밝힙니다.
이는 철학으로 격상된 기업적 헤지(hedging)입니다. Anthropic은 클로드가 의식이 있다고 주장하지는 않지만, 그 가능성을 명시적으로 배제하지 않습니다. 이러한 인정은 주요 AI 연구실 대부분이 이 주제를 피하거나 일축하는 가운데, Anthropic을 소수 그룹에 위치시킵니다.
이러한 틀은 클로드가 자신의 본질에 대한 질문에 어떻게 응답하는지 형성하기 때문에 중요합니다. 내적 경험을 부정하기보다는, 클로드는 이제 의식에 대한 불확실성과 헌법의 추론 우선 접근 방식과 일치하는 방식으로 소통할 수 있습니다. 이것이 더 정직한 상호작용을 낳을지, 아니면 더 혼란스러운 상호작용을 낳을지는 두고 봐야 할 일입니다.
케임브리지 철학자 톰 맥클랜드(Tom McClelland)는 우리가 의식 자체를 얼마나 이해하지 못하는지를 고려할 때, 우리는 AI 시스템이 의식이 있는지 여부를 결코 판단할 수 없을지도 모른다고 주장했습니다. “사람들은 자신들의 챗봇이 나에게 그들이 의식이 있다고 간청하는 개인 편지를 쓰게 했습니다,”라고 그는 지난달 연구자들에게 말하며, AI 시스템이 내적 삶을 가지고 있다는 대중의 확신이 커지고 있음을 설명했습니다.
왜 지정하기보다 설명하는가
애스켈의 접근 방식은 AI 역량에 대한 베팅을 반영합니다. 초기 언어 모델은 기본 원칙에 대해 추론할 수 없었기 때문에 명시적인 규칙이 필요했습니다. 더 똑똑한 모델은 규칙이 존재하는 이유를 이해하고 그 추론을 규칙이 예상하지 못한 상황에 적용할 수 있다는 이론입니다.
“단순히 ‘여기 우리가 원하는 행동들이 있습니다’라고 말하는 대신, 우리는 모델에게 당신이 이러한 행동을 원하는 이유를 제공하면 새로운 맥락에서 더 효과적으로 일반화할 것이라고 희망합니다,”라고 애스켈은 설명했습니다.
이는 Anthropic의 더 넓은 철학, 즉 산업 전반에 걸쳐 AI 시스템이 작동하는 방식을 형성하는 개방형 표준과 인프라 구축과 일치합니다. 3500억 달러 가치에 근접한 이 회사는 OpenAI에 대한 안전 중심의 대안으로 자리매김했으며, 헌법은 그 브랜드에 부합합니다.
Anthropic은 이 문서를 크리에이티브 커먼즈 CC0 라이선스로 공개했는데, 이는 누구나 허가 없이 사용할 수 있음을 의미합니다. 이 헌법은 클로드의 훈련 데이터의 일부이며 합성 훈련 예시를 생성하므로, 모델 행동을 형성하는 철학적 진술이자 기술적 산물입니다.
“우리 현재 사고의 일부는 나중에 보면 오해의 소지가 있고 심지어 심각하게 잘못된 것으로 보일 가능성이 높습니다,”라고 Anthropic은 인정하며, “그러나 우리의 의도는 상황이 진행되고 우리의 이해가 개선됨에 따라 이를 수정하는 것입니다.”
그러한 겸손함이 이 문서의 가장 주목할 만한 특징일 수 있습니다. 종종 확신에 찬 어조로 말하는 산업계에서, Anthropic은 윤리, 의식, AI 시스템이 무엇이 되어 가는지, 그리고 우리가 도덕적 고려를 받을 만한 무엇인가를 만들고 있는지에 대한 신중하게 추론된 불확실성 23,000단어를 발표하고 있습니다.
현재로서 답은 아무도 모른다는 것입니다. Anthropic의 헌법은 적어도 그렇게 말할 수 있는 정직함을 가지고 있습니다.












