์ธ๊ณต์ง๋ฅ
์ฐ๋ฆฌ๋ ๋ ์ด์ AI๋ฅผ ์ ๋ ฌํ์ง ์๋๋ค. ์ฐ๋ฆฌ๋ ๋ฌธ๋ช ์ ์ ๋ ฌํ๋ค.

수년 동안 인공 지능(AI)의 주요 질문은 AI 모델을 인간의 가치와 어떻게 정렬할 것인가였다. 연구자들은 AI의 결정에 영향을 미치는 안전 규칙, 윤리 원칙, 제어 메커니즘을 정의하려고 시도했다. 이 작업은 상당한 진전을 이루었다. 그러나 이제 이러한 AI 시스템이 더 강력하고 广泛해짐에 따라 정렬의 초점이 변화하기 시작했다. 한 모델을 한 세트의 지침에 정렬하는挑戰에서 시작하여 이제는 이러한 시스템을 글로벌 규모에서 사용하는 전체 문명을 정렬하는 훨씬 더 큰 挑戰이 되었다. AI는 더 이상 단순한 도구가 아니다. 그것은 사회가 일하고, 의사소통하고, 협상하고, 경쟁하는 환경으로 진화하고 있다. 결과적으로 정렬은 더 이상 기술적인 문제가 아니다. 그것은 문명의 문제가 되었다. 이 기사에서 나는 왜 정렬이 더 이상 모델에 대한 것이 아니며 왜 우리는 기계 대신 문명을 고려하기 시작해야 하는지 설명한다. 또한 이 변화가 우리의 책임에 어떻게 영향을 미치고 무엇을 의미하는지에 대해 논의한다.
AI는 누구의 가치를真正로 대표하는가?
당신이 AI에게 민감한 역사적 사건에 대해 묻는다면, 그 대답은 그것이 공부한 데이터에 달려 있다. 만약 그 데이터가 대부분 서양 인터넷에서 온다면, 그 대답은 서양의 편향을 갖게 될 것이다. 그것은 개인주의, 개방적인 발언, 민주주의 이상을 우선시할 것이다. 이러한 가치는 많은 사람들에게 좋은 가치이다. 그러나 그것은 세계에서 유일한 가치가 아니다.
싱가포르의 사용자, 리야드의 사용자, 샌프란시스코의 사용자는 각각 다른 정의를 가지고 있다. 어떤 문화에서는 절대적인 발언의 자유보다 사회적 조화를 더 중요하게 여긴다. 다른 문화에서는 혼란보다 등급을 존중하는 것이 더 중요하다.
Silicon Valley의 회사에서 “Reinforcement Learning from Human Feedback“(RLHF)를 사용할 때, 그들은 인간을 고용하여 AI의 답변을 평가한다. 그러나 이 인간들은 누구이며, 무엇을 믿는가? 만약 그들이 모델을 미국 표준에 정렬한다면, 그들은 우연히 미국 문화 수출품을 구축하고 있다. 그들은 한 특정 문명의 규칙을 세계의 나머지 부분에 강제하는 디지털 외교관을 구축하고 있다.
피드백 루프의 등장
도전은 단순히 AI가 한 문화의 신념을 반영하는 것이 아니다. 그것은 그 신념이 우리를 어떻게 변화시키는가이다. 현대적인 AI 시스템은 개인, 조직, 심지어 국가의 행동을 형성할 수 있다. 그것은 우리가 어떻게 생각하고, 일하고, 신뢰하고, 경쟁하는지에 영향을 미칠 수 있다. 이것은 AI 시스템과 인간 사회 사이에 피드백 루프를 생성한다. 우리는 AI를 훈련시키고, AI는 우리가 어떻게 생각하고 행동하는지에 영향을 미친다. 이러한 루프는 AI가 더广泛해짐에 따라 강해지고 있다. 이 피드백 루프가 어떻게 작동하는지 보려면, 두 가지 예가 있다:
- 대규모 AI 배포는 사회적 행동을 변경하며, 사회적 행동은 새로운 시스템을 훈련하는 데이터를 변경한다. 예를 들어, 추천 알고리즘은 사람들이 무엇을 보는지, 읽는지, 믿는지에 영향을 미칠 수 있다. 생산성 도구는 팀이 어떻게 협력하고 학생이 어떻게 배우는지 다시塑造한다. 이러한 행동의 변화는 다른 시청习慣, 직장 커뮤니케이션 패턴, 또는 글쓰기 스타일의 형태로 데이터 패턴을 변경한다. 이 데이터가 미래의 훈련 데이터 세트에 흐르면, 모델은 그들의 가정과 출력을 따라 조정한다. 인간의 행동은 모델을塑造하며, 모델은 다시 인간의 행동을塑造한다.
- 자동화된 의사 결정 도구는 공공 정책에 영향을 미치며, 공공 정책은 미래의 모델 훈련에 영향을 미친다. 예를 들어, 많은 정부는 이제 AI를 사용하여 자원을 할당하는 곳을 식별하거나 범죄 위험이 더 높은 지역을 식별하는 데 사용한다. 정책 입안자가 이러한 추천에 따라 행동할 때, 그 결정의 결과는 나중에 새로운 데이터 세트의 일부가 된다. 시간이 지남에 따라 AI에 의해 형성된 정책 결정은 다음 세대의 AI 모델을 형성한다.
한번 이 피드백 루프를 인식하면, AI가渐渐적으로 문명을 정렬하고 있음을 알 수 있다. 결과적으로 국가들은 어떻게 하면 그들의 가치를 보호하면서 사회와 기관에 AI를 통합할 수 있는지 묻기 시작한다.
주권 AI의 등장
이 정렬 挑戰은 전 세계 정부로부터重大한 반응을 불러일으켰다. 국가들은 수입 AI에 의존하는 것이 그들의 주권에 대한 위험임을 깨달았다. 그들은 그들의 시민들이 외국인의 생각하는 블랙 박스에 의해 교육되고, 정보를 제공받고, 조언을 받는 것을 허용할 수 없다.
이 깨달음은 “주권 AI“의 등장으로 이어졌다. 프랑스는 프랑스어를 말하고 프랑스 법과 문화를 이해하는 모델을 구축하기 위해大量으로 투자하고 있다. 인도는 문화적 가치를 보장하기 위해 원주민 AI 모델을 구축하고 있다. 아랍 에미리트와 중국은 자신의 국가 비전과 정렬된 AI 모델을 구축하고 있다.
이것은 새로운 무기 경쟁이다. 이것은 내러티브 제어를 위한 경쟁이다. 한 문명이 자신의 AI를 가지지 않는다면, 결국에는 자신의 기억을 잃을 것이다. 만약你的孩子이 기계에게 질문을 하면, 기계가 다른 문화의 논리로 대답한다면,你的文化는渐渐적으로 침식된다. 그러나 이 깨달음은 서로 다른 디지털 블록의 형성을 가져올 수 있다. 우리는 서양 AI, 중국 AI, 인도 AI 등이 있을 수 있다. 이러한 시스템은 다른 사실과 다른 도덕적 지침으로 작동할 것이다. 이러한 발전은 우리가真正로 정렬된 AI 모델을 만들기 위해서는 먼저 문명을 정렬해야 함을 명확히 한다.
외교 AI의 필요성
전통적인 정렬은 모델을 주의 깊게 훈련하고, 프롬프트하고, 가드레일을 통해 정렬할 수 있다고 가정한다. 이러한 생각은 초기 AI 안전 연구의 기술적인 마음가짐에서 나온다. 그러나 даже 완벽한 모델 수준의 정렬도 문명의 挑戰을 해결할 수 없다. 정렬은 사회가 서로 반대되는 방향으로 끌 때 안정적으로 유지될 수 없다. 만약 국가, 회사, 커뮤니티가 상반된 목표를 가지고 있다면, 그들은 AI 시스템을 그들의 충돌을 반영하도록 밀어붙일 것이다. 이러한 한계는 정렬이 기술적인 문제만이 아님을 보여준다. 그것은 거버넌스, 문화, 조정 문제이다. 그리고 이러한 문제는 전문가나 개발자만이 아니라整个 문명을 포함한다.
那么, 우리는 어떻게 앞으로 나아갈 수 있는가? 만약 우리가 보편적인 정렬이 불가능하다는 것을 인정한다면, 우리는 우리의 전략을 변경해야 한다. 우리는 기술적인 해결책을 찾는 것을停止해야 한다. 우리는 철학적인 문제에 대한 외교관처럼 생각하기 시작해야 한다. 우리는 “문명의 정렬”을 위한 프로토콜을 구축해야 한다. 우리는 어떻게 AI가 한 사회의 신념과 가치를尊重할 수 있는지, 다른 문화의 신념을 강제하지 않는지 알아야 한다. 즉, 우리는 알고리즘을 위한 디지털 유엔을 필요로 한다.
이것은 투명성을 필요로 한다. 현재 우리는 실제로 모델의 깊은 층에 숨겨진 가치에 대해 알지 못한다. 우리는 오직 출력만을 본다. 문명을 정렬하기 위해서는 각 모델의 “헌법”이 명확해야 한다. 모델은 자신의 편향을 선언할 수 있어야 한다. 그것은 “나는 이 데이터, 이 안전 규칙, 이 가치를 우선시하여 훈련되었다”고 말할 수 있어야 한다. 편향이 보일 때만 우리는 시스템을 신뢰할 수 있다. 사용자는 관점을 전환할 수 있어야 한다. 당신은 질문을 하고 “서양” 모델이 어떻게 대답하는지와 “동양” 모델이 어떻게 대답하는지 볼 수 있어야 한다. 이것은 AI를 이해를 위한 도구로, 아니라 강요를 위한 도구로 바꿀 것이다.
결론
우리는 터미네이터에 대해 너무 많은 시간을 걱정했다. 실제 위험은 로봇이 우리를 파괴하는 것이 아니다. 실제 위험은 로봇이 우리가 누구인지 잊어버리게 하는 것이다. 정렬은 한 번 작성하고 잊어버릴 수 있는 코드가 아니다. 그것은 우리의 신념과 가치에 맞춰 AI 모델과不断한 협상을 하는 것이다. 그것은 정치적인 행위이다. 우리는 지능의 다음 단계로 이동함에 따라, 우리는 화면 너머를 보아야 한다. 우리는 AI가 우리의 역사, 우리의 국경, 우리의 신념을 어떻게 해석하는지 고려해야 한다. 우리는 세상을 운영하는 데 도움이 되는 마음을 구축하고 있다. 우리는 그 마음이 문명의 차이를尊重하는지 확인해야 한다.












