Unite.AI

Artificial Intelligence1 month ago
By Dr. Tehseen Zia

我们不再对齐AI，而是在对齐文明

多年来，人工智能（AI）领域的主要问题是如何使AI模型与人类价值观保持一致。研究人员试图定义安全规则、伦理原则和控制机制来指导AI决策。这项工作取得了重大进展。但现在，随着这些AI系统变得更强大、更普及，对齐的重点开始转移。最初只是将单个模型与一套指令对齐的挑战，如今已演变成在全球范围内对齐使用这些系统的整个文明的更大挑战。AI不再仅仅是一种工具。它正在演变成一个社会在其中工作、交流、协商和竞争的环境。因此，对齐不再是一个技术问题。它已经成为一个文明问题。在本文中，我将解释为什么对齐不再仅仅是关于模型，以及为什么我们必须开始从文明而非机器的角度思考。我还将讨论这种转变如何影响我们的责任，以及这对全球合作意味着什么。AI究竟代表谁的价值观？如果你向AI询问一个敏感的历史事件，它的答案取决于它所学习的数据。如果这些数据主要来自西方互联网，答案就会带有西方偏见。它会优先考虑个人主义、言论自由和民主理想。对许多人来说，这些都是好的价值观。但它们并非世界上唯一的价值观。新加坡的用户、利雅得的用户和旧金山的用户对于什么是“有益的”、什么是“有害的”有着不同的定义。在某些文化中，社会和谐比绝对的言论自由更重要。在其他文化中，对等级制度的尊重比颠覆更重要。当硅谷公司使用“基于人类反馈的强化学习”（RLHF）时，他们会雇佣人类来评估AI的答案。但这些人是哪些人？他们的信仰是什么？如果他们按照美国标准来对齐模型，他们就是在无意中构建一种美国文化输出品。他们正在构建一个数字外交官，将一种特定文明的规则强加给世界其他地区。反馈循环的兴起挑战不仅在于AI反映了一种文化的信仰，更在于这些信仰如何改变我们。现代AI系统有可能塑造个人、组织甚至国家的行为。它们可以影响我们的思考、工作、信任和竞争方式。这在AI系统与人类社会之间创造了反馈循环；我们训练AI，而AI塑造我们的思维和行为方式。随着AI变得越来越普及，这些循环正在变得更强。为了了解这个反馈循环如何运作，这里有两个例子：大规模的AI部署改变了社会行为，而社会行为又改变了训练新系统的数据。例如，推荐算法可以塑造人们观看、阅读和相信的内容。生产力工具重塑了团队协作和学生学习的模式。这些行为上的转变以不同的观看习惯、职场沟通模式或写作风格等形式改变了数据模式。当这些数据流入未来的训练数据集时，模型会相应地调整其假设和输出。人类行为塑造模型，而模型反过来又塑造人类行为。自动化决策工具影响公共政策，而公共政策又影响未来的模型训练。例如，许多政府现在使用AI来建议资源分配，例如识别哪些社区需要更多的医疗支持，或者哪些地区可能有更高的犯罪风险。当政策制定者根据这些建议采取行动时，这些决策的结果后来会成为新数据集的一部分。随着时间的推移，由AI塑造的政策决策最终会塑造下一代AI模型。一旦你认识到这个反馈循环，就会清楚地看到AI正在逐渐塑造和对齐文明。因此，各国开始提出疑问：在将AI融入其社会和制度的同时，如何能保障自己的价值观？主权AI的出现这种对齐挑战已引发全球各国政府的重大反应。各国已经意识到，依赖进口AI对其主权构成风险。他们无法承受让公民接受一个像外国人一样思考的黑匣子的教育、信息和建议。这种认识导致了“主权AI”的兴起。法国正在大力投资构建说法语并理解法国法律和文化的模型。印度正在构建本土AI模型以确保其文化价值观。阿拉伯联合酋长国和中国正在构建与其各自国家愿景一致的AI模型。这是一场新的军备竞赛。这是一场叙事控制权的竞赛。一个没有自己AI的文明最终将失去自己的记忆。如果你的孩子向机器提问，而机器用不同文化的逻辑回答，你的文化就开始被侵蚀。然而，这种认识可能导致形成不同的数字阵营。我们最终可能会有西方AI、中国AI、印度AI等等。这些系统将基于不同的事实和不同的道德指南针运作。这些发展清楚地表明，如果我们想创建一个单一的、真正对齐的AI模型，我们必须首先找到一种对齐文明的方法。需要外交型AI传统的对齐假设模型可以通过精心训练、提示和护栏来对齐。这种思维源于早期AI安全研究的技术心态。但即使是完美的模型级对齐也无法解决对齐文明的挑战。当社会向相反方向拉扯时，对齐无法保持稳定。如果国家、公司和社区的目标相互冲突，它们将推动AI系统反映这些冲突。这些限制表明，对齐不仅是一个技术问题。它是一个治理、文化和协调问题。这些问题不仅需要专家或开发者参与，还涉及整个文明。那么，我们该如何前进？如果我们接受普遍对齐是不可能的，就必须改变策略。我们需要停止为一个哲学问题寻找技术解决方案。我们需要开始像外交官一样思考。我们需要为“文明对齐”建立协议。我们需要弄清楚AI如何能尊重一个社会的信仰和价值观，而不将其他文化的信仰强加于它。换句话说，我们需要为我们的算法建立一个数字联合国。这需要透明度。目前，我们并不真正知道神经网络的深层隐藏着什么价值观。我们只看到输出。为了对齐文明，我们需要明确每个模型的“宪法”。一个模型应该能够声明其偏见。它应该能够说：“我是在这些数据上训练的，遵循这些安全规则，优先考虑这些价值观。”只有当偏见可见时，我们才能信任这个系统。用户应该能够在不同视角之间切换。你应该能够提出一个问题，看看“西方”模型如何回答，而“东方”模型如何回答。这将使AI成为一种理解工具，而不是灌输工具。核心要点我们花了太多时间担心终结者。真正的风险不是机器人摧毁我们。真正的风险是机器人让我们忘记自己是谁。对齐不是我们可以编写一次就忘记的代码。它是与AI模型持续进行的谈判，以使其与我们的信仰和价值观保持一致。这是一种政治行为。随着我们进入智能时代的下一阶段，我们必须超越屏幕。我们必须考虑AI如何解读我们的历史、我们的边界和我们的信仰。我们正在构建将帮助我们管理世界的心智。我们必须确保这些心智尊重文明之间的差异。

Unite.AI

我们不再对齐AI，而是在对齐文明