中国提议加强对深度伪造和其他人工智能合成系统的监管

发布于 2022年1月28日

更新于 2026年5月24日

作者

Martin Anderson

中国网络空间管理局（CAC）已提出一套新的草案法规来管制人工智能辅助的合成系统，包括深度伪造、虚拟现实场景、文本生成、音频和其他人工智能媒体合成的子领域——这是一个中国每个月都会产生大量学术论文和创新研究项目的领域。

中国网络空间管理局的官方网站上的一篇帖子（谷歌翻译，原文见这里）概述了拟议的义务，并将受影响的服务称为“深度合成服务提供商”，邀请公民通过提交对草案提案的评论来参与，截止日期为2月28日。

虽然拟议的法规已被报道为其对深度伪造的创建和传播的潜在影响，但该文件试图对算法生成任何类型的内容的能力进行全面管制，这些内容可以被解释为广义上的“媒体”。

第2条规定了拟议的法规在六个领域的范围：

(1) 生成或编辑文本内容的技术，例如章节生成、文本风格转换和问答对话；

(2) 生成或编辑语音内容的技术，例如文本转语音、语音转换和语音属性编辑；

(3) 生成或编辑非语音内容的技术，例如音乐生成和场景音效编辑；

(4) 面部生成、面部替换、角色属性编辑、面部操作、手势操作和其他生成或编辑生物特征的技术，例如图像和视频内容中的面部；

(5) 编辑图像和视频内容中的非生物特征的技术，例如图像增强和图像恢复；

(6) 生成或编辑虚拟场景的技术，例如3D重建。

中国在2019年底将人工智能用于传播虚假新闻的行为定为犯罪行为，当时中国网络空间管理局对深度伪造技术的潜在影响表示担忧，这使得许多人认为中国政府最终会完全禁止深度伪造技术。

然而，这将意味着中国正式放弃媒体生成、人工智能甚至政治史上最重要的发展之一，并将自己与全球和开放的科学合作的好处隔离开来。

因此，似乎中国现在决定尝试控制而不是禁止这种潜在的流氓技术，这种技术最终将从其色情加速器阶段转变为合法和可开发的用例，尤其是在娱乐领域。

第2.6条解决了虚拟场景的生成或编辑问题，例如3D重建，这是一种比深度伪造更为初生的技术，近两年来通过神经辐射场（NeRF）的出现而获得了最大的关注度，在这种技术中，使用摄影测量法来合成机器学习模型的潜在空间中的整个场景。

然而，NeRF 正在迅速扩展其范围，从模型的表aux和环境的走-through 到全身视频的生成，中国研究人员在这方面已经取得了一些重大创新。

中国的 ST-NeRF 在行动。

虽然 NeRF 自 2020 年宣布以来已经产生了大量新的研究，但其在 VR 或 AR 系统中的实施或其在视觉效果管道中的适用性仍然存在许多显著的挑战和技术瓶颈。NeRF 恢复和编辑完整的人体生理特征的能力尚未纳入任何标准的身份转换深度伪造能力，这些能力在过去两年中一直是头条新闻的特征。

如果我们将第2条的列表顺序视为中国最关心的深度合成技术的指示，那么这将表明基于文本的AI生成的虚假新闻是主要关注点，语音合成优先于视频深度伪造，考虑到其潜在影响。

如果是这样，那么这与这样一个事实相符：深度伪造视频尚未在任何与色情无关的犯罪中使用（亚洲尚未犹豫将深度伪造色情定为犯罪），而深度伪造音频已经被认为是至少两起重大金融犯罪中的活跃技术，分别发生在2019年的英国和2021年的阿联酋。

新拟议的法规要求希望通过使用机器学习系统利用某人身份的用户必须获得该个人的书面许可。另外，合成媒体必须显示某种“突出的”标志或水印，或其他手段，以便使消费该材料的人能够理解该内容已被修改或完全伪造。然而，在音频深度伪造的情况下，尚不完全清楚如何实现这一点。

如果通过，拟议的草案将要求深度合成服务提供商按照现有的互联网信息服务算法推荐管理规定，将其相关应用程序注册到国家，并遵守所有必要的备案程序。深度合成提供商还将被要求在监督和检查方面进行合作，并在请求时提供“必要的技术和数据支持和协助”。

此外，这些提供商将需要建立用户友好的投诉门户，并发布处理投诉的预期时间限制，以及被要求提供“辟谣机制”——尽管拟议的草案并未对此进行详细说明。

违规行为可能会导致10,000至100,000元（1,600美元至16,000美元）的罚款，并可能使违规公司面临民事和刑事诉讼。

* 翻译由谷歌翻译提供，见文章开头的链接。

首次发布于2022年1月28日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI