人工智能
抄袭问题:如何生成式 AI 模型复制受版权保护的内容

生成式 AI 的快速发展引发了人们对其创造潜力的兴奋。然而,这些强大的模型也带来了令人担忧的风险,包括未经适当引用而复制受版权保护或抄袭的内容。
神经网络如何吸收训练数据
像 GPT-3 这样的现代 AI 系统通过一种称为迁移学习的过程进行训练。它们从公共来源(如网站、书籍、学术论文等)中获取大量数据。例如,GPT-3 的训练数据包括 570 GB 的文本。在训练过程中,AI 搜索这些数据中的模式和统计关系。它学习了单词、句子、段落、语言结构和其他特征之间的相关性。
这使得 AI 能够通过预测给定输入或提示后可能出现的序列来生成新的连贯文本或图像。但这也意味着这些模型会在不考虑版权、引用或抄袭风险的情况下吸收内容。因此,生成式 AI 可以无意中复制其训练语料库中的逐字段落或改述受版权保护的文本。
AI 抄袭的关键例子
自 2020 年 GPT 发布以来,人们对 AI 抄袭的担忧变得突出。
最近的研究表明,大型语言模型(LLM)如 GPT-3 可以在不引用来源的情况下复制其训练数据中的大量逐字段落(Nasr et al., 2023;Carlini et al., 2022)。例如,纽约时报的一项诉讼显示,OpenAI 软件生成了几乎逐字的纽约时报文章(纽约时报,2023)。
这些发现表明,一些生成式 AI 系统可能会产生未经请求的抄袭输出,从而冒着侵犯版权的风险。然而,抄袭的普遍程度仍然不确定,因为大型语言模型的“黑盒”性质。纽约时报的诉讼认为,这样的输出构成了侵犯版权,这可能会对生成式 AI 的发展产生重大影响。总体而言,证据表明,抄袭是大型神经网络模型中固有的问题,需要警惕和防范。
这些案例揭示了两个影响 AI 抄袭风险的关键因素:
- 模型大小 – 像 GPT-3.5 这样的更大模型比小型模型更容易重新生成逐字的文本段落。它们更大的训练数据集增加了对受版权保护的源材料的曝光。
- 训练数据 – 训练在从互联网上抓取的数据或受版权保护的作品(即使是有许可的)上的模型比训练在精心策划的数据集上的模型更容易抄袭。
但是,直接测量抄袭输出的普遍程度是具有挑战性的。神经网络的“黑盒”性质使得难以完全追踪训练数据和模型输出之间的联系。速度可能严重依赖于模型架构、数据集质量和提示的制定。但这些案例证实,AI 抄袭无疑存在,这具有重要的法律和道德影响。
新兴的抄袭检测系统
作为回应,研究人员开始探索自动检测由模型生成的文本和图像与由人类创建的内容之间的区别。例如,Mila 的研究人员提出了 GenFace,它分析了 AI 写作文本的语言模式。创业公司 Anthropic 还为其对话式 AI Claude 开发了内部抄袭检测功能。
然而,这些工具存在局限性。像 GPT-3 这样的模型的巨大训练数据使得确定抄袭文本的原始来源变得困难,如果不是不可能的话。随着生成模型的快速演变,需要更强大的技术。直到那时,手动审查仍然是必不可少的,以筛选可能抄袭或侵犯版权的 AI 输出,然后将其公开使用。
减轻生成式 AI 抄袭的最佳实践
以下是 AI 开发者和用户可以采用的最佳实践,以尽量减少抄袭风险:
对于 AI 开发者:
- 仔细审查训练数据来源,以排除未经适当许可的受版权保护或许可材料。
- 开发严格的数据文档和来源跟踪程序。记录元数据,如许可证、标签、创建者等。
- 实施抄袭检测工具,以标记高风险内容在发布之前。
- 提供透明度报告,详细说明训练数据来源、许可证和 AI 输出的起源,当出现问题时。
- 允许内容创建者轻松选择退出训练数据集。快速响应删除或排除请求。
对于生成式 AI 用户:
- 彻底筛查输出是否存在任何可能抄袭或未经引用段落,然后再大规模部署。
- 避免将 AI 视为完全自治的创造系统。让人类审查者检查最终内容。
- 更喜欢 AI 辅助的人类创作,而不是从头开始生成全新的内容。使用模型进行改述或构思,而不是生成全新的内容。
- 查看 AI 提供商的服务条款、内容政策和抄袭防范措施,然后再使用。避免使用不透明的模型。
- 如果最终输出中出现任何受版权保护的材料,请清晰地引用来源。不要将 AI 的作品呈现为完全原创的。
- 限制在抄袭风险进一步评估和解决之前,将输出仅共享给私人或保密的个人。
随着生成式模型的不断增多,可能需要更严格的训练数据法规。这可能涉及要求在将创作者的作品添加到数据集中之前获得创作者的同意。然而,开发者和用户都有责任采用尊重内容创作者权利的道德 AI 实践。
Midjourney 的 V6 Alpha 中的抄袭
在有限的提示后,一些研究人员能够使用 Midjourney 的 V6 模型生成几乎与受版权保护的电影、电视节目和视频游戏截图相同的图像,可能这些图像包含在其训练数据中。
这些实验进一步证实,即使是最先进的视觉 AI 系统,如果训练数据的来源不受控制,也可能无意中抄袭受保护的内容。这凸显了在商业部署生成式模型时需要警惕、防范措施和人类监督,以限制侵犯风险。
AI 公司对受版权保护内容的回应
人工智能和人类的创造力之间的界限正在变得模糊,引发了复杂的版权问题。混合人工智能和人类输入的作品可能只有由人类执行的部分才具有版权保护。
美国版权局最近拒绝为人工智能和人类合作创作的图像小说的大部分内容提供版权保护,认为人工智能艺术是非人类创作的。它还发布了指导方针,排除人工智能系统作为“作者”。联邦法院在人工智能艺术版权案件中肯定了这一立场。
同时,诉讼声称生成式人工智能侵犯了版权,例如 Getty 诉 Stability AI 和艺术家诉 Midjourney/Stability AI。但是,没有人工智能“作者”,一些人质疑是否适用侵犯版权的主张。
作为回应,主要的 AI 公司,如 Meta、Google、Microsoft 和 Apple 辩称,他们不应该需要许可或向训练 AI 模型的版权数据支付版税。
以下是主要 AI 公司对潜在的新美国版权法规的回应摘要,包括引用:
Meta 认为 目前实施许可将会造成混乱,并不会给版权持有者带来任何好处。
Google 声称 人工智能训练与非侵犯行为类似,例如阅读一本书(Google,2022)。
Microsoft 警告说 修改版权法可能会损害小型 AI 开发者的利益。
Apple 想要 版权保护由人类开发者控制的 AI 生成代码。
总体而言,大多数公司反对新的许可要求,并淡化了人工智能系统在不引用来源的情况下复制受保护作品的担忧。然而,这种立场是有争议的,考虑到最近的人工智能版权诉讼和辩论。
负责任的生成式 AI 创新途径
随着这些强大的生成式模型的不断发展,解决抄袭风险至关重要,以获得主流的接受。需要采取多方面的方法:
- 关于训练数据透明度、许可和创作者同意的政策改革。
- 开发者更强大的抄袭检测技术和内部治理。
- 用户对风险的认识和遵循道德 AI 原则。
- 明确的法律先例和案例法关于人工智能版权问题。
有了适当的防范措施,人工智能辅助创作可以以道德的方式蓬勃发展。但是,未受控制的抄袭风险可能会严重破坏公众的信任。直接解决这个问题对于实现生成式人工智能的巨大创造潜力并尊重创作者的权利至关重要。实现正确的平衡需要积极地面对神经网络固有的抄袭盲点。但是,通过这样做,可以确保这些强大的模型不会破坏它们旨在增强的人类智慧。







