存根 剽窃问题:生成式 AI 模型如何复制受版权保护的内容 - Unite.AI
关注我们.

人工智能

剽窃问题:生成式人工智能模型如何复制受版权保护的内容

mm

发布时间

 on

人工智能抄袭

生成式人工智能的快速发展引发了人们对该技术的创造潜力的兴奋。然而,这些强大的模型也带来了在没有适当归属的情况下复制受版权保护或抄袭内容的风险。

神经网络如何吸收训练数据

像 GPT-3 这样的现代人工智能系统是通过称为迁移学习的过程进行训练的。他们获取从网站、书籍、学术论文等公共来源抓取的大量数据集。例如,GPT-3 的训练数据包含 570 GB 的文本。在训练期间,人工智能在这个庞大的数据池中搜索模式和统计关系。它学习单词、句子、段落、语言结构和其他特征之间的相关性。

这使得人工智能能够通过预测可能遵循给定输入或提示的序列来生成新的连贯文本或图像。但这也意味着这些模型吸收内容时不考虑版权、归属或抄袭风险。因此,生成式人工智能可以无意中从训练语料库中逐字复制段落或解释受版权保护的文本。

人工智能抄袭的主要例子

自 2020 年 GPT 发布以来,对 AI 抄袭的担忧就凸显出来。

最近的研究表明,像 GPT-3 这样的大型语言模型 (LLM) 可以从训练数据中逐字重现大量段落,而无需引用(Nasr 等人,2023 年;Carlini 等人,2022 年)。例如,《纽约时报》的一项诉讼揭露了 OpenAI 软件几乎逐字生成《纽约时报》的文章(纽约时报,2023).

这些发现表明,一些生成式人工智能系统可能会产生未经请求的抄袭输出,从而面临版权侵权的风险。然而,由于法学硕士的“黑匣子”性质,其流行率仍然不确定。 《纽约时报》的诉讼称,此类输出构成侵权,这可能对生成式人工智能的开发产生重大影响。总体而言,证据表明抄袭是大型神经网络模型中的一个固有问题,需要保持警惕和采取保护措施。

这些案例揭示了影响人工智能抄袭风险的两个关键因素:

  1. �ͺųߴ� – 与较小的模型相比,GPT-3.5 等较大的模型更容易重新生成逐字文本段落。他们更大的训练数据集增加了受版权保护的源材料的曝光度。
  2. 训练数据 – 与在精心策划的数据集上训练的模型相比,在抓取的互联网数据或受版权保护的作品(即使获得许可)上训练的模型更有可能抄袭。

然而,直接衡量抄袭产出的流行程度具有挑战性。神经网络的“黑匣子”性质使得很难完全追踪训练数据和模型输出之间的这种联系。比率可能在很大程度上取决于模型架构、数据集质量和提示制定。但这些案例证实了这种人工智能剽窃行为确实存在,这具有重要的法律和道德影响。

新兴的抄袭检测系统

为此,研究人员开始探索人工智能系统,以自动检测模型生成的文本和图像与人类创建的文本和图像。例如,Mila 的研究人员提出了 GenFace,它可以分析指示人工智能书写文本的语言模式。初创公司 Anthropic 还为其对话式 AI Claude 开发了内部抄袭检测功能。

然而,这些工具也有局限性。 GPT-3 等模型的大量训练数据使得查明抄袭文本的原始来源变得困难,甚至不可能。随着生成模型的不断快速发展,将需要更强大的技术。在此之前,人工审查对于在公开使用之前筛查潜在抄袭或侵权的人工智能输出仍然至关重要。

减少生成人工智能抄袭的最佳实践

以下是人工智能开发人员和用户可以采用的一些最佳实践,以最大限度地减少抄袭风险:

对于人工智能开发者:

  • 仔细审查培训数据源,排除未经适当许可的受版权保护或许可的材料。
  • 制定严格的数据文档和来源跟踪程序。记录元数据,如许可证、标签、创建者等。
  • 实施剽窃检测工具,在发布前标记高风险内容。
  • 当出现问题时,提供透明度报告,详细说明培训数据源、许可和人工智能输出的来源。
  • 允许内容创建者轻松选择退出训练数据集。快速遵守删除或排除请求。

对于生成型人工智能用户:

  • 在大规模部署之前,彻底筛选输出中是否存在任何可能抄袭或未注明来源的段落。
  • 避免将人工智能视为完全自主的创意系统。让人工审阅者检查最终内容。
  • 青睐人工智能协助人类创造,而不是从头开始生成全新的内容。使用模型进行释义或构思。
  • 使用前请咨询人工智能提供商的服务条款、内容政策和抄袭保护措施。避免不透明的模型。
  • 尽管尽了最大努力,如果最终输出中出现任何受版权保护的材料,请明确引用来源。不要将人工智能作品呈现为完全原创。
  • 限制私下或保密地共享成果,直到可以进一步评估和解决抄袭风险。

随着生成模型的不断激增,也可能需要更严格的培训数据监管。这可能涉及在将创作者的作品添加到数据集之前要求获得创作者的选择同意。然而,开发者和用户都有责任采用尊重内容创作者权利的道德人工智能实践。

Midjourney 的 V6 Alpha 存在抄袭行为

经过有限的提示后 中程V6车型 一些研究人员能够生成与训练数据中可能包含的受版权保护的电影、电视节目和视频游戏屏幕截图几乎相同的图像。

Midjourney 创建的图像类似于著名电影和视频游戏中的场景

Midjourney 创建的图像类似于著名电影和视频游戏中的场景

这些实验进一步证实,如果训练数据的来源不加检查,即使是最先进的视觉人工智能系统也可能在不知不觉中抄袭受保护的内容。它强调在商业部署生成模型以限制侵权风险时需要保持警惕、保障措施和人工监督。

AI公司对版权内容的回应

人类和人工智能创造力之间的界限正在变得模糊,从而产生了复杂的版权问题。混合人类和人工智能输入的作品可能仅在仅由人类执行的方面受版权保护。

美国版权局最近否认对人工智能人类图画小说的大部分内容享有版权,认为人工智能艺术非人类。它还发布了指导意见,将人工智能系统排除在“作者身份”之外。联邦法院在人工智能艺术版权案件中确认了这一立场。

与此同时,诉讼指控生成式人工智能侵权,例如 Getty 诉 Stability AI 案和艺术家诉 Stability AI 案。 中途/稳定性人工智能。但如果没有人工智能“作者”,一些人质疑侵权索赔是否适用。

对此,Meta、谷歌、微软和苹果等主要人工智能公司辩称,他们不需要许可证或支付版税来使用受版权保护的数据训练人工智能模型。

以下是主要人工智能公司针对美国关于人工智能的潜在新版权规则的主要论点摘要,并附有引文:

认为 现在强制实施许可会造成混乱,并且对版权持有者几乎没有什么好处.

谷歌 索赔 AI训练类似于读书等非侵权行为 (谷歌,2022)。

微软 警告 改变版权法可能会使小型人工智能开发商处于不利地位.

Apple 想要 版权由人类开发人员控制的人工智能生成代码.

总体而言,大多数公司反对新的许可授权,并淡化了对人工智能系统在没有归属的情况下复制受保护作品的担忧。然而,鉴于最近的人工智能版权诉讼和辩论,这一立场存在争议。

负责任的生成式人工智能创新之路

随着这些强大的生成模型的不断发展,堵住抄袭风险对于主流接受至关重要。需要采取多管齐下的方法:

  • 围绕培训数据透明度、许可和创建者同意进行政策改革。
  • 更强大的抄袭检测技术和开发人员的内部治理。
  • 提高用户的风险意识并遵守人工智能道德原则。
  • 关于人工智能版权问题的明确的法律先例和判例法。

有了正确的保障措施,人工智能辅助的创作就能在道德上蓬勃发展。但未经控制的抄袭风险可能会严重损害公众的信任。直接解决这个问题是在尊重创作者权利的同时实现生成人工智能巨大创造潜力的关键。实现正确的平衡需要积极面对神经网络本质中内置的抄袭盲点。但这样做将确保这些强大的模型不会破坏它们旨在增强的人类创造力。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。