Connect with us

人工智能

AI 对抗作者:为什么版权诉讼只是开始

mm
AI vs. Authors: Why Copyright Lawsuits Are Just the Beginning

生成式 AI 已经极大地改变了数字世界。它允许任何人快速、轻松地创建文本、图像和其他形式的媒体。这一进步依赖于大量的数据集,包括书籍、新闻文章、网站和其他创作作品。这些数据集训练 大型语言模型 (LLM) 以写作、推理和生成类似于人类创造力的内容。

然而,这种力量也引发了重大的争议。作者、艺术家和出版商越来越多地挑战开发这些系统的科技公司。他们声称自己的受版权保护的作品被未经许可或支付而使用。法院已经成为创作所有权和版权限制争议的主要场所。

这些诉讼不仅仅是关于金钱或信用的问题。它们是关于 AI 和训练这些模型的公司的道德责任的更广泛讨论的开始。结果将影响创作者的权利以及社会如何在机器时代定义原创性和所有权。

这个问题反映了技术进步与保护需求之间日益增长的紧张关系。生成式 AI 提供了新的创造力和合作机会。然而,它也引发了人们对公平、同意和在机器训练中使用人类创作作品的担忧。即将到来的法律决定将在确定谁控制创作内容在这个新技术时代中发挥关键作用。

生成式 AI 如何使用受版权保护的内容

为了理解当前的法律纠纷,了解生成式 AI 系统的训练方法是必要的。像 ChatGPTClaudeStable Diffusion 这样的模型从包含文本、图像和其他数字内容的巨大数据集中学习。通过研究这些材料,它们识别语言模式、艺术风格和词语和想法之间的关系。这使得它们能够创建看似由人类生成的新内容。

然而,这些训练数据中很大一部分是受版权保护的材料,包括书籍、新闻文章、学术论文、歌曲和艺术作品。其中大部分是没有原始创作者直接同意而收集的。像 Books3The PileCommon Crawl 这样的数据集,通常被称为影子图书馆,经常被链接到 AI 训练。这些集合包含数百万件作品,帮助 AI 系统学习如何像人类一样写作、绘画或作曲。

这种做法已经变得非常有争议。许多作家和艺术家认为这相当于大规模的数据爬取,剥削创作劳动而不承认或支付报酬。他们认为这不公平地让技术公司受益,同时破坏了人类创造力的价值。另一方面,AI 开发者声称,在 合理使用 原则下使用此类材料是合法的。他们将机器学习与人们通过阅读和观察周围世界的方式进行比较。

这种分歧引发了关于是否应该将在受版权保护的作品上训练 AI 视为创新或侵权的最重要的辩论之一。这个辩论的结果将决定社会如何平衡人类的创造力与人工智能日益增长的影响。

主要 AI 版权诉讼及其法律影响

最近的法院案件表明,AI 和版权的争论正在从理论讨论转向真正的法律行动。作者和艺术家正在起诉 AI 公司以保护他们的作品。这些案件涉及 AI 系统是否在未经许可的情况下复制了书籍、图像或其他创作内容。法院现在需要明确的复制证据,这限制了可以成功的诉讼请求。每个诉讼都强调了法律的不同部分,并提出了关于创作者权利如何在 AI 时代受到尊重的问题。

Tremblay v. OpenAI

小说家 Mona Awad 和 Paul Tremblay 声称 OpenAI 未经许可使用他们的书籍来训练 ChatGPT。他们认为 ChatGPT 总结他们的小说表明了版权侵权。他们还声称 OpenAI 通过删除版权信息违反了 DMCA。

2024 年 3 月,法官 Araceli Martínez-Olguín 驳回了大部分诉讼请求,包括 DMCA、过失和不公平富裕的诉讼请求,因为原告无法证明特定的复制段落。一个较小的直接版权侵权诉讼请求仍然被允许。原告必须证明 ChatGPT 的输出与他们的书籍在实质上相似。

Authors Guild v. OpenAI 和 Microsoft

2023 年 9 月,Authors Guild 和 17 位作者,包括 George R.R. Martin、John Grisham、Jonathan Franzen 和 Jodi Picoult,在纽约提起了集体诉讼。他们声称 OpenAI 和 Microsoft 复制了数百万本书,通常来自盗版网站,以训练 AI 模型而不经同意。

诉讼还强调了市场替代效应,称读者可能使用 AI 来创建内容而不是购买原作。2023 年 12 月,Microsoft 成为共同被告。该案仍在进行中,尚未有重大判决。

Bartz v. Anthropic

2023 年 10 月,作者 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 起诉 Anthropic,Claude AI 的创造者。他们声称 Anthropic 使用了盗版数据集,包括 Books3、LibGen 和 Pirate Library Mirror,来训练其模型。

2025 年 6 月,法官 William Alsup 裁定,在合法获得的书籍上训练可能被视为合理使用,但在盗版书籍上训练则不被视为合理使用。2025 年 9 月,Anthropic 同意了一项 15 亿美元的和解,涵盖了大约 50 万件作品。这是美国历史上最大的版权和解之一。

Andersen v. Stability AI

2023 年 1 月,艺术家 Sarah Andersen、Karla Ortiz 和 Kelly McKernan 起诉 Stability AI、Midjourney 和 DeviantArt。他们声称数百万张图像被未经许可复制来训练文本到图像 AI 模型。

他们的诉讼请求包括版权侵权、DMCA 违规、不公平富裕和虚假代言,认为 AI 输出复制了他们的艺术风格。2024 年 8 月,法官 William Orrick 驳回了 DMCA 诉讼请求,但允许直接版权侵权和诱导诉讼请求继续进行。该案仍在进行中。

这些诉讼表明法院正在开始定义 AI 训练的法律界限。结果将影响创作者和 AI 开发者,并影响未来机器学习中如何使用创作内容。

AI 和版权的灰色地带

AI 版权案件中的大问题是,未经许可使用创作作品是否公平。合理使用原则允许为研究、教育或批评等目的有限地使用受版权保护的材料。但是,将其应用于 AI 是复杂的。像 ChatGPT 或 Stable Diffusion 这样的模型复制、分析和从数百万件作品中学习。这与人类使用内容的方式非常不同,并且提出了新的法律挑战。通常,四个要点来判断合理使用:

  • 目的和性质:AI 训练真的创造了新东西,还是只是大规模地复制?
  • 作品性质:材料是事实性的还是高度创造性的?
  • 使用量和实质性:使用了多少作品,并且是否取代了原作的核心?
  • 对市场的影响:AI 是否降低了原作的销售或价值?

AI 公司认为训练是转化性的。他们说模型不像人类一样阅读。相反,它们检测模式并以新的方式重新组合它们。他们将其与人们通过阅读或观察学习的方式进行比较。批评者对此提出质疑。当 AI 可以复制作者的风格或艺术家的签名时,输出可以在市场中取代原作。然后很难将其称为仅仅是学习。

另一个问题是,版权法是为人类而非机器制定的。法院现在被迫决定,AI 复制是否构成学习或侵权。几乎没有先例。这意味着法官必须重新考虑创造力、作者身份和什么构成衍生作品的基本概念。

一些专家建议创建 AI 训练的许可系统。权利持有者可以允许他们的作品在训练中使用,以换取报酬。这将类似于数字时代的音乐或摄影许可。这样的系统可能会在创新和公平性之间取得平衡,但它们也挑战了仅凭合理使用原则来管辖 AI 训练的假设。

辩论不仅仅是法律问题。它提出了更深层次的问题:是否应该允许 AI 公司在未经许可或报酬的情况下自由使用人类的创造力,还是应该让创作者控制他们的作品如何被用于教机器。答案将塑造 AI 和人类创作权利的未来。

AI 版权辩论的道德和全球维度

关于 AI 和版权的讨论超出了法律范围。它还涉及道德和全球问题。关键问题是,是否可以接受机器在未经许可或报酬的情况下从人类的创造力中受益。

对于许多作者和艺术家来说,这个问题并非理论性的。生成式 AI 现在可以产生与人类作品竞争的故事、图像和文章。这减少了潜在的收入,并削弱了创作控制。问题是,这些系统的训练数据中包含了未经许可而收集的受版权保护的材料。这提出了关于所有权和对知识劳动的尊重的道德问题。

从伦理角度来看,这样的做法类似于一种数据提取,人类的想法和表达被视为大型科技公司的免费资源。这些公司从个人的创作作品中获取价值,但往往没有提供相应的报酬或认可。这加剧了全球科技产业和独立创作者之间的差距。

还有文化问题。随着 AI 系统重用现有材料,它们可能会限制创作生产中的原创性和多样性。互联网有可能充满重复的内容,减少真正创新和独特声音的空间。因此,伦理辩论也包括 AI 如何影响全球创造力的质量和方向。

与此同时,AI 训练中的公平性问题已经成为全球政策问题。虽然大多数法律案件发生在美国,但其他地区也出现了类似的发展。印度的媒体组织已经挑战了 AI 公司使用他们的新闻内容。欧盟的 AI 法案引入了严格的透明度要求,要求公司披露它们用于 AI 应用的数据集。英国正在审查其关于文本和数据挖掘的政策,而日本采取了更开放的态度,允许更广泛地使用数据来推动创新。

这些相互矛盾的立场表明,目前尚无全球共识关于如何在创造力和技术进步之间取得平衡。一些国家偏向保护创作者,而其他国家则专注于促进创新。一个共享的国际框架,例如许可或注册系统,可以帮助更公平地管理同意和报酬。AI 和版权的未来将取决于是否可以采取协调措施,以确保创作权和负责任的技术增长。

AI 时代中合理使用和创作权的下一步

即使 AI 公司在当前的诉讼中胜诉,关于公平性和知识产权的更广泛的辩论也将继续。立法者和行业领袖已经在努力制定新的规则,以使 AI 训练更加透明和负责。在美国和欧盟,拟议的改革旨在给创作者更多地控制他们的作品如何被使用。

一个主要的提议是要求 AI 开发者披露他们的训练数据的确切来源。这将表明是否在未经同意的情况下包含受版权保护的作品。另一个想法是创建退出系统,允许作者和艺术家将他们的内容从 AI 数据集中排除。一些政策制定者还建议建立数据集注册表或许可平台,类似于音乐行业中使用的许可。这些系统可以帮助跟踪数据使用情况,并通过有组织的许可确保公平的补偿。

与此同时,科技公司正在开发自己的工具来促进创作作品的道德使用。诸如归属标签、数字水印和区块链跟踪等方法可以显示创作者的作品何时以及如何在 AI 训练或输出中使用。这些解决方案可以帮助保持透明度,并给创作者更多地控制他们的贡献。

对于个人艺术家和作家,个人行动仍然很重要。他们应该注册他们的版权,使用可用的退出工具,并加入倡导公平待遇的专业协会。

结论

关于 AI 和版权的讨论正在进行且复杂。虽然法院解决特定案件,但更大的挑战是平衡技术创新与创作权的保护。生成式 AI 提供了新的创造可能性,但它依赖于人类创作的作品。

合理使用、透明度和许可框架对于确保创作者获得认可和补偿至关重要。这些规则的制定将决定创作产业和 AI 应用的未来。设计允许技术发展而不损害人类创造力的系统至关重要。保护作者和艺术家的权利将有助于维护公平性并支持 AI 时代的可持续创新。

阿萨德·阿巴斯博士(Dr. Assad Abbas)是巴基斯坦伊斯兰堡COMSATS大学的终身副教授,他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文,并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。