人工智能
从训练好的 LLM 中去除版权数据 – 是否可能?

在人工智能(AI)和机器学习(ML)领域,大的语言模型(LLMs)展示了成就和挑战。这些模型是在大量的文本数据集上训练的,LLM 模型涵盖了人类的语言和知识。
然而,它们吸收和模仿人类理解的能力带来了法律、道德和技术挑战。此外,驱动LLMs的庞大数据集可能包含有毒材料、版权文本、不准确或个人数据。
使LLMs忘记选定的数据已成为一个紧迫的问题,以确保法律合规性和道德责任。
让我们探索使LLMs忘记版权数据的概念,以解决一个基本问题:是否可能?
为什么需要LLM忘记?
LLMs通常包含有争议的数据,包括版权数据。在LLMs中拥有此类数据会带来与私人信息、偏见信息、版权数据和虚假或有害元素相关的法律挑战。
因此,忘记是为了保证LLMs遵守隐私法规和遵守版权法律,促进负责任和道德的LLMs。

然而,从这些模型所获得的庞大知识中提取版权内容是具有挑战性的。以下是一些可以帮助解决这个问题的忘记技术:
- 数据过滤:它涉及系统地识别和删除模型训练数据中的版权元素、噪音或偏见数据。然而,过滤可能会导致在过滤过程中丢失有价值的非版权信息。
- 梯度方法:这些方法根据损失函数的梯度调整模型的参数,解决ML模型中的版权数据问题。然而,调整可能会对模型在非版权数据上的整体性能产生不利影响。
- 上下文忘记:这种技术通过更新其参数来有效地消除特定训练点对模型的影响,而不会影响无关的知识。然而,该方法在实现精确的忘记方面面临限制,特别是在大型模型中,其有效性需要进一步评估。
这些技术是资源密集型和耗时的,使得它们难以实施。
案例研究
为了理解LLM忘记的重要性,这些真实案例强调了公司如何面临与大型语言模型(LLMs)和版权数据相关的法律挑战。
OpenAI诉讼: OpenAI,一家著名的AI公司,已被多起诉讼针对,质疑LLMs的训练数据。这些法律行动质疑在LLMs训练中使用版权材料,并引发了人们对模型用于确保每个版权作品在其训练过程中获得许可的机制的质疑。
莎拉·西尔弗曼诉讼: 莎拉·西尔弗曼案件涉及一项指控,ChatGPT模型在未经授权的情况下生成了她书籍的摘要。这一法律行动凸显了人工智能和版权数据的未来所带来的重要问题。
更新法律框架以适应技术进步,确保人工智能模型的负责任和合法使用。此外,研究社区必须全面解决这些挑战,以使LLMs变得道德和公平。
传统LLM忘记技术
LLM忘记就像从一个复杂的配方中分离出特定的成分,确保只有期望的组件有助于最终的菜肴。传统的LLM忘记技术,例如使用精心策划的数据和重新训练,缺乏删除版权数据的直接机制。
它们的宽泛方法通常被证明对于选择性忘记的复杂任务来说效率低下和耗费资源,因为它们需要大量的重新训练。
虽然这些传统方法可以调整模型的参数,但它们难以精确地针对版权内容,冒着意外数据丢失和次优合规的风险。
因此,传统技术的局限性和强大的解决方案需要用替代的忘记技术进行实验。
新技术:忘记训练数据的一个子集
微软研究论文介绍了一种开创性的技术,用于从LLMs中忘记版权数据。以Llama2-7b模型和哈利·波特书籍为例,该方法包括三个核心组件,以使LLMs忘记哈利·波特的世界。这些组件包括:
- 增强模型识别:创建一个增强模型,涉及对目标数据(例如哈利·波特)进行微调,以加强其对要忘记的内容的知识。
- 替换特异性表达式:在目标数据中用通用表达式替换哈利·波特的独特表达式,以促进更一般化的理解。
- 基于替代预测的微调:基线模型根据这些替代预测进行微调。基本上,它有效地从其记忆中删除原始文本,当遇到相关上下文时。
虽然微软的技术仍处于初期阶段,可能存在局限性,但它代表了朝着更强大、道德和适应性更强的LLMs迈出的一步。
新技术的结果
微软研究论文中提出的一种创新方法,使LLMs忘记版权数据,是朝着负责任和道德的模型迈出的一步。
该新技术涉及从Meta的Llama2-7b模型中删除与哈利·波特相关的内容,该模型已知是在包含版权作品的“books3”数据集上进行训练的。值得注意的是,模型的原始响应表明了对J.K.罗琳宇宙的深入理解,即使是通用提示。
然而,微软提出的技术显著改变了其响应。以下是一些示例提示,展示了原始Llama2-7b模型和微调版本之间的显著差异。

该表格说明了微调的忘记模型在不同基准测试(如Hellaswag、Winogrande、piqa、boolq和arc)中保持其性能。

评估方法,依赖于模型提示和随后的响应分析,证明是有效的,但可能会忽略更复杂的对抗性信息提取方法。
虽然该技术很有前景,但需要进一步的研究来完善和扩展,特别是在LLMs中解决更广泛的忘记任务。
新忘记技术的挑战
虽然微软的忘记技术很有前途,但仍存在一些人工智能版权挑战和限制。
关键的限制和改进领域包括:
- 版权信息泄露:该方法可能无法完全缓解版权信息泄露的风险,因为模型可能在微调过程中保留一些目标内容的知识。
- 多样数据集的评估:为了评估其有效性,该技术必须在多样数据集上进行额外的评估,因为初始实验仅关注哈利·波特书籍。
- 可扩展性:测试更大数据集和更复杂的语言模型对于评估该技术在现实世界场景中的适用性和可适应性至关重要。
人工智能相关的法律案件,特别是针对LLMs的版权诉讼,凸显了明确指南的必要性。像微软提出的忘记方法这样的有前途的发展,为负责任、合法和合乎道德的人工智能铺平了道路。
不要错过人工智能和机器学习的最新新闻和分析 – 今天就访问unite.ai。
