从受过训练的法学硕士那里学习受版权保护的数据——这可能吗？ - 联合人工智能

人工智能

从受过训练的法学硕士那里学习受版权保护的数据——这可能吗？

发布时间

4个月前

on

2024 年 1 月 23 日

By

哈兹卡·萨吉德

版权符号的博客图片

在人工智能 (AI) 和机器学习 (ML) 领域，大型语言模型 (LLM) 展示了成就和挑战。经过大量文本数据集的训练，法学硕士模型封装了人类的语言和知识。

然而，它们吸收和模仿人类理解的能力提出了法律、道德和技术挑战。此外，为法学硕士提供支持的海量数据集可能包含有毒材料、受版权保护的文本、不准确信息或个人数据。

让法学硕士忘记选定的数据已成为确保法律合规性和道德责任的紧迫问题。

让我们探讨一下让法学硕士忘记受版权保护的数据的概念，以解决一个基本问题：这可能吗？

为什么需要 LLM 忘却学习？

法学硕士通常包含有争议的数据，包括受版权保护的数据。法学硕士拥有此类数据会带来与私人信息、偏见信息、版权数据以及虚假或有害元素相关的法律挑战。

因此，忘记学习对于保证法学硕士遵守隐私法规和遵守版权法律，促进负责任和有道德的法学硕士。

然而，从这些模型获得的大量知识中提取受版权保护的内容具有挑战性。以下是一些有助于解决此问题的忘却技巧：

数据过滤： 它涉及从模型的训练数据中系统地识别和删除受版权保护的元素、噪声或偏见数据。然而，过滤可能会导致在过滤过程中丢失有价值的非版权信息。
梯度法：这些方法根据损失函数的梯度调整模型的参数，解决机器学习模型中的版权数据问题。然而，调整可能会对模型在非版权数据上的整体性能产生不利影响。
在上下文中忘却： 该技术通过更新模型参数，有效消除特定训练点对模型的影响，而不影响不相关的知识。然而，该方法在实现精确测量方面面临局限性忘却特别是对于大型模型，其有效性需要进一步评估。

这些技术占用大量资源且耗时，因此难以实施。

客户案例

为了理解 LLM 忘却学习的重要性，这些现实世界的案例突显了公司如何蜂拥而至，面临有关大语言模型 (LLM) 和受版权保护的数据的法律挑战。

OpenAI 诉讼： OpenAI一家著名的人工智能公司，受到了众多打击诉讼法学硕士的培训数据。这些法律行动质疑法学硕士培训中受版权保护的材料的使用。此外，他们还引发了对用于确保将每个受版权保护的作品纳入其培训过程的许可的机制模型的调查。

莎拉西尔弗曼诉讼： 莎拉·西尔弗曼案涉及一项指控，称 ChatGPT 模型未经授权生成了她的书籍摘要。这一法律行动强调了有关人工智能和受版权保护数据的未来的重要问题。

更新法律框架以适应技术进步，确保人工智能模型的负责任和合法的使用。此外，研究界必须全面应对这些挑战，以使法学硕士道德和公平。

传统的法学硕士遗忘技巧

LLM 忘却就像从复杂的食谱中分离出特定的成分一样，确保只有所需的成分才能做出最终的菜肴。传统的 LLM忘却学习使用精选数据进行微调和重新训练等技术缺乏删除受版权保护的数据的直接机制。

对于选择性遗忘的复杂任务来说，他们的粗略方法往往效率低下且资源密集，因为它们需要大量的再培训。

虽然这些传统方法可以调整模型的参数，但它们很难精确定位受版权保护的内容，从而存在意外数据丢失和合规性不佳的风险。

因此，传统技术和稳健解决方案的局限性需要尝试替代的遗忘技术。

新技术：忘记训练数据的子集

微软研究论文引入了一种突破性的技术，用于在法学硕士中忘记受版权保护的数据。以Llama2-7b模型和哈利波特书籍为例，该方法涉及三个核心组件，使LLM忘记哈利波特的世界。这些组件包括：

强化模型识别： 创建强化模型涉及微调目标数据（例如，哈利波特）以强化其对要忘记的内容的知识。
替换特殊的表达式： 目标数据中独特的哈利·波特表达被替换为通用表达，以促进更普遍的理解。
对替代预测进行微调： 基线模型根据这些替代预测进行微调。基本上，当遇到相关上下文时，它会有效地从记忆中删除原始文本。

尽管微软的技术还处于早期阶段并且可能存在局限性，但它代表着朝着更强大、更道德和适应性更强的法学硕士迈出了有希望的进步。

新技术的成果

让法学硕士忘记论文中提出的受版权保护的数据的创新方法微软研究论文是迈向负责任和道德模式的一步。

这项新技术涉及从 Meta 的 Llama2-7b 模型中删除与哈利·波特相关的内容，该模型已在包含受版权保护的作品的“books3”数据集上进行了训练。值得注意的是，即使有通用的提示，该模型的原始响应也展示了对 JK Rowling 宇宙的复杂理解。

然而，微软的所提出的技术显着改变了其响应。以下提示示例展示了原始 Llama2-7b 模型和微调版本之间的显着差异。

该表说明了经过微调的遗忘模型在不同基准测试（例如 Hellaswag、Winogrande、piqa、boolq 和 arc）中保持了性能。

依赖于模型提示和随后的响应分析的评估方法被证明是有效的，但可能会忽略更复杂的、对抗性的信息提取方法。

虽然该技术很有前景，但还需要进一步的研究来完善和扩展，特别是在解决法学硕士内更广泛的遗忘任务方面。

新的遗忘技术挑战

虽然微软的忘却技术显示出前景，但仍存在一些人工智能版权挑战和限制。

主要限制和需要增强的领域包括：

版权信息泄露： 该方法可能无法完全降低风险版权信息泄漏，因为模型在微调过程中可能会保留一些目标内容的知识。
各种数据集的评估： 为了衡量有效性，该技术必须在不同的数据集上进行额外的评估，因为最初的实验仅针对哈利波特书籍。
可扩展性： 为了评估该技术在现实场景中的适用性和适应性，必须对更大的数据集和更复杂的语言模型进行测试。

人工智能相关法律案件的增加，特别是针对法学硕士的版权诉讼，凸显了制定明确指导方针的必要性。像微软提出的遗忘方法这样有前景的发展，为道德、合法和负责任的人工智能铺平了道路。

不要错过 AI 和 ML 的最新新闻和分析 – 访问团结.ai ！

相关话题：人工智能版权挑战版权合规大型语言模型忘记受版权保护的数据忘却技巧

Paint3D：用于图像生成的无光照扩散模型

合成数据生成的创新：为特定语言构建基础模型

哈兹卡·萨吉德

哈兹卡是一位数据科学家，在为 AI 和 SaaS 公司编写技术内容方面拥有丰富的经验。