人工智能
基于人工智能的生成写作模型经常“复制和粘贴”源数据

美国剧作家兼企业家威尔逊·米兹纳 (Wilson Mizner) 经常被引用的名言是“当你从一位作者那里窃取时,这是剽窃;如果你从许多作者那里窃取,那就是研究”。
类似地,围绕 新一代 基于人工智能的创意写作系统的特点是 大量数据 在训练阶段喂给他们已经产生了真正的 抽象化 高级概念和思想;这些系统可以掌握数千名贡献作者的智慧结晶,人工智能可以从中创作出创新和原创的作品;使用此类系统的人可以确定他们不会无意中参与代理抄袭。
这一假设受到了研究联盟(包括 Facebook 和微软的 AI 研究部门)的一篇新论文的质疑,该论文发现机器学习生成语言模型(例如 GPT 系列) “偶尔也会抄写很长的段落” 进入他们所谓的原始输出,没有归属。
作者指出,在某些情况下,GPT-2 会在其输出中复制训练集中的 1,000 多个单词。
此 纸 标题为 语言模型从训练数据中复制了多少内容? 使用 RAVEN 评估文本生成中的语言新颖性,是约翰·霍普金斯大学、微软研究院、纽约大学和 Facebook AI 研究中心之间的合作项目。
掠夺
该研究使用了一种名为“RAVEN”(RAtingVERbalNovelty)的新方法,这是一个缩写词,经过有趣的折磨,以反映一首经典诗歌中的鸟类恶棍:
这个首字母缩略词指的是埃德加·爱伦·坡的《乌鸦》,其中叙述者遇到了一只神秘的乌鸦,它不断地喊着:“永不再有!” 叙述者无法判断乌鸦是否只是在重复它听到人类说的话,或者它是否正在构建自己的话语(可能通过结合 决不要 以及 更多)——我们的论文也讨论了同样的基本模糊性。’
这篇新论文的研究结果发表于人工智能内容写作系统蓬勃发展的背景下,这些系统试图取代“简单”的编辑任务,甚至撰写完整的内容。其中一个系统 收到$ 21万 本周早些时候获得 A 轮融资。
研究人员指出 'GPT-2 有时会重复训练段落 超过1,000字长。“ (他们的重点),并且生成语言系统会传播源数据中的语言错误。
RAVEN 研究的语言模型是 GPT 系列直至 GPT-2(作者当时无法访问 GPT-3)、Transformer、Transformer-XL 和 LSTM.
新奇
该论文指出,GPT-2 创造了 Bush 2 风格的变形,例如 “瑞士化”,以及诸如 “宜家风格”,根据训练过程中建立的高维空间中得出的语言原理创造出这些新词(它们不会出现在 GPT-2 的训练数据中)。
结果还显示,“Transformer-XL 生成的句子中 74% 具有训练句子所没有的句法结构”,正如作者所述, “神经语言模型并不是简单地记忆;相反,它们使用生产过程,以新颖的方式将熟悉的部分组合在一起。”
所以从技术上讲,概括和抽象 应该 产生创新和新颖的文本。
数据重复可能是问题所在
该论文推测,自然语言生成 (NLG) 系统生成的长篇逐字引用可能会被整体“嵌入”到 AI 模型中,因为原始源文本在未充分去重的数据集中重复出现多次。
虽然 另一个研究项目 发现即使只出现源文本,也可能会出现文本完全重复的情况 一旦 在数据集中,作者指出,该项目具有与常见的内容生成人工智能系统不同的概念架构。
作者还观察到,改变语言生成系统中的解码组件可能会增加新颖性,但在测试中发现,这是以牺牲输出质量为代价的。
随着推动内容生成算法的数据集变得越来越大,进一步的问题也随之出现。 除了数据预处理的可负担性和可行性以及数据的质量保证和重复数据删除等问题加剧之外, 许多基本错误仍然存在 源数据,然后在人工智能输出的内容中传播。
作者指出*:
“最近训练集大小的增加使得检查新颖性变得尤为重要,因为这些训练集的大小可能会打破我们对自然发生的事情的直觉。 例如,一些值得注意的工作 language 获得 依赖于这样的假设:不规则动词的规则过去时形式(例如,becomed、teached)不会出现在学习者的经验中,因此如果学习者产生这样的单词,那么它们对学习者来说一定是新颖的。
然而事实证明,对于英语中的所有 92 个基本不规则动词,GPT-2 的训练集中都出现了不正确的规则形式。
需要更多数据管理
本文认为,在制定生成语言系统时需要更加注重新颖性,尤其要确保数据的“保留”测试部分(源数据中用于测试最终算法对训练数据主体的评估效果的部分)适合该任务。
在机器学习中,在保留的测试集上评估模型至关重要。由于文本生成的开放性,模型生成的文本可能来自训练集,在这种情况下,它不会被保留——因此,使用该数据来评估模型(例如,检查连贯性或语法性)是无效的。
作者还认为,由于 伊丽莎效应,1966 年发现的一种综合症 “人们对于阅读由计算机串在一起的符号串(尤其是单词)所理解的理解能力的敏感性要高得多”.
* 我将内联引用转换为超链接












