Connect with us

人工智能

基于AI的生成性写作模型经常“复制和粘贴”源数据

mm

美国剧作家和企业家威尔逊·米兹纳经常被引用说:“当你从一个作者那里偷取时,那是抄袭;如果你从很多作者那里偷取,那是研究。”

同样,关于新一代基于AI的创意写作系统的假设是,训练阶段输入的大量数据已经导致了高级概念和想法的真正抽象;这些系统拥有成千上万个贡献作者的提炼智慧,可以用来构造创新和原创的写作;并且使用这些系统的人可以确信他们不会无意中陷入抄袭。

这种假设被一个新的研究论文所挑战,该论文由一个研究团队(包括Facebook和Microsoft的AI研究部门)撰写,他们发现像GPT系列这样的机器学习生成语言模型“偶尔会复制甚至很长的段落”到它们所谓的原创输出中,没有任何引用。

在某些情况下,作者指出,GPT-2会在其输出中复制训练集中的超过1000个字。

该论文的标题为语言模型从训练数据中复制了多少?使用RAVEN评估文本生成中的语言新颖性,这是约翰霍普金斯大学、Microsoft Research、纽约大学和Facebook AI Research之间的合作。

RAVEN

该研究使用了一种新的方法,称为RAVEN(RAtingVErbalNovelty),这个缩写是为了反映经典诗歌中的鸟类恶棍:

“这个缩写指的是埃德加·爱伦·坡的‘乌鸦’,其中讲述者遇到了一只神秘的乌鸦,反复喊出‘永远不会’。讲述者无法判断乌鸦是否只是重复它听到的人类说的话,或者它是否在构造自己的话语(也许是通过组合nevermore)——我们论文所解决的同样的基本模糊性。”

新论文的发现是在AI内容写作系统迅速发展的背景下,这些系统旨在取代“简单”的编辑任务,甚至可以撰写全长内容。其中一个系统本周早些时候获得了2100万美元的A轮融资。

研究人员指出,“GPT-2有时会复制训练集中的段落,长度超过1000个字。”(他们的强调),并且生成语言系统会在源数据中传播语言错误。

使用RAVEN研究的语言模型包括GPT系列的发布版本,直到GPT-2(作者当时无法访问GPT-3),一个Transformer,Transformer-XL和一个LSTM

新颖性

该论文指出,GPT-2创造了布什2风格的变体,例如“Swissified”,和派生词,例如“IKEA-ness”,在训练期间建立的高维空间的语言原则上创造了这样的新词(它们不在GPT-2的训练数据中),并且这些系统可以根据这些原则构造创新和原创的写作;并且使用这些系统的人可以确信他们不会无意中陷入抄袭。

结果还表明,“74%由Transformer-XL生成的句子具有训练句子中没有的句法结构”,这表明,正如作者所说,“神经语言模型不仅仅是记忆;相反,它们使用生成过程来组合熟悉的部分以产生新颖的方式。”

因此,从技术上讲,概括和抽象应该产生创新和原创的文本。

数据复制可能是问题

该论文推测,自然语言生成(NLG)系统产生的长段和逐字引用可能会因为原始源文本在没有充分去重的数据集中被重复多次而被“烘焙”到AI模型中。

尽管另一个研究项目发现,即使源文本在数据集中只出现一次,也可能发生完全复制,但作者指出,该项目具有不同于常见的内容生成AI系统的概念架构。

作者还观察到,改变语言生成系统中的解码组件可以增加新颖性,但他们在测试中发现,这是以牺牲输出质量为代价的。

随着为内容生成算法提供动力的数据集变得越来越大,进一步的问题出现了。除了加剧数据预处理的可负担性和可行性问题,以及数据的质量保证和去重问题之外,许多基本错误仍然存在于源数据中,然后被AI在内容输出中传播。

作者指出:

“最近训练集大小的增加使得检查新颖性尤为重要,因为这些训练集的规模可能会打破我们对自然发生的事件的直觉。例如,一些值得注意的语言获取工作依赖于这样的假设:不规则动词的规则过去时态(例如,becomed,teached)不会出现在学习者的经验中,因此,如果学习者产生这样的词语,它们一定是新的。”

“然而,事实证明,对于英语中的92个基本不规则动词,错误的规则形式都出现在GPT-2的训练集中。”

需要更多的数据策划

该论文认为,在生成语言系统的制定中,需要更多地关注新颖性,特别强调确保“保留”的测试数据部分(用于测试最终算法对主要训练数据的评估的数据部分)适合该任务。

“在机器学习中,评估模型的关键是使用保留的测试集。由于文本生成的开放性质,模型生成的文本可能是从训练集中复制的,在这种情况下,它不是保留的——因此,使用该数据来评估模型(例如,用于连贯性或语法性)是无效的。”

作者还认为,在语言模型的生产中需要更多的关注,因为Eliza效应,一种于1966年识别的综合征,指出“人们容易过度解读计算机串联的符号——尤其是单词——的含义”。

 

* 我将内联引用转换为超链接

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai