Anderson 视角
基于人工智能的生成式写作模型经常“复制和粘贴”源数据

美国剧作家和企业家威尔逊·米兹纳经常被引用的一句话是“当你从一个作者那里偷取时,那是抄袭;如果你从很多人那里偷取,那是研究”。
同样,关于新一代基于人工智能的创作写作系统的假设是,训练阶段输入的海量数据已经导致了高级概念和思想的真正抽象;这些系统拥有成千上万位贡献作者的提炼智慧,可以用来构造创新和原创的写作;并且使用这些系统的人可以确信他们不会无意中陷入抄袭。
然而,一篇新的研究论文从包括Facebook和Microsoft的AI研究部门在内的研究团队挑战了这一假设,发现像GPT系列这样的机器学习生成语言模型“偶尔会复制甚至很长的段落”到它们所谓的原创输出中,没有任何引用。
在某些情况下,作者指出,GPT-2会在其输出中复制超过1000字的训练集数据。
这篇题为《语言模型从训练数据中复制了多少?使用RAVEN评估文本生成中的语言新颖性》的论文是一项由约翰霍普金斯大学、Microsoft Research、纽约大学和Facebook AI Research联合开展的合作研究。
RAVEN
该研究使用了一种新的方法,称为RAVEN(RAtingVErbalNovelty),这个缩写是为了反映一首经典诗歌中的恶鸟:
‘这个缩写指的是埃德加·爱伦·坡的《乌鸦》,其中叙述者遇到了一只神秘的乌鸦,反复呼喊着“永远不会!”叙述者无法判断乌鸦是否只是在重复它听到的人类话语,还是它正在构造自己的话语(也许是通过组合never和more)—我们论文中所讨论的同一种基本模糊性。
这篇新论文的发现是在人工智能内容写作系统迅速发展的背景下发布的,这些系统旨在取代“简单”的编辑任务,甚至可以撰写全长内容。其中一个系统刚刚获得2100万美元的A轮融资。
研究人员指出,‘GPT-2有时会复制训练段落,长度超过1000字。’(强调部分),并且生成语言系统会在源数据中传播语言错误。
在RAVEN下研究的语言模型包括GPT系列(直到GPT-2,作者当时没有GPT-3的访问权限)、Transformer、Transformer-XL和LSTM。
新颖性
论文指出,GPT-2创造了类似布什2风格的变体,如‘Swissified’,以及类似‘IKEA-ness’的派生词,根据训练期间建立的高维空间的语言原理创造出这样的新词(这些词不出现在GPT-2的训练数据中)。
结果还表明,’74%由Transformer-XL生成的句子具有训练句子中没有的句法结构’,正如作者所说,‘神经语言模型不仅仅是记忆;相反,它们使用生成过程来以新颖的方式组合熟悉的部分。’
因此,从技术上讲,一般化和抽象应该产生创新和新颖的文本。
数据复制可能是问题
该论文认为,自然语言生成(NLG)系统产生的长段和逐字引用可能会因为原始源文本在数据集中被重复多次而被“烘焙”到人工智能模型中。
尽管另一个研究项目发现,即使源文本只在数据集中出现一次,也可能发生完全的文本复制,但作者指出,该项目具有与常见的内容生成人工智能系统不同的概念架构。
作者还观察到,改变语言生成系统的解码组件可以增加新颖性,但他们在测试中发现,这是以牺牲输出质量为代价的。
随着为内容生成算法提供动力的数据集变得越来越大,进一步的问题出现了。除了加剧数据预处理、质量保证和数据去重的可负担性和可行性问题之外,许多基本错误仍然存在于源数据中,这些错误随后会在人工智能生成的内容中传播。
作者指出*:
‘最近训练集大小的增加使得检查新颖性尤为重要,因为这些训练集的规模可能会打破我们对自然发生的预期。例如,语言习得领域的一些著名工作依赖于这样的假设:不规则动词的正则过去式(例如becomed、teached)不会出现在学习者的经验中,因此,如果学习者产生这样的词语,它们一定是新的。然而,事实证明,对于英语中的92个基本不规则动词,错误的正则形式都出现在GPT-2的训练集中。’
需要更多数据策划
该论文认为,在构建生成语言系统时,需要更多地关注新颖性,特别是要确保“保留”的测试数据(用于测试算法对主要训练数据的评估的数据部分)适合该任务。
‘在机器学习中,评估模型时使用保留的测试集至关重要。由于文本生成的开放性质,模型生成的文本可能是从训练集中复制的,因此在这种情况下,使用该数据来评估模型(例如,用于一致性或语法性)是无效的。’
作者还认为,在语言模型的生产中需要更多的谨慎,因为埃丽扎效应,一种在1966年识别的综合征,指出“人们倾向于将过多的理解投射到计算机串接的符号字符串上,尤其是单词”。
* 我将内联引用转换为超链接












