存根 为什么历史语言对人工智能来说是一个挑战 - Unite.AI
关注我们.

人工智能

为什么历史语言对人工智能是一个挑战

mm
更新 on

自然语言处理 (NLP) 系统的核心挑战之一是从各种书面材料中获取重要的见解。为新 NLP 算法提供训练数据集的来源在语言上可以像 Twitter、大报和科学期刊一样多样化,而这三个来源的所有上诉人的怪癖都是独一无二的。

In 大多数情况下,这仅适用于英语; 这仅适用于当前或最近的文本源。 当 NLP 算法必须考虑来自多个时代的材料时,它通常很难协调各个时代的材料。 非常不同的方式 人们在国家和次国家社区,特别是在历史的不同时期说话或写作。

然而,使用跨时代的文本数据(例如历史论文和古老的科学著作)是一种潜在有用的方法,可以生成对某个主题的历史监督,并在采用和维护某个领域的指标之前制定统计时间线重建。

例如,世界各地没有充分记录有助于气候变化预测人工智能模型的天气信息 直到1880,而古典文本的数据挖掘 提供较旧的记录 可能有助于提供维多利亚时代之前的天气数据的主要气象事件。

时间错位

A 新文 华盛顿大学和艾伦人工智能研究所的研究发现,即使时间间隔短至五年,也会导致 时间错位 这可能会破坏预训练 NLP 模型的实用性。

在所有情况下,分数越高越好。 在这里,我们看到了跨越五年的四个文本材料语料库的时间退化热图。 新论文的作者表示,训练和评估数据之间的这种不匹配可能会导致“性能大幅下降”。 资料来源:https://arxiv.org/pdf/2111.07408.pdf

在所有情况下,分数越高越好。 在这里,我们看到了跨越五年的四个文本材料语料库的时间退化热图。 新论文的作者表示,训练和评估数据之间的这种不匹配可能会导致“性能大幅下降”。 资料来源:https://arxiv.org/pdf/2111.07408.pdf

该文件指出:

“我们发现时间错位会影响语言模型的泛化和任务表现。 我们发现不同文本域和任务的退化存在很大差异。 5 年内,分类器的 F1 分数可能会下降最多 40 分(Twitter 中的政治倾向)或最少 1 分(Yelp 评论评级)。 随着时间的推移,在同一域上定义的两个不同的任务可能会显示出不同程度的退化。

分裂不均匀

核心问题是,由于数据可用性有限,训练数据集通常分为两组,有时比例相当不平衡 80/20。 较大的数据组在神经网络上进行训练,而剩余的数据用作对照组来测试所得算法的准确性。

在包含跨越多年的材料的混合数据集中,不同时期的数据分布不均匀可能意味着评估数据过多地由来自某一特定时代的材料组成。

这将导致它成为一个在更多样化的时代组合(即更多的可用数据)上训练的模型的糟糕测试场。 实际上,根据少数群体的评价数据是否过度代表新的或旧的材料,这就像要求你的祖父评价最新的韩国流行偶像一样。

长期的解决方法是在时间限制更多的数据集上训练多个模型,并尝试从每个模型的结果中整理兼容的特征。 然而, 随机模型初始化 仅实践就意味着这种方法在实现跨模型平等和公平方面面临着一系列问题——甚至在考虑多个贡献数据集是否彼此足够相似以使实验有意义之前也是如此。

数据和培训

为了评估时间错位,作者训练了四个领域的四个文本语料库:

Twitter
…他们通过随机提取 12 年至 2015 年期间均匀传播的 2020 万条推文来收集未标记的数据,其中作者研究了命名实体(即个人和组织)和政治背景。

科学文章
…作者从其中获得了未标记的数据 语义学者语料库,构成了 650,000 年期间的 30 个文档,他们研究了提及类型分类(科学ERC)和AI地点分类(AIC,区分论文是否发表于 美国汽车工业协会 or 集成电路).

新闻文章
…作者使用了来自 新闻编辑室数据集 跨越 2009 年至 2016 年期间,他们执行了三项任务:新闻编辑室摘要、出版商分类和媒体框架分类 (MFC),后一项任务检查新闻输出中各种主题的感知优先级。

食品评论
…研究人员使用的地方 Yelp 开放数据集 单一任务:评论评级分类(YELPCLS),这是该领域许多 NLP 研究中典型的传统情感分析挑战。

成果

模型的评估基于 GPT-2,结果范围 F1分数。 作者发现,时间错位导致的性能损失是双向的,这意味着根据最新数据训练的模型可能会受到旧数据影响的不利影响,反之亦然(参见文章开头的图表)。 作者指出,这对于社会科学应用具有特殊的意义。

总的来说,结果表明时间错位会“大幅”降低性能损失,并对大多数任务产生广泛的影响。 涵盖很长时期(例如数十年)的数据集自然会加剧该问题。

作者进一步观察到,时间错位也会影响标记和未标记的预训练数据。 此外,他们试图通过领域适应(见下文)来减轻影响,但并没有实质性地改善情况,尽管他们声称微调数据集中的数据信息可以在一定程度上有所帮助。

结论

研究人员证实了之前的发现,即之前提出的补救措施涉及 领域适应 (DAPT,其中为数据差异制定了津贴)和 时间适应 (其中数据是按时间段选择的)对缓解问题几乎没有帮助。

论文结论*:

“我们的实验揭示了不同任务的时间退化存在相当大的差异,比在 以前的研究。 这些发现促使人们继续研究 NLP 应用中的时间错位、基准评估中的考虑因素,以及能够监控实时系统性能随时间变化的从业者的警惕性。

“值得注意的是,我们观察到持续对时间对齐数据进行语言模型训练并没有太大效果,这激励了进一步的研究,以找到有效的时间适应方法,这些方法比随着时间的推移持续收集带注释/标记的数据集成本更低。”

作者建议,对持续学习(数据不断更新)的进一步研究可能在这方面有用,而概念漂移和其他检测任务变化的方法可能对更新数据集有帮助。

 

* 我将内联引用转换为超链接。