历史语言为人工智能带来的挑战

发布于 2021年11月16日

更新于 2026年4月28日

作者

Martin Anderson

自然语言处理（NLP）系统面临的核心挑战之一是从多种多样的书面材料中提取基本见解。新的NLP算法的训练数据集的贡献来源可能与Twitter、广泛的报纸和科学期刊一样具有语言多样性，每个来源都有其独特的特征。

在大多数情况下，这仅适用于英语；仅适用于当前或最近的文本来源。当NLP算法必须考虑来自多个时代的材料时，它通常难以调和人们在国家和子国家社区中以及在历史的不同时期中说话或写作的非常不同的方式。

然而，使用跨越多个时代的文本数据（例如历史论文和古老的科学作品）可能是生成历史主题概述和制定统计时间线重建的有用方法，这些重建可以追溯到某个领域采用和维护指标之前。

例如，气候变化预测人工智能模型的天气信息在世界范围内直到1880年才得到充分记录，而古典文本的数据挖掘提供了更早的重大气象事件记录，这可能有助于提供维多利亚时代前的天气数据。

华盛顿大学和艾伦人工智能研究所的一篇新论文发现，即使是五年这样一个短的时间间隔也可能导致时间错位，这可能会破坏预训练的NLP模型的有用性。

在所有情况下，较高的分数都更好。这里我们看到四个文本材料跨五年时期的时间退化热图。根据新论文的作者，这些训练和评估数据之间的差异可能会导致’巨大的性能下降’。来源：https://arxiv.org/pdf/2111.07408.pdf

论文指出：

‘我们发现时间错位会影响语言模型的泛化和任务性能。我们发现文本域和任务的退化有很大差异。在五年内，分类器的F1分数可能会恶化40分（Twitter上的政治隶属关系）或仅1分（Yelp评论评分）。两个定义在同一域上的任务可能会显示出不同程度的时间退化。’

核心问题是训练数据集通常分为两个组，通常以80/20的比例分割，主要是由于数据可用性的限制。更大的数据组用于训练神经网络，而剩余的数据用于测试算法的准确性。

在包含多年跨度的混合数据集中，不同时期的数据分布可能不均匀，这意味着评估数据可能主要由某个特定时期的材料组成。

这将导致它成为一个不好的测试场地，用于在更多样化的时期（即在整个可用数据上）训练的模型。实际上，取决于少数评估数据是否过度代表新数据或旧数据，这就像让你的祖父评估最新的K-Pop偶像。

长途解决方案是训练多个模型在更受限制的数据集上，并尝试从每个模型的结果中收集兼容的特征。然而，随机模型初始化实践意味着这种方法面临着自己的问题，包括实现跨模型的平行和公平性——甚至在考虑多个贡献数据集是否足够相似以使实验有意义之前。

为了评估时间错位，作者在四个领域训练了四个文本语料库：

Twitter
…作者通过在2015-2020年间提取1200万条随机推文来收集无标签数据，并研究了命名实体（即人和组织）和政治隶属关系。

科学文章
…作者从Semantic Scholar语料库中获得无标签数据，涵盖650,000份跨30年时期的文件，并在此基础上研究了提及类型分类（SciERC）和人工智能场馆分类（AIC，它区分论文是否发表在AAAI或ICML上）。

新闻文章
…作者使用了900万篇来自新闻室数据集的文章，涵盖2009-2016年，并执行了三个任务：新闻摘要、出版商分类和媒体框架分类（MFC），后者检查了新闻输出中各种主题的感知优先级。

食品评论
…研究人员使用Yelp开放数据集执行了一项任务：评论评分分类（YELPCLS），这是该领域NLP研究中常见的传统情感分析挑战。

模型在GPT-2上进行了评估，结果显示出一系列F1分数。作者发现，由时间错位引起的性能损失是双向的，这意味着在最近数据上训练的模型可能会受到旧数据的影响，反之亦然（见文章开头的图表）。作者指出，这对社会科学应用有特别的影响。

一般来说，结果表明时间错位会“显著”降低性能损失，并对大多数任务产生广泛的影响。跨越很长时期（如几十年）的数据集会自然地加剧这个问题。

作者进一步观察到，时间错位也会影响标记和未标记的预训练数据。此外，他们尝试通过域适应（见下文）来减轻这种影响，但并没有显著改善这种情况，尽管他们声称，微调数据集中的数据信息可以在一定程度上提供帮助。

研究人员确认了以前的研究结果，即早期建议的解决方案，包括域适应（DAPT，允许数据差异）和时间适应（数据按时间段选择），几乎无法缓解这个问题。

论文得出结论*：

‘我们的实验揭示了时间退化在任务上的显著差异，这比以前的研究中发现的更大。这些发现激发了对NLP应用中时间错位的持续研究，对基准评估的考虑，以及实践者随时监测实时系统性能的警惕。 ‘

‘值得注意的是，我们观察到在时间对齐的数据上继续训练LM并没有太大影响，这激发了进一步的研究，以找到有效的时间适应方法，这些方法的成本低于随时间不断收集注释/标记数据集。’

作者建议，进一步研究连续学习，其中数据不断更新，在这方面可能会有所帮助，并且概念漂移和其他检测任务转变的方法可能有助于更新数据集。

* 我将内联引用转换为超链接.

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI