人工智能

百度击败谷歌和微软，创造语言理解新技术

更新 on 2022 年 12 月 9 日

中国最大的科技公司之一百度最近开发了一种教人工智能理解语言的新方法。作为科技评论报道该公司最近在通用语言和理解评估（GLUE）竞赛中击败了微软和谷歌，取得了最先进的成绩。

GLUE 由九个不同的测试组成，每个测试测量对语言理解很重要的不同任务，例如辨别句子中实体的名称，以及当存在大量潜在候选者时辨别代词“it”在什么上下文中使用。人类在 GLUE 上的平均得分通常约为 87 分，满分为 100 分。百度的新模型，厄尼，突破了90分的门槛。

研究人员一直在努力提高 GLUE 模型的性能，因此百度目前制定的标准可能很快就会被超越。然而，百度的成就引人注目的是，他们使用的学习方法似乎能够推广到其他语言。尽管该模型是为了解释中文而开发的，但相同的原理可以使其更好地解释英语。 ERNIE 代表“Enhanced Representation through Knowledge Integration”，它遵循了 BERT （“Transformers 的双向编码器表示”）语言模型。

由于 BERT 是一种双向模型，因此它为语言理解设立了新标准。以前的语言模型只能解释沿一个“方向”流动的数据，将目标单词之前或之后的单词视为上下文。 BERT 能够实现一种双向方法，可以使用句子中前面和后面的单词来帮助找出目标单词的含义。 BERT 使用一种称为掩蔽的技术来实现双向分析，在句子中选择一个单词并将其隐藏，从而在前后上下文线索中分割该单词的可能上下文。

在英语中，单词是主要的语义单位，人们通过查看整个单词而不是单个字符来辨别含义。可以从上下文中删除一个单词，但该单词仍然保留其含义，并且单个字符的含义几乎总是相同的。相比之下，汉语在识别含义时更多地依赖于字符与其他字符的匹配方式。角色可能意味着不同的事物，具体取决于他们周围的角色。

百度研究团队本质上采用了 BERT 使用的模型并对其进行了扩展，隐藏字符串而不是完整的单词。人工智能系统还经过训练，可以区分随机字符串和有意义的字符串，以便可以屏蔽正确的字符串。这使得 ERNIE 能够熟练地从文本文档中检索信息并进行机器翻译。研究团队还发现，他们的训练方法还产生了一个比许多其他模型更好地区分英语短语的模型。这是因为英语有时（尽管很少）使用单词组合，当它们连接在一起时和单独使用时表达不同的含义。专有名称、习语或口语，例如“chip off the old block”，就是此类语言现象的例子。

ERNIE 使用多种其他训练技术来优化性能，包括在解释段落时分析句子顺序和距离。还使用了连续训练方法，使 ERNIE 能够在新数据上进行训练并学习新模式，而不会忘记以前获得的知识。

百度目前使用 ERNIE 来提高搜索结果的质量。 ERNIE 的最新架构将在即将在 2020 年人工智能促进协会会议上发表的论文中详细介绍。