人工智能

百度超越谷歌和微软，创造新的语言理解技术

Published December 28, 2019

Updated April 28, 2026

Daniel Nelson

百度，一家中国最大的科技公司，最近开发了一种新的方法来教导人工智能理解语言。正如TechnologyReview报道，公司最近在通用语言理解评估（GLUE）竞赛中击败了微软和谷歌，取得了最先进的结果。

GLUE由九个不同的测试组成，每个测试衡量语言理解的不同任务，例如辨别句子中的实体名称和辨别代词“it”在多个可能候选项中的上下文。平均而言，人类通常在GLUE上获得87分，满分100分。百度的新模型ERNIE突破了90分的门槛。

研究人员总是试图提高他们的模型在GLUE上的性能，因此百度目前设定的标准可能很快就会被超越。然而，百度的成就之所以显著，是因为他们使用的学习方法似乎可以推广到其他语言。尽管该模型是为解释中文而开发的，但同样的原理使其更擅长解释英文。ERNIE代表“通过知识集成增强表示”，它遵循BERT（“双向编码器表示从转换器”）语言模型的发展。

BERT由于是双向模型而设定了新的语言理解标准。以前的语言模型只能解释单向流动的数据，查看目标词之前或之后的词作为上下文。BERT能够实现双向方法，使用句子中之前和之后的词来帮助确定目标词的含义。BERT使用一种称为掩蔽的技术，使双向分析成为可能，选择句子中的一个词并隐藏它，将该词的可能上下文分成前后两个部分。

在英文中，词是主要的语义单位，人们查看整个词而不是单个字符来辨别含义。可以从上下文中删除一个词，而该词仍然保持其含义，单个字符的含义几乎总是相同的。相比之下，中文在辨别含义时更依赖于字符与其他字符的组合。字符的含义可能根据周围的字符而有所不同。

百度研究团队基本上采用了BERT使用的模型，并将其扩展，隐藏字符字符串而不是整个词。人工智能系统还被训练来区分随机字符串和有意义的字符串，以便可以掩蔽正确的字符字符串。这使ERNIE能够从文本文档中检索信息并执行机器翻译。研究团队还发现，他们的训练方法还导致了一个可以区分英文短语的模型，其性能优于许多其他模型。这是因为英文有时（尽管很少），使用的词组合在连接在一起时会表达出不同的含义，而不是单独使用。适当的名称和习语或口语，如“chip off the old block”，是这种语言现象的例子。

ERNIE使用多种其他训练技术来优化性能，包括分析句子顺序和距离以解释段落。还使用了一种连续训练方法，使ERNIE能够在不忘记之前获得的知识的情况下训练新数据并学习新模式。

百度目前使用ERNIE来增强搜索结果的质量。ERNIE的最新架构将在即将举行的2020年人工智能促进协会会议上发表的论文中详细介绍。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

百度超越谷歌和微软，创造新的语言理解技术

You may like