人工智能

语言处理如何通过谷歌的开源BERT模型得到增强

发布于 2020年8月19日

更新于 2026年5月25日

作者

Josh Miramant

双向编码器表示从转换器，简称BERT，是一种训练模型，它大大提高了NLP模型的效率和效果。现在谷歌已经将BERT模型开源，这使得NLP模型在各个行业都得到了改进。在本文中，我们将探讨BERT如何使NLP成为当今世界中最强大和最有用的AI解决方案之一。

将BERT模型应用于搜索

谷歌的搜索引擎以其能够呈现相关内容而闻名，他们已经将这种自然语言处理程序开源给了全世界。

系统读取和解释自然语言的能力变得越来越重要，因为世界正在指数级地产生新的数据。谷歌的词义库、短语和一般能力呈现相关内容，是开源的。除了自然语言处理外，BERT模型还能够从大量无结构数据中提取信息，并可以应用于创建任何图书馆的搜索接口。在本文中，我们将看到如何将这种技术应用于能源领域。

BERT（双向编码器表示从转换器）是一种预训练方法，由谷歌AI语言团队提出，旨在解决早期NLP模型的一个常见问题：缺乏足够的训练数据。

让我们详细说明，不要过多地解释：

训练模型

低级（例如命名实体识别、主题分段）和高级（例如情感分析、语音识别）NLP任务需要特定于任务的注释数据集。虽然它们很难获得和昂贵，但注释数据集在浅层和深层神经网络模型的性能中起着至关重要的作用。只有当有数百万或甚至数十亿个注释训练示例时，才能实现高质量的推理结果。而这正是BERT被开发出来的原因。

BERT是一种通用语言表示模型，训练在大量未注释的文本语料库上。当模型暴露在大量文本内容时，它学习理解上下文和句子中单词之间的关系。与之前只在单词级别表示意义的学习模型不同（例如，“bank”在“bank account”和“grassy bank”中具有相同的意义），BERT实际上关心上下文，即单词在句子中的前后关系。上下文被证明是NLP模型缺乏的主要能力，对模型性能有直接影响。设计像BERT这样的上下文感知模型被认为是NLP的一个新时代的开始。

在大量文本内容上训练BERT是一种称为预训练的技术。这意味着模型的权重被调整为一般文本理解任务，并且可以在其上构建更细致的模型。作者通过在11个NLP任务中使用BERT模型并实现最先进的结果，证明了这种技术的优越性。

预训练模型

最好的部分是：预训练的BERT模型是开源和公开可用的。这意味着任何人都可以处理NLP任务，并在BERT的基础上构建自己的模型。没有什么比这更好了，对吧？等一下：这也意味着NLP模型现在可以在较小的数据集上进行训练（微调），而无需从头开始训练。的确是一个新时代的开始。

这些预训练模型帮助公司减少部署NLP模型的成本和时间，无论是用于内部还是外部使用。NLP模型的有效性由teambuilding.com的CEO Michael Alexis强调。

“NLP的最大好处是信息的可扩展和一致的推理和处理。”——Michael Alexis，teambuilding.com的CEO

Michael解释了如何将NLP应用于文化培养计划，例如破冰游戏或调查。公司可以通过分析员工的回应来获得对公司文化的宝贵见解。这不仅仅是分析文本，还包括分析文本的注释。基本上，模型也“读懂”了语言之间的细微差别，以推断情感、感觉和整体观点。BERT可以通过预训练模型以指标为基础来帮助这种情况，揭示语言的细微差别并提供更准确的见解。

改进查询

上下文建模的能力使BERT成为NLP英雄，并彻底改变了谷歌搜索本身。以下是谷歌搜索产品团队关于BERT理解查询意图的测试经验的引用。

“以下是一些示例，展示BERT理解查询意图的能力。以下是“2019年巴西旅行者需要签证”的搜索。单词“to”与其他单词的关系在理解意义方面至关重要。这是关于巴西人前往美国，而不是相反。以前，我们的算法无法理解这种联系，并返回了关于美国公民前往巴西的结果。有了BERT，搜索可以理解这种细微差别，并知道常见单词“to”在这里非常重要，我们可以为此查询提供更相关的结果。”——Pandu Nayak，谷歌研究员和搜索副总裁

BERT搜索示例，之前和之后。来源博客

在我们之前关于 NLP和OCR的文章中，我们已经阐述了一些NLP在房地产领域的应用。我们还提到“NLP工具是理想的信息提取工具”。让我们来看看能源领域，了解如何通过BERT等破坏性NLP技术实现新的应用场景。

NLP模型可以从大量无结构数据中提取信息

NLP模型可以用于从无结构文本数据中提取关键信息。电子邮件、期刊、笔记、日志和报告都是企业日常运营中使用的文本数据源的例子。其中一些文档可能在企业提高运营效率和降低成本的努力中起着至关重要的作用。

在实施风力涡轮机预测性维护 故障报告时，可能包含有关不同部件行为的关键信息。但是，由于不同的风力涡轮机制造商有不同的数据收集规范（即维护报告以不同的格式和语言出现），手动识别相关数据项可能会对厂主来说很昂贵。 NLP工具可以从无结构内容中提取相关概念、属性和事件。然后可以使用文本分析来查找不同数据源中的相关性和模式。这使得厂主能够根据故障报告中确定的量化指标实施预测性维护。

NLP模型可以提供自然语言搜索接口

同样，石油和天然气公司的地球科学家通常需要审查许多与过去的钻井作业、井志和地震数据相关的文档。由于这些文档以不同的格式出现，并且通常分散在多个物理和数字位置，因此他们浪费了大量时间在错误的地方寻找信息。在这种情况下，一个可行的解决方案是NLP驱动的搜索接口，它将允许用户使用自然语言查找数据。然后，NLP模型可以在数百个文档中关联数据，并返回一组答案。工人可以根据自己的专业知识验证输出，反馈将进一步改进模型。

然而，也有一些技术考虑因素需要在部署此类模型时考虑。一个方面是行业特定的术语可能会混淆传统的学习模型，这些模型没有适当的语义理解。其次，模型的性能可能会受到训练数据集大小的影响。这就是预训练模型如BERT的作用。上下文表示可以模拟适当的单词含义，并消除由行业特定术语引起的任何混淆。通过使用预训练模型，可以在较小的数据集上训练网络。这节省了时间、精力和资源，这些原本需要从头开始训练。

那么你的业务呢？

你能想到任何NLP任务，可以帮助你降低成本并提高运营效率吗？

Blue Orange Digital的数据科学团队也很乐意为您调整BERT！