人工智能

如何通过 Google 的开源 BERT 模型增强语言处理

更新 on 2022 年 12 月 9 日

来自 Transformers 的双向编码器表示，也称为 BERT；是一种大幅提升NLP模型效率和效果的训练模型。现在，Google 已将 BERT 模型开源，从而可以改进所有行业的 NLP 模型。在本文中，我们将了解 BERT 如何使 NLP 成为当今世界最强大、最有用的 AI 解决方案之一。

将 BERT 模型应用于搜索

谷歌的搜索引擎以其呈现相关内容的能力而闻名于世，并且他们已将这种自然语言处理程序向全世界开源。

随着世界以指数方式产生新数据，系统读取和解释自然语言的能力变得越来越重要。 Google 的词义、短语和呈现相关内容的一般能力库是开源的。除了自然语言处理之外，他们的 BERT 模型还能够从大量非结构化数据中提取信息，并可用于为任何图书馆创建搜索界面。在本文中，我们将了解如何将这项技术应用于能源领域。

BERT（Bi Direction Encoder Representations from Transformers）是由 Transformers 提出的一种预训练方法谷歌人工智能语言小组的开发是为了克服早期 NLP 模型的一个常见问题：缺乏足够的训练数据。

让我们详细说明，但不涉及太多细节：

训练模式

低级（例如命名实体识别、主题分割）和高级（例如情感分析、语音识别）NLP 任务需要特定于任务的注释数据集。虽然标记数据集很难获得且组装成本高昂，但它们在浅层和深层神经网络模型的性能中都发挥着至关重要的作用。只有当有数百万甚至数十亿的带注释的训练示例可用时，才能实现高质量的推理结果。这是一个导致许多 NLP 任务难以完成的问题。直到 BERT 被开发出来。

BERT 是一种通用语言表示模型，在大型未注释文本语料库上进行训练。当模型接触大量文本内容时， 可以学习 理解句子中单词之间的上下文和关系。与之前仅在单词级别表示含义的学习模型不同（银行在“银行账户”和“草银行”中意思相同），BERT 实际上关心上下文。也就是说，句子中单词之前和之后的内容。事实证明，上下文是 NLP 模型的一个主要缺失能力，它直接影响模型的性能。许多人认为设计 BERT 等上下文感知模型是 NLP 新时代的开始。

在大量文本内容上训练 BERT 的技术称为 预训练。这意味着模型的权重会针对一般文本理解任务进行调整，并且可以在其之上构建更细粒度的模型。作者在 11 个 NLP 任务上采用基于 BERT 的模型，并取得了最先进的结果，证明了这种技术的优越性。

预训练模型

最好的一点是：预训练的 BERT 模型是开源且公开的。这意味着任何人都可以处理 NLP 任务并在 BERT 之上构建模型。没有什么可以打败它，对吧？哦，等等：这也意味着 NLP 模型现在可以在较小的数据集上进行训练（微调），而无需从头开始训练。确实是一个新时代的开始。

这些预先训练的模型可帮助公司降低部署内部或外部使用的 NLP 模型的成本和时间。虚拟团队文化建设公司 teambuilding.com 的首席执行官 Michael Alexis 强调了训练有素的 NLP 模型的有效性。

“NLP 的最大好处是可扩展且一致的信息推理和处理。” – 迈克尔·亚历克西斯首席执行官 团队建设.com

Michael 阐述了如何将 NLP 应用于破冰活动或调查等文化培育项目。公司可以通过分析员工的反应来深入了解公司文化的运作方式。这不仅可以通过分析文本来实现，还可以通过分析文本的注释来实现。从本质上讲，该模型还可以“解读言外之意”，以对情感、感觉和整体前景进行推断。 BERT 可以通过基于指标的预训练模型来帮助解决此类情况，从而揭示语言的细微差别并提供更准确的见解。

改进查询

上下文建模能力使 BERT 成为 NLP 英雄，并彻底改变了 Google 搜索本身。以下是 Google 搜索产品团队的引述及其测试经验，当时他们正在调整 BERT 以了解查询背后的意图。

“以下一些示例证明了 BERT 能够理解搜索背后的意图。这是搜索“2019 巴西游客前往美国需要签证”。 “to”一词及其与查询中其他词的关系对于理解含义尤其重要。这是关于一个巴西人去美国旅行的故事，而不是相反。以前，我们的算法无法理解这种联系的重要性，并且我们返回了有关美国公民前往巴西旅行的结果。借助 BERT，搜索能够抓住这种细微差别，并知道非常常见的单词“to”实际上在这里很重要，我们可以为该查询提供更相关的结果。”
– 比以往任何时候都更好地理解搜索，作者：Pandu Nayak，Google 院士兼搜索副总裁。

BERT 搜索示例，前后。来源新闻

在我们的最后一篇文章中 自然语言处理和光学字符识别，我们展示了 NLP 在房地产领域的一些用途。我们还提到“NLP 工具是理想的信息提取工具”。让我们看看能源领域，看看 BERT 等颠覆性 NLP 技术如何实现新的应用用例。

NLP模型可以从大量非结构化数据中提取信息

使用 NLP 模型的一种方式是从非结构化文本数据中提取关键信息。电子邮件、日记、笔记、日志和报告都是企业日常运营中文本数据源的示例。其中一些文件可能对组织提高运营效率和降低成本的努力至关重要。

当打算实施时 风力发电机预测性维护， 故障报告 可能含有有关不同组件行为的关键信息。但由于不同的风力涡轮机制造商有不同的数据收集规范（即维护报告采用不同的格式甚至语言），因此手动识别相关数据项对于电厂所有者来说很快就会变得昂贵。 NLP 工具可以从非结构化内容中提取相关概念、属性和事件。 然后可以使用文本分析来查找不同数据源中的相关性和模式。这使工厂所有者有机会根据故障报告中确定的定量措施实施预测性维护。

NLP模型可以提供自然语言搜索接口

同样，为石油和天然气公司工作的地球科学家通常需要审查与过去钻井作业、测井和地震数据相关的许多文件。由于此类文档也有不同的格式，并且通常分布在多个位置（物理位置和数字位置），因此他们会浪费大量时间在错误的位置查找信息。在这种情况下，一个可行的解决方案是 NLP 支持的搜索界面， 这将允许用户以自然语言查找数据。然后，NLP 模型可以将数百个文档中的数据关联起来，并返回一组查询答案。然后，工作人员可以根据自己的专业知识验证输出，反馈将进一步改进模型。

然而，部署此类模型也存在技术方面的考虑。一方面是行业特定术语可能会混淆没有适当语义理解的传统学习模型。其次，模型的性能可能会受到训练数据集大小的影响。这就是 BERT 等预训练模型可以发挥作用的时候。上下文表示可以对适当的词义进行建模，并消除由行业特定术语引起的任何混淆。通过使用预先训练的模型，可以在较小的数据集上训练网络。这节省了从头开始进行培训所需的时间、精力和资源。

那你自己的生意呢？

您能想到任何可以帮助您降低成本并提高运营效率的 NLP 任务吗？

蓝橙色数码数据科学团队也很乐意为了您的利益而调整 BERT！

下一步

美国军方距离自主越野战车越来越近

不要错过

Quantum Stat 的最新创造是 NLP Model Forge

乔什·米拉曼特

乔什·米拉曼特 (Josh Miramant) 是蓝橙色数码是一家顶级数据科学和机器学习机构，在纽约市和华盛顿特区设有办事处。 Miramant 是一位受欢迎的演讲家、未来学家，也是企业公司和初创公司的战略业务和技术顾问。他帮助组织优化和自动化其业务，实施数据驱动的分析技术，并了解人工智能、大数据和物联网等新技术的影响。