人工智能

NLP崛起与Transformer模型 | 对T5、BERT和GPT的全面分析

发布于 2023年11月8日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

自然语言处理（NLP）近年来经历了一些最有影响力的突破，主要归功于Transformer架构。这些突破不仅提高了机器理解和生成人类语言的能力，还重新定义了许多应用的格局，从搜索引擎到对话式人工智能。

为了充分理解Transformer的重要性，我们必须首先回顾一下为这个革命性架构奠定基础的前身和基础技术。

早期NLP技术：Transformer之前的基础

词嵌入：从One-Hot到Word2Vec

在传统的NLP方法中，词的表示往往是字面上的，缺乏语义或句法理解。One-Hot编码是一个典型的例子。

One-Hot编码是一个过程，通过将分类变量转换为二进制向量表示，其中只有一个位是“热”（设置为1），而其他位是“冷”（设置为0）。在NLP的背景下，词汇表中的每个词都由一个One-Hot向量表示，其中每个向量的大小等于词汇表的大小，每个词都由一个向量表示，该向量在对应于该词在词汇表中的索引处有一个1，其他地方都是0。

One-Hot编码示例

假设我们有一个只有五个词的微小词汇表：[“king”, “queen”, “man”, “woman”, “child”]。每个词的One-Hot编码向量如下：

“king” -> [1, 0, 0, 0, 0]
“queen” -> [0, 1, 0, 0, 0]
“man” -> [0, 0, 1, 0, 0]
“woman” -> [0, 0, 0, 1, 0]
“child” -> [0, 0, 0, 0, 1]

数学表示

如果我们用 $V$ 表示词汇表的大小，用 $w_{i}$ 表示词汇表中第i个词的One-Hot向量表示，则 $w_{i}$ 的数学表示为：

$w_{i} = [0, 0, \dots, 1, \dots, 0, 0]$ $其中第i个位置是1，其他位置都是0。$

One-Hot编码的主要缺点是，它将每个词视为一个孤立的实体，没有与其他词的任何关系。这导致了稀疏和高维的向量，它们不能捕获词的语义或句法信息。

Word2Vec的引入，尤其是由Google的Tomas Mikolov领导的团队在2013年开发的Word2Vec，是NLP领域的一个重要时刻。Word2Vec将词表示为密集向量空间，捕获了词在大型文本语料库中上下文的语法和语义关系。

与One-Hot编码不同，Word2Vec生成的向量通常具有数百个维度。出现在相似上下文中的词，如“king”和“queen”，将具有在向量空间中更接近的向量表示。

为了说明，让我们假设我们已经训练了一个Word2Vec模型，并将词表示为一个假设的3维空间。嵌入（通常比3维，但这里简化）可能如下所示：

“king” -> [0.2, 0.1, 0.9]
“queen” -> [0.21, 0.13, 0.85]
“man” -> [0.4, 0.3, 0.2]
“woman” -> [0.41, 0.33, 0.27]
“child” -> [0.5, 0.5, 0.1]

虽然这些数字是虚构的，但它们说明了相似词具有相似的向量。

数学表示

如果我们将Word2Vec词嵌入表示为 $v_{w}$ , 且我们的嵌入空间有 $d$ 维，则 $v_{w}$ 可以表示为：

$v_{1} = [v_{1}, v_{2}, \dots, v_{d}]$ $其中每个 v_{i} 是词在嵌入空间中的一个浮点数特征。$

语义关系

Word2Vec甚至可以捕获复杂的关系，例如类比。例如，Word2Vec嵌入捕获的著名关系是：

$vector(“king”) - vector(“man”) + vector(“woman”) \approx vector(“queen”)$

这是因为Word2Vec在训练过程中调整词向量，使得在语料库中共享上下文的词在向量空间中更接近。

Word2Vec使用两种主要架构来生成词的分布式表示：连续袋词（CBOW）和Skip-Gram。CBOW从上下文词预测目标词，而Skip-Gram则相反，预测上下文词。这种方法使得机器能够以更细致的方式理解词的使用和含义。

序列建模：RNNs和LSTMs

随着领域的发展，重点转向了理解文本序列，这对于机器翻译、文本摘要和情感分析等任务至关重要。循环神经网络（RNNs）由于其处理序列数据的能力而成为这些应用的基石。

然而，RNNs并非没有局限性。它们在处理长距离依赖时遇到困难，这是由于梯度消失问题引起的，信息在长序列中会丢失，使得学习事件之间的相关性变得困难。

长短期记忆网络（LSTMs），由Sepp Hochreiter和Jürgen Schmidhuber于1997年提出，通过更复杂的架构解决了这个问题。LSTMs具有控制信息流动的门：输入门、遗忘门和输出门。这些门决定了什么信息被存储、更新或丢弃，使得网络能够保留长距离依赖并显著提高了在广泛NLP任务上的性能。

Transformer架构

NLP领域在2017年Vaswani等人发表的“Attention is All You Need”论文中引入Transformer模型后发生了戏剧性的变化。Transformer架构偏离了RNNs和LSTMs的序列处理，转而使用一种称为自注意力的机制来加权输入数据的不同部分的影响。

Transformer的核心思想是，它可以同时处理整个输入数据，而不是顺序处理。这使得模型可以更好地并行化，从而在训练速度上获得了显著的提高。自注意力机制使得模型可以在处理输入数据时关注不同的部分，这对于理解上下文和词之间的关系至关重要，无论它们在文本中的位置如何。

Transformer中的编码器和解码器：

在原始Transformer模型中，如Vaswani等人在论文“Attention is All You Need”中所述，架构分为两个主要部分：编码器和解码器。两部分都由具有相同一般结构但服务于不同目的的层组成。

编码器：

角色：编码器的角色是处理输入数据并创建一个捕获元素之间关系的表示。这个Transformer部分不生成任何新内容；它只是将输入转换为解码器可以使用的状态。
功能：每个编码器层都具有自注意力机制和前馈神经网络。自注意力机制允许编码器中的每个位置关注前一层编码器中的所有位置——因此，它可以学习每个词周围的上下文。
上下文嵌入：编码器的输出是一系列向量，它们在高维空间中表示输入序列。这些向量通常被称为上下文嵌入，因为它们不仅编码个别词，还编码它们在句子中的上下文。

解码器：

角色：解码器的角色是根据从编码器接收的输入和到目前为止生成的内容，顺序地生成输出数据，一次一个部分。它的设计目的是用于文本生成等任务，其中生成顺序至关重要。
功能：解码器层也包含自注意力机制，但它们被掩蔽以防止位置关注后续位置。这确保了对特定位置的预测仅取决于之前的已知输出。另外，解码器层包括一个关注编码器输出的第二个注意力机制，将输入的上下文整合到生成过程中。
顺序生成能力：这指的是解码器根据已经生成的内容，逐步生成序列的能力。例如，在文本生成时，解码器根据编码器提供的上下文和已经生成的词序列，预测下一个词。

编码器和解码器中的每个子层对于模型处理复杂NLP任务的能力至关重要。多头注意力机制特别允许模型选择性地关注序列的不同部分，从而对上下文有更深入的理解。