思想领袖

Transformer 的影响：机器翻译问题已经解决了吗？

发布于 2024年7月29日

更新于 2026年5月21日

作者

Irina Barskaya, 博士，雅虎数据科学部负责人

Google最近宣布在Google Translate上添加了110种新语言，这是他们在2022年启动的1000语言计划的一部分。2022年初，他们添加了24种语言。现在，随着最新的110种语言的添加，总共有243种语言。这种快速扩张是由于零次机器翻译技术的应用，这种技术使得机器学习模型能够在没有先前例子的情况下学习翻译其他语言。但是，我们将在未来看到这种进步是否能够成为解决机器翻译挑战的最终解决方案。在此期间，我们可以探索它可以实现的方式。但首先，让我们看看它的故事。

以前的情况如何？

统计机器翻译（SMT）

这是Google Translate最初使用的方法。它依赖于统计模型。它们分析了大量的平行语料库，即对齐的句子翻译，以确定最可能的翻译。首先，系统将文本翻译成英语作为中间步骤，然后将其转换成目标语言，并需要与大量的联合国和欧洲议会会议记录中的短语进行交叉引用。它不同于传统的方法，即需要编译详尽的语法规则。其统计方法使其能够从数据中学习和适应，而不依赖于静态的语言框架，这些框架可能很快变得完全不必要。

但是，这种方法也有一些缺点。首先，Google Translate使用的是基于短语的翻译，即系统将句子分解成短语并分别翻译。这比逐字翻译有所改进，但仍然存在一些限制，如生硬的措辞和上下文错误。它并不能完全理解我们所理解的细微差别。此外，SMT严重依赖于平行语料库，而任何相对罕见的语言都很难翻译，因为它没有足够的平行数据。

神经机器翻译（NMT）

2016年，Google转向了神经机器翻译。它使用深度学习模型来翻译整个句子，而不是逐字或逐短语翻译，从而提供更流畅和更准确的翻译。NMT的工作原理类似于在计算机中拥有一个高级的多语言助手。使用序列到序列（seq2seq）的架构，NMT处理一个句子以理解其含义，然后生成另一种语言的对应句子。这种方法使用大量的数据进行学习，与统计机器翻译相比，后者依赖于统计模型来分析大量的平行语料库以确定最可能的翻译。与SMT不同，SMT关注的是基于短语的翻译，并需要大量的手动努力来开发和维护语言规则和词典，NMT能够处理整个词序列，使其能够更好地捕捉语言的细微差别。因此，它提高了各种语言对的翻译质量，经常达到与人类翻译者相当的流畅度和准确度。

事实上，传统的NMT模型使用循环神经网络（RNN）作为核心架构，因为它们被设计为处理序列数据，通过维护一个隐藏状态，该状态会随着每个新输入（单词或标记）而演变。这个隐藏状态充当一种记忆，捕捉前置输入的上下文，使模型能够随着时间的推移学习依赖关系。但是，RNN计算成本高，难以有效地并行化，这限制了它们的可扩展性。

Transformer的引入

2017年，Google Research发表了一篇题为“Attention is All You Need”的论文，向世界介绍了Transformer，并标志着神经网络架构从RNN转向Transformer的转折点。

Transformer仅依赖于注意力机制，即自注意力机制，使得神经机器翻译模型能够有选择地关注输入序列中最关键的部分。与RNN不同，RNN处理句子中的单词，而自注意力机制则评估整个文本中的每个标记，以确定哪些标记对于理解其上下文至关重要。这种同时计算所有单词的能力使得Transformer能够有效地捕捉短距离和长距离的依赖关系，而无需依赖循环连接或卷积滤波器。

因此，通过消除递归，Transformer提供了几个关键的好处：

并行化：注意力机制可以在序列的不同部分并行计算，这加速了在现代硬件（如GPU）上的训练。
训练效率：它们还需要的训练时间明显减少，与传统的基于RNN或CNN的模型相比，在机器翻译等任务中表现更好。

零次机器翻译和PaLM 2

2022年，Google使用零次机器翻译支持了24种新语言，这标志着机器翻译技术的一个重要里程碑。他们还宣布了1000语言计划，旨在支持世界上1000种最常用的语言。现在，他们已经推出了110种语言。零次机器翻译使得翻译不需要源语言和目标语言之间的平行数据，从而消除了为每种语言对创建训练数据的需要——一个以前既耗时又昂贵的过程，对于一些语言对来说甚至是不可能的。

这种进步之所以成为可能，是因为Transformer的架构和自注意力机制。Transformer模型能够学习语言之间的上下文关系，加上其能够同时处理多种语言的可扩展性，使得更高效和有效的多语言翻译系统得以开发。然而，零次模型通常比在平行数据上训练的模型质量较低。

然后，基于Transformer的进展，Google在2023年推出了PaLM 2，为2024年推出110种新语言铺平了道路。PaLM 2显著增强了Translate学习相关语言（如阿瓦德语和马尔瓦里语，与印地语相关）的能力，以及法语克里奥尔语（如塞舌尔克里奥尔语和毛里求斯克里奥尔语）。PaLM 2的改进，如计算优化、增强数据集和精炼设计，使得语言学习更加高效，并支持Google继续改进和扩大语言支持以适应多样化的语言细微差别。

我们能否声称机器翻译的挑战已经通过Transformer完全解决？

我们所讨论的演变历时18年，从Google采用SMT到最近使用零次机器翻译添加的110种新语言。这代表着一个巨大的飞跃，可能会减少对广泛的平行语料库收集的需求——这是行业在过去二十多年中追求的非常耗时的任务。但是，声称机器翻译已经完全解决将为时过早，考虑到技术和伦理方面的考虑。

当前的模型仍然难以处理上下文和连贯性，并且会犯一些细微的错误，这些错误可能会改变文本的含义。这些问题在更长、更复杂的句子中尤其明显，在这些句子中，维持逻辑流程和理解细微差别对于结果至关重要。此外，文化细微差别和习语往往会丢失或失去意义，导致翻译虽然语法正确，但没有预期的影响或听起来不自然。

预训练数据： PaLM 2和类似的模型是在多语言文本语料库上预训练的，超过了其前身PaLM。这种增强使得PaLM 2能够在多语言任务中表现出色，强调了传统数据集在提高翻译质量方面的持续重要性。

特定领域或罕见语言： 在法律、医学或技术等特定领域，平行语料库确保模型遇到特定的术语和语言细微差别。高级模型可能难以处理特定领域的术语或语言趋势的演变，这对零次机器翻译提出挑战。此外，低资源语言仍然翻译得很差，因为它们没有足够的数据来训练准确的模型

基准测试： 平行语料库仍然是评估和基准测试翻译模型性能的必要条件，特别是对于缺乏足够平行语料库数据的语言。自动化指标如BLEU、BLERT和METEOR在评估翻译质量的细微差别方面存在局限性，除了语法之外。但是，我们人类也受到偏见的限制。此外，找到每对语言的完美双语评估者来捕捉细微的错误并不容易。

资源强度： 训练和部署大型语言模型的资源密集型性质仍然是一个障碍，限制了一些应用或组织的可访问性。

文化保护。 伦理方面的影响是深远的。正如Google Translate研究科学家Isaac Caswell所描述的零次机器翻译：“你可以把它想象成一个多语者，它知道很多语言。但是，然后，它还可以看到1000种其他语言的文本，这些文本没有被翻译。你可以想象，如果你是一个大型的多语者，然后你开始阅读另一语言的书，你可以开始根据你对语言的一般知识来拼凑出它可能的含义。” 然而，考虑到对少数语言缺乏平行语料库的长期影响对于文化保护至关重要，因为对这些语言的依赖可能会转移。

Irina Barskaya, 博士，雅虎数据科学部负责人

伊琳娜·巴尔斯卡娅（Irina Barskaya），博士，是一位具有十多年经验的杰出数据科学家，涵盖了产品分析和尖端技术的分析。她领导了雅丝敏娜（Yasmina）的创建和分析，雅丝敏娜是沙特阿拉伯第一个完全功能的本地化人工智能语音助手，处理现代标准阿拉伯语和沙特方言的复杂数据本地化和标注。目前，伊琳娜在雅虎（Yandex）领导质量分析，推动人工智能技术的发展。