思想领袖
Transformer 的影响:机器翻译问题解决了吗?
谷歌最近宣布,谷歌翻译将新增 110 种语言,这是其 1000 年推出的 2022 种语言计划的一部分。2022 年初,他们 增加了 24 种语言。加上最近新增的 110 种语言,现在已达到 243 种语言。这种快速扩展得益于 零样本机器翻译这是一种机器学习模型无需先前示例即可学习将语言翻译成另一种语言的技术。但在未来,我们将共同见证这一进步是否能成为机器翻译挑战的最终解决方案,同时我们可以探索实现这一目标的方法。但首先要讲的是它的故事。
以前是怎样的?
统计机器翻译 (SMT)
这是谷歌翻译最初使用的方法。它依赖于统计模型。他们分析了大型平行语料库(对齐句子翻译的集合),以确定最有可能的翻译。首先,系统将文本翻译成英文,这是将其转换为目标语言之前的中间步骤,并且需要将短语与联合国和欧洲议会记录的大量数据集进行交叉引用。它不同于需要编制详尽语法规则的传统方法。它的统计方法使其能够适应和从数据中学习,而无需依赖可能很快变得完全不必要的静态语言框架。
但这种方法也有一些缺点。首先,谷歌翻译使用基于短语的翻译,系统将句子分解为短语并逐个翻译。这比逐字翻译有所改进,但仍然存在一些局限性,例如措辞不当和上下文错误。它无法像我们一样完全理解细微差别。此外,SMT 严重依赖于平行语料库,任何相对罕见的语言都很难翻译,因为它没有足够的平行数据。
神经机器翻译(NMT)
2016 年,谷歌转向神经机器翻译 (NMT)。它使用深度学习模型将整句翻译成完整的句子,从而提供更流畅、更准确的翻译。NMT 的运作方式类似于在计算机中安装一个复杂的多语言助手。NMT 使用序列到序列 (seq2seq) 架构,处理一种语言的句子以理解其含义。然后,生成另一种语言的对应句子。与统计机器翻译 (SMT) 不同,NMT 使用海量数据集进行学习,SMT 依靠统计模型分析大型平行语料库来确定最可能的翻译。与专注于短语翻译且需要大量人工开发和维护语言规则和词典的 SMT 不同,NMT 能够处理整段词序列,从而更有效地捕捉语言的细微语境。因此,它提高了各种语言对的翻译质量,通常可以达到与人工翻译相当的流畅度和准确性。
事实上,传统的 NMT 模型使用循环神经网络 (RNN) 作为核心架构,因为它们旨在通过维护隐藏状态来处理顺序数据,而隐藏状态会随着每个新输入(单词或标记)的处理而演变。这种隐藏状态充当一种记忆,可以捕捉先前输入的上下文,让模型随着时间的推移学习依赖关系。但是,RNN 的计算成本高昂,难以有效并行化,这限制了它们的可扩展性。
Transformer 简介
2017 年,谷歌研究院发表了一篇论文,题为 “你只需要关注” 向世界介绍了 transformer 并标志着神经网络架构从 RNN 的重大转变。
Transformer 仅依赖于注意力机制——自我注意力,这使得神经机器翻译模型能够选择性地关注输入序列中最关键的部分。与按句子中的序列处理单词的 RNN 不同,自我注意力会评估整个文本中的每个标记,确定哪些其他标记对于理解其上下文至关重要。这种对所有单词的同时计算使 Transformer 能够有效地捕获短程和长程依赖关系,而无需依赖循环连接或卷积滤波器。
因此,通过消除重复,Transformer 提供了几个关键优势:
- 并行性:注意力机制可以在序列的不同部分之间并行计算,从而加速在 GPU 等现代硬件上的训练。
- 培训效率:与传统的基于 RNN 或基于 CNN 的模型相比,它们还需要更少的训练时间,从而在机器翻译等任务中提供更好的性能。
零样本机器翻译和 PaLM 2
2022年,谷歌发布了零样本机器翻译(Zero-Shot Machine Translation)功能,新增24种语言,标志着机器翻译技术的一个重要里程碑。他们还宣布了“千种语言计划”,旨在支持全球使用最广泛的1,000种语言。目前,他们已经推出了 110种语言零样本机器翻译可以在源语言和目标语言之间实现无需并行数据的翻译,从而无需为每对语言创建训练数据——这一过程以前既昂贵又耗时,对于某些语言对来说甚至是不可能的。
这一进步得益于 transformer 的架构和自注意力机制。变压器模型的能力 学习跨语言的上下文关系,再加上其同时处理多种语言的可扩展性,使得开发更高效、更有效的多语言翻译系统成为可能。然而,零样本模型的质量通常低于在并行数据上训练的模型。
然后,在 Transformer 进展的基础上,谷歌推出了 掌上电脑2 2023 年,这项技术为 110 年推出 2024 种新语言铺平了道路。PaLM 2 显著增强了 Google Translate 学习密切相关语言(例如阿瓦德语和马尔瓦迪语(与印地语相关))以及法语克里奥尔语(例如塞舌尔语和毛里求斯克里奥尔语)的能力。PaLM 2 的改进,例如计算优化扩展、增强的数据集和更完善的设计,实现了更高效的语言学习,并支持 Google 持续努力,使语言支持更完善、更强大,并适应各种语言的细微差别。
我们是否可以说,Transformer 已完全解决了机器翻译的难题?
我们所说的演变,从谷歌采用同步机器翻译 (SMT) 到最近新增 18 种语言使用零样本机器翻译 (Zero-Shot Machine Translation),用了 110 年的时间。这是一个巨大的飞跃,有可能减少对大量平行语料库收集的需求——这项历来耗费人力的任务,业界已经为此努力了二十多年。但是,从技术和伦理角度来看,断言机器翻译已经完全解决了这一问题还为时过早。
当前的模型在处理语境和连贯性方面仍然存在问题,并且会犯一些细微的错误,这些错误可能会改变文本的预期含义。这些问题在较长、较复杂的句子中尤为明显,因为需要保持逻辑流畅并理解细微差别才能获得理想的结果。此外,文化差异和惯用表达方式也常常会丢失或失去意义,导致翻译结果可能语法正确,但却无法达到预期的效果或听起来不自然。
预训练数据: PaLM 2 和类似模型在多样化的多语言文本语料库上进行了预训练,超越了其前身 PaLM。这一增强功能使 PaLM 2 能够在多语言任务中表现出色,凸显了传统数据集对于提高翻译质量的持续重要性。
特定领域或稀有语言: 在法律、医学或技术领域等专业领域,平行语料库可确保模型能够应对特定术语和语言细微差别。高级模型可能难以应对特定领域的术语或不断发展的语言趋势,这对零样本机器翻译构成挑战。此外,资源匮乏的语言翻译效果仍然很差,因为它们没有训练准确模型所需的数据
标杆: 平行语料库对于评估和衡量翻译模型的性能仍然至关重要,对于缺乏足够平行语料库数据的语言来说尤其具有挑战性。BLEU、BLERT 和 METEOR 等自动化指标在评估除语法之外的翻译质量细微差别方面存在局限性。但是,我们人类受到偏见的阻碍。此外,目前合格的评估员并不多,而且很难为每对语言找到完美的双语评估员来发现细微的错误。
资源强度: 培训和部署 LLM 的资源密集型性质仍然是一个障碍,限制了某些应用程序或组织的可访问性。
文化保护。 其伦理层面意义深远。正如谷歌翻译研究科学家艾萨克·卡斯韦尔 (Isaac Caswell) 所描述的“零样本机器翻译”:“你可以把它想象成一个通晓多种语言的多语言机器。但除此之外,它还能看到 1,000 多种尚未翻译的语言文本。你可以想象一下,如果你是一个通晓多种语言的机器,然后你开始阅读另一种语言的小说,你就能根据你对语言的总体了解,拼凑出它可能的含义。” 然而,至关重要的是要考虑其对缺乏平行语料库的小语种的长期影响,当人们不再依赖语言本身时,这可能会影响文化保护。






