人工智能
多语言大型语言模型的现状:超越英语

根据微软研究,世界上大约 88% 的语言,由 12 亿人使用,缺乏访问 大型语言模型 (LLM) 的机会。这是因为大多数 LLM 都以英语为中心,即它们主要是用英语数据构建的,并且是为英语使用者设计的。这种英语主导地位也存在于 LLM 的开发中,并导致了数字语言鸿沟,可能将大多数人排除在 LLM 的益处 之外。为了解决 LLM 的这个问题,需要一种可以在不同语言中训练并执行不同语言任务的 LLM。进入多语言 LLM!
什么是多语言 LLM?
多语言 LLM 可以理解和生成多种语言的文本。它们是在包含不同语言的数据集上训练的,可以处理来自用户提示的多种语言的任务。
多语言 LLM 的应用非常广泛,包括将文学作品翻译成当地方言、实时多语言通信、多语言内容创作等。它们将帮助每个人无论他们的语言如何,都可以轻松地获取信息和相互交流。
此外,多语言 LLM 解决了缺乏文化细微差别和背景、训练数据限制以及翻译过程中可能丢失知识等挑战。
多语言 LLM 如何工作?
构建多语言 LLM 需要仔细准备一个包含多种语言的平衡语料库,并选择适合的架构和训练技术,理想情况下是 Transformer 模型,它非常适合多语言学习。

来源:作者图片
一种技术是共享嵌入,这可以捕捉不同语言中单词的语义含义。这使得 LLM 学习每种语言的相似性和差异,使其能够更好地理解不同的语言。
这种知识还使 LLM 能够适应各种语言任务,例如翻译语言、以不同风格写作等。另一种技术是 跨语言迁移学习,其中模型首先在多语言数据的大语料库上进行预训练,然后在特定任务上进行微调。
这种两步过程确保模型在多语言语言理解方面有坚实的基础,使其能够适应各种下游应用。
多语言大型语言模型的例子

来源: Ruder.io
已经出现了几种值得注意的多语言 LLM,每一种都满足特定的语言需求和文化背景。让我们探索其中几个:
1. BLOOM
BLOOM 是一个开源的多语言 LLM,优先考虑语言多样性和可访问性。拥有 176 亿参数,BLOOM 可以处理 46 种自然语言和 13 种编程语言的任务,使其成为最大的和最多样化的 LLM 之一。
BLOOM 的开源性质允许研究人员、开发人员和语言社区从其功能中受益并为其改进做出贡献。
2. YAYI 2
YAYI 2 是一个专门为亚洲语言设计的开源 LLM,考虑到该地区的复杂性和文化细微差别。它从头开始在包含 16 种亚洲语言的多语言语料库上进行预训练,语料库中有 2.65 万亿个过滤后的标记。
这使得模型能够更好地满足亚洲语言和文化的特定需求。
3. PolyLM
PolyLM 是一个开源的“多语种”LLM,专注于解决低资源语言的挑战,提供适应能力。它是在一个包含约 640 亿标记的数据集上训练的,提供两种模型大小:1.7B 和 13B。PolyLM 支持 16 种以上的语言。
它使得在高资源语言上训练的模型能够适应低资源语言,并且只需要有限的数据。这使得 LLM 在不同语言情况和任务中更加有用。
4. XGLM
XGLM 拥有 75 亿参数,是一个在覆盖 20 多种语言的语料库上训练的多语言 LLM,使用了少样本学习技术。它是大规模多语言 LLM 家族的一部分,这些模型是在大量文本和代码数据集上训练的。
它旨在全面覆盖许多语言,这就是为什么它专注于包容性和语言多样性。XGLM 展示了构建满足各语言社区需求的模型的潜力。
5. mT5
由 Google AI 开发的 mT5(大规模多语言文本到文本转换器)是在 共同爬虫数据集 上训练的。mT5 是一种最先进的多语言 LLM,可以处理 101 种语言,从广泛使用的西班牙语和中文到资源较少的语言,如巴斯克语和凯楚亚语。
它还擅长多语言任务,如翻译、摘要、问答等。
是否可能实现通用 LLM?
一种语言中立的 LLM 的概念,即能够理解和生成语言而不偏向任何特定语言,很有趣。
虽然开发真正的通用 LLM 仍然遥遥无期,但当前的多语言 LLM 已经展示了显著的成功。一旦完全开发出来,它们就可以满足代表性不足的语言和多样化社区的需求。
例如,研究 表明,大多数多语言 LLM 都可以在没有任务特定训练数据的情况下实现从资源丰富语言到资源匮乏语言的零样本跨语言迁移。
此外,像 YAYI 和 BLOOM 这样的模型,它们专注于特定的语言和社区,已经展示了语言中心方法在推动进步和包容性方面的潜力。
为了构建通用 LLM 或改进当前的多语言 LLM,个人和组织必须:
- 众包本地语言的母语者参与社区参与和语言数据集的策划。
- 支持社区在开源贡献和多语言研究与开发方面的努力,并提供资金支持。
多语言 LLM 的挑战
虽然通用多语言 LLM 的概念很有前景,但它们也面临着必须在我们能够从中受益之前解决的几个挑战:
1. 数据量
多语言模型需要比单语言模型更大的词汇量来表示多种语言的标记,但许多语言缺乏大规模数据集。这使得有效地训练这些模型变得困难。
2. 数据质量问题
确保多语言 LLM 输出在各语言中的准确性和文化适宜性是一个重大问题。模型必须经过精心的训练和微调,以注意语言和文化的细微差别,以避免偏见和不准确性。
3. 资源限制
训练和运行多语言模型需要大量的计算资源,例如强大的 GPU(例如 NVIDIA A100 GPU)。高昂的成本对低资源语言和计算基础设施有限的社区来说是一个挑战。
4. 模型架构
将模型架构适应于多种语言的不同结构和复杂性是一个持续的挑战。模型必须能够处理具有不同词序、形态变化和书写系统的语言,同时保持高性能和效率。
5. 评估复杂性
评估多语言 LLM 的性能超越英语基准对于衡量其真正的有效性至关重要。这需要考虑文化细微差别、语言特异性和领域特定要求。
多语言 LLM 有潜力打破语言障碍,赋予资源匮乏的语言权力,并促进不同社区之间的有效交流。
不要错过最新的 AI 和 ML 新闻和分析 – 今天就访问 unite.ai。










