人工智能
Facebook 创建了一种可以直接在 100 种不同语言之间进行翻译的机器翻译模型

Facebook最近开发了一种新的机器翻译模型, 可以在100种语言中任意两种语言之间进行翻译。虽然其他机器翻译系统存在, 但大多数其他AI翻译系统都是先将文本翻译成英语, 然后再将文本从英语翻译成其他语言。 据Engadget报道, Facebook的AI翻译器不使用英语作为中间语言, 据报道其准确率约为90%。
Facebook的AI模型训练数据由约75亿对句子组成, 分布在100种不同的语言中。这些数据是使用一系列网页爬虫从网上收集的, 并使用称为FastText的语言模型来识别收集的数据中的语言。收集数据后, 将其通过称为LASER 2.0的工具 运行, 以提取不同句子样本的含义, 并根据其含义将不同语言中的句子匹配在一起。 LASER 2.0由Facebook开发, 它采用无监督学习算法来创建嵌入。句子嵌入包含有关不同句子之间的关系的信息, 例如使用频率和句子之间的接近程度。 LASER 2.0然后可以创建具有非常相似含义的句子对。
训练数据不仅仅是根据句子含义配对的。语言本身也被分组在一起。目标是设计一种不需要使用英语作为两种语言之间的中间语言的系统, Facebook的Angela Fan领导该项目, 指出世界各地的许多地区都说着两种非英语语言。 Facebook工程师通过关注常常相互翻译的语言配对来进行训练。根据诸如文化、语言相似性和地理位置等变量, 创建了14个不同的语言组。例如, 研究人员创建的一个语言组包含了印度最常用的语言, 包括乌尔都语、泰米尔语、印地语和孟加拉语。这样做是为了使常见的语言配对能够获得高质量的翻译。
语言组专注的训练方法得到了一些有趣的结果。发现所得到的翻译模型对于某些语言配对具有比现有模型更高的准确率。例如, 在英语和白俄罗斯语之间翻译时, AI能够应用它在翻译俄语时所学的某些模式, 因为白俄罗斯语与俄语有语言相似性。同样, 西班牙语和葡萄牙语之间的翻译工作得到了改进, 因为西班牙语是第二种最广泛使用的语言, 并且有大量的训练数据。
大约有60种语言翻译系统尚未涵盖, 并且模型在没有大量训练数据的语言上的准确率需要在其准备好使用之前得到改进。东南亚和非洲的许多语言缺乏训练可靠模型所需的数据量。研究团队需要确定某种方式来弥补这一缺乏的数据。研究团队还需要确定如何控制模型可能学到的任何种族主义、性别歧视或其他不雅的模式。虽然研究团队使用了一个亵渎过滤器, 但该过滤器主要适用于英语数据。
机器翻译系统尚未在Facebook的社交媒体平台上使用。当前模型仅用于研究目的。然而, Facebook正在准备设计类似的模型, 并使其处理网站每天收到的约200亿个翻译请求。
