人工智能

新的 AI 模型支持更广泛的人类语言

mm

滑铁卢大学的研究人员开发了一个可以让计算机处理更广泛的人类语言的 AI 模型。这是在该领域的一个重要进步,因为在编程过程中,许多语言经常被忽略。非洲语言通常不会被计算机科学家关注,这导致自然语言处理(NLP)能力在该大陆受到限制。

新的语言模型由滑铁卢大学 David R. Cheriton 计算机科学学院的研究团队开发。

研究是在 2021 年自然语言处理经验方法会议的多语言表示学习研讨会上发表的。

该模型在帮助计算机分析非洲语言的文本以执行许多有用任务方面发挥着关键作用,它被称为 AfriBERTa。它使用深度学习技术来实现低资源语言的令人印象深刻的结果。

支持 11 种非洲语言

AfriBERTa 目前支持 11 种非洲语言,包括阿姆哈拉语、豪萨语和斯瓦希里语,后者是 4 亿多人使用的语言。该模型展示了与现有最佳模型相当的输出质量,并且它只需要从 1GB 的文本中学习。其他类似的模型通常需要数千倍的数据。

Kelechi Ogueji 是滑铁卢大学计算机科学的硕士生。

“预训练语言模型已经改变了计算机处理和分析文本数据的方式,用于从机器翻译到问答等任务,” Ogueji 说。“不幸的是,非洲语言从研究社区得到了很少的关注。”

“一个挑战是,神经网络在构建时需要大量的文本和计算资源。与英语不同,英语有大量可用的文本,世界上大约 7,000 种语言可以被认为是低资源的,因为没有足够的数据来满足数据饥渴的神经网络。”

预训练技术

这些模型大多依赖于预训练技术,涉及研究人员向模型呈现一些单词被隐藏或掩盖的文本。然后,模型必须猜测隐藏的单词,并重复这个过程数十亿次。它最终学习了单词之间的统计关联,这与人类的语言知识类似。

Jimmy Lin 是计算机科学的 Cheriton 主席,也是 Ogueji 的导师。

“能够预训练模型,使其在某些下游任务中具有相同的准确性,但使用的数据量要小得多,这有很多优势,” Lin 说。“需要更少的数据来训练语言模型意味着需要更少的计算,并且与运行大型数据中心相关的碳排放量也会降低。更小的数据集也使数据整理更加实用,这是减少模型中存在的偏见的一种方法。”

“这项工作迈出了一个小但重要的步骤,向非洲大陆的 13 亿多人带来自然语言处理能力。”

该研究还涉及 Yuxin Zhu,他最近在大学完成了计算机科学的本科学位。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。