Connect with us

人工智能

DeepScribe AI 可以帮助翻译古代泥板

mm

芝加哥大学东方研究所和计算机科学系的研究人员合作设计了一种人工智能,可以帮助解码古代文明的泥板。根据 Phys.org 的报道,这种人工智能被称为 DeepScribe,它是在超过 6,000 张来自波斯波利斯堡垒档案的注释图像上进行训练的。当该模型完成时,它将能够解释未经分析的泥板,使研究古代文献变得更容易。

研究古代文献的专家,例如研究波斯阿契美尼德帝国时期的文件的研究人员,需要手动翻译古代文献,这是一个容易出错的漫长过程。自 20 世纪 90 年代以来,研究人员一直使用计算机来帮助解释古代文献,但使用的计算机程序帮助有限。复杂的楔形文字以及泥板的三维形状限制了计算机程序的用途。

计算机视觉算法和深度学习架构为该领域带来了新的可能性。计算机科学系的 Sanjay Krishnan 与亚述学副教授 Susanne Paulus 合作启动了 DeepScribe 计划。研究人员监督了一种名为 OCHRE 的数据库管理平台,该平台组织了考古发掘的数据。目标是创建一个既广泛又灵活的人工智能工具,能够解释来自不同地理区域和时间段的脚本。

Phys.org 报道,Krishnan 解释说,考古研究人员面临的识别脚本的挑战本质上与计算机视觉研究人员面临的挑战相同:

“从计算机视觉的角度来看,这很有趣,因为这些挑战与我们面临的挑战相同。过去五年,计算机视觉有了显著的改进;十年前,这将是手工操作,我们不会取得如此大的进步。这是一个好的机器学习问题,因为这里的准确性是客观的,我们有一个标记的训练集,我们对脚本的理解相当好,这有助于我们。这不是一个完全未知的问题。”

相关的训练集是通过对芝加哥大学东方研究所和 U Chicago 过去大约 80 年的考古研究成果进行处理,制作了高分辨率的注释图像。目前,训练数据的大小约为 60 太字节。研究人员能够使用该数据集并创建一个包含超过 10 万个单独识别符号的字典,该模型可以从中学习。当训练模型在未见过的图像集上进行测试时,模型实现了大约 80% 的准确率。

虽然研究团队正在尝试提高模型的准确率,但即使 80% 的准确率也可以在转录过程中提供帮助。根据 Paulus 的说法,该模型可以用于识别或翻译文件中高度重复的部分,让专家们可以花更多时间解释文件中更困难的部分。即使模型不能确定某个符号的翻译,但它可以提供概率,这已经让研究人员领先一步。

该团队还旨在使 DeepScribe 成为其他考古学家可以在其项目中使用的工具。例如,该模型可以在其他楔形文字语言上进行重新训练,或者模型可以对损坏或不完整的泥板上的文本进行明智的估计。一个足够强大的模型甚至可以估计泥板或其他文物的年代和起源,这通常是通过化学测试来完成的。

DeepScribe 项目由高级计算机发展中心(CDAC)资助。计算机视觉也被用于其他 CDAC 资助的项目,例如一个旨在识别艺术作品风格的项目和一个旨在量化海洋双壳类生物多样性的项目。研究团队还希望他们的合作将导致芝加哥大学计算机科学系和东方研究所之间的未来合作。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。