人工智能系统可能更喜欢人类语言而不是数字数据

发布于 2021年4月10日

更新于 2026年5月25日

作者

Alex McFarland

新研究来自哥伦比亚工程学院，表明人工智能（AI）系统更喜欢人类语言而不是数字数据，如1和0。该研究由机械工程教授Hod Lipson和博士生Boyuan Chen进行，他们证明了如果用人类语言音频文件编程，AI系统可以达到更高的性能水平。

在并行比较中，研究人员发现用音频文件训练的神经网络在识别物体方面达到更高的性能水平，相比用简单二进制输入编程的网络。

Lipson是詹姆斯和萨莉·斯卡帕创新教授，也是哥伦比亚大学数据科学研究所的成员。

“为了理解这一发现的意义，我们需要了解神经网络通常如何编程，以及为什么使用人类声音是激进的实验，”他说。

使用二进制数字是紧凑和精确的，而人类语言在数字文件中更复杂和非二进制。程序员通常不会偏离数字来开发神经网络，因为它非常高效。

该团队在认为神经网络没有达到其全部潜力，并相信它们可以更快、更好地训练，如果它们使用人类声音和特定词语的话，于是他们开始了这项研究。

当测试新的机器学习技术时，AI研究人员经常训练神经网络来识别特定物体和动物在一组照片中。

该团队，包括Chen、Lipson、Yu Li和Susan Raghupathi，设置了一个受控实验来测试他们的假设，并创建了两个新的神经网络。他们旨在训练它们来识别50,000张照片中的10种不同类型的物体。

一个AI系统按照传统方式用数字值训练，而实验神经网络则以非常不同的方式训练。它被提供一个数据表，其中包含一张动物或物体的照片，以及第二列包含人类声音音频文件，音频文件中说出动物或物体的词语。实验网络中没有1和0的参与。

两个AI系统都训练了15个小时。结果显示，原始网络以一系列1和0回答，而实验神经网络产生了一个声音，显然试图“说出”图像中的物体是什么。虽然原始声音不能理解，但最终变得大部分正确。

两个网络的性能相同，正确识别物体或动物92%的时间。研究人员然后决定再次运行实验，但这次他们使用的照片更少。

传统网络由于数据不足而性能较差，准确率下降到约35%。然而，实验网络的性能是传统网络的两倍，准确率为70%，尽管数据较少。

接下来，团队使用更难的图像，例如一张损坏的狗图像。即使使用更难的图像，声音训练的神经网络也能正确识别物体50%的时间，而传统网络仅20%准确。

Boyuan Chen是该研究的首席研究员。

“我们的发现直接违背了许多专家被训练的思考方式；这是一个常见的假设，二进制输入是将信息传递给机器的更高效方式，而不是音频流，”Chen解释说。“事实上，当我们将这项研究提交给一个大型AI会议时，一个匿名审稿人仅仅因为他们觉得我们的结果太令人惊讶和违反直觉而拒绝了我们的论文。”

“如果你考虑到人类语言已经经过数万年的优化过程，那么它就找到了噪声和信号之间的良好平衡，这是有道理的，”Lipson说。“因此，当通过香农熵的视角来看时，一个用人类语言训练的神经网络会优于一个用简单的1和0训练的神经网络，这是合理的。”

该研究将在2021年5月3日的国际学习表示会议上发表。

“我们应该思考使用新颖和更好的方法来训练AI系统，而不是收集更大的数据集，”Chen说。“如果我们重新思考如何向机器呈现训练数据，我们可以做得更好作为老师。”

“人类进化中最大的谜团之一是我们的祖先如何获得语言，以及孩子们如何轻松地学会说话，”Lipson补充说。“如果人类幼儿最适合重复的口头指令，那么也许AI系统也可以。”

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI