Anderson 视角

嘴唇阅读与视音素和机器学习

发布于 2021年4月13日

更新于 2026年5月25日

作者

Martin Anderson

HAL reads lips in 2001: A Space Odyssey (1968)

来自德黑兰计算机工程学院的新研究为创建能够读唇的机器学习系统这一挑战提供了一个改进的方法。

该论文，题为《使用视音素解码的唇读》，报告称新系统在词错误率方面比之前最好的类似模型提高了4％。该系统通过将视音素映射到OpenSubtitles数据集中的六百万个样本的文本内容来解决该领域普遍缺乏有用的训练数据的问题。

视音素是音素的视觉等价物，有效地实现了音频到图像的映射，可以成为机器学习模型中的一个“特征”。

视音素在行动。 来源：https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

研究人员首先在现有数据集上建立了最低错误率，并从成熟的映射程序中开发了视音素序列。逐渐地，这个过程开发了一个视觉词汇，但需要为共享视音素的不同单词定义准确率的概率（例如“heart”和“art”）。

从文本中提取的视音素。 来源：https://arxiv.org/pdf/2104.04784.pdf

当两个相同的单词产生相同的视音素时，选择出现频率最高的单词。

该模型在传统的序列到序列学习的基础上添加了一个子处理阶段，其中视音素从文本中预测并在专用管道中建模：

上图为传统序列到序列方法在字符模型中；下图为德黑兰研究模型中添加的视音素字符建模。 来源：https://arxiv.org/pdf/2104.04784.pdf

该模型在没有视觉上下文的情况下应用于LRS3-TED数据集，该数据集由牛津大学于2018年发布，获得的最差单词错误率（WER）为24.29％。

德黑兰研究还结合使用了音素到音素转换器。

在对2017年牛津研究《野外唇语句子》进行测试中，视频到视音素方法实现了62.3％的单词错误率，而牛津方法实现了69.5％的单词错误率。

研究人员得出结论，使用更大数量的文本信息结合音素到音素和视音素映射，承诺在自动唇读机器系统中改进当前的技术，而承认使用的方法可能会在更复杂的当前框架中产生更好的结果。

机器驱动的唇读在过去二十年中一直是计算机视觉和自然语言处理研究的活跃和正在进行的领域。其中许多其他例子和项目中，2006年使用自动唇读软件占据了头条，当时该软件被用于解释阿道夫·希特勒在其巴伐利亚退居处拍摄的某些无声电影中说了什么，尽管该应用程序似乎自那时以来就消失在了无闻中（十二年后，彼得·杰克逊诉诸于人类唇读者，以恢复第一次世界大战镜头中的对话，在《他们不会老去》修复项目中）。

2017年，牛津大学和谷歌人工智能研究部门合作的《野外唇语句子》项目，产生了一个唇读AI，能够在没有声音的视频中正确推断出48％的语音，而人类唇读者只能从相同的材料中达到12.4％的准确率。该模型是在数千小时的BBC电视录像的基础上训练的。

这项工作接着2016年牛津/谷歌的一个单独项目《LipNet》之后，该项目是一个将视频序列映射到文本序列的神经网络架构，使用了门控循环神经网络（GRN），该网络为循环神经网络（RNN）添加了功能。该模型实现了4.1倍于人类唇读者的性能。

除了实时生成准确的转录文本之外，解释视频中的语音的挑战会随着上下文的减少而加深，例如音频、正面拍摄的镜头、语言/文化中音素/视音素相对明显等。

虽然目前没有实证证据表明哪些语言在没有音频的情况下最难以唇读，但日语是一个主要竞争者。日语母语者（以及某些其他西亚和东亚母语者）利用面部表情与其语音内容的方式已经使他们成为情感分析系统的一个更大的挑战。

然而，值得注意的是，关于这个话题的大部分科学文献通常是谨慎的，因为即使是善意的客观研究也存在跨越到种族刻板印象和现有偏见的风险。

具有大量喉音成分的语言，例如车臣语和荷兰语，对于自动语音提取技术来说尤其具有挑战性，而在说话者可能通过看向别处来表达情感或敬意的文化中（通常是在亚洲文化中），人工智能唇读研究人员将需要开发其他方法来从其他上下文线索中“填充”信息。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

嘴唇阅读与视音素和机器学习

发现更多