人工智能

统一语音和手势合成

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

当我从意大利南部回到英国后，一段时间内我很难停止在说话时使用手势。在英国，使用大胆的手势来支持你的说话只会让你看起来过度兴奋；在意大利，作为一名学习语言的人，它实际上帮助我被理解。即使现在，在我较少机会说意大利语时，”狂野的手势”又回来了。几乎不可能不动手就说意大利语。

近年来，手势支持的交流在意大利和犹太文化中已经引起了公众的关注，不仅仅是马丁·斯科塞斯和早期伍迪·艾伦电影中的一个特征。2013年，纽约时报编制了一段短视频历史的意大利手势；学术界开始研究种族的倾向于手势，而不是将该主题作为一个刻板印象；来自Unicode Consortium的新表情填补了纯数字、基于文本的交流中手势短缺的问题。

语音和手势的统一方法

现在，新研究来自瑞典KTH皇家理工学院的语音、音乐和听觉部门，旨在将语音和手势识别结合成一个统一的、多模式系统，这可能会通过使用身体语言作为语音的集成辅助而不是并行的研究领域来增加我们对语音交流的理解。

瑞典语音/手势项目的测试页面的视觉效果。 来源：https://swatsw.github.io/isg_icmi21/

该研究提出了一种新的模型，称为集成语音和手势（ISG）合成，并结合了语音和手势研究中的多个最先进的神经模型。

这种新方法放弃了线性管道模型（其中手势信息是从语音中派生出来的，作为次要处理阶段），而采用了更集成的方法，这种方法在最终用户中与现有系统一样，并且实现了更快的合成时间和减少参数数量。

线性与集成方法。 来源：https://arxiv.org/pdf/2108.11436.pdf

新的多模式系统包含一个自发的文本转语音合成器和一个音频语音驱动的手势生成器，两者都在现有的Trinity Speech Gesture 数据集上进行了训练。数据集包含244分钟的音频和身体捕获数据，讲述的是一个人在不同话题上自由发挥的手势。

这项工作是 DurIAN 项目的新颖和旁支等价物，该项目生成面部表情和语音，而不是手势和语音，并且更侧重于表达识别和合成。

架构

该项目的语音和视觉（手势）组件在数据方面是不平衡的；文本是稀疏的，手势是丰富的和数据密集的——这在定义目标和指标方面是一个挑战。因此，研究人员主要通过人类对输出的反应来评估系统，而不是使用更明显的机制方法，例如均方误差（MSE）。

两个主要的ISG模型围绕2017年谷歌的第二版 Tacotron端到端语音合成项目和2020年发表的韩国 Glow-TTS 计划开发。Tacotron使用自回归LSTM架构，而Glow-TTS则通过卷积运算并行运行，具有更快的GPU性能，并且没有自回归模型可能存在的稳定性问题。

研究人员在项目中测试了三个有效的语音/手势系统：2021年由部分相同研究人员发表的多模式语音和手势生成的修改版本；Tacotron 2的专用和修改的ISG版本；以及Glow-TTS的高度修改的ISG版本。

为了评估系统，研究人员创建了一个基于Web的反馈环境，包含有3D人说话和移动到预定义的文本段（一般环境可以在公共项目页面上看到）。

测试环境。

测试对象被要求根据语音和手势、语音和手势分别评估系统的性能。结果显示，新ISG版本在较旧的管道版本上略有改进，尽管新系统运行速度更快，资源减少。

当被问及“手势有多人性化？”时，完全集成的ISG模型略微领先于较慢的管道模型，Tacotron和Glow-based模型落后。

嵌入式耸肩

Tacotron2-ISG模型是三种方法中最成功的一种，表现出了一种与数据集中一些最常见的短语（如“我不知道”）相关的“潜意识”学习——尽管缺乏明确的数据来生成一个随着该短语伴随的耸肩，但研究人员发现生成器确实会耸肩。

研究人员指出，该项目的非常规性质不可避免地意味着缺乏一般资源，例如专门的数据集，以适合训练此类系统。尽管如此，他们仍然认为这是一个有前途和鲜为人知的语音、语言学和手势识别领域。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

统一语音和手势合成

语音和手势的统一方法

架构

嵌入式耸肩

You may like